文本相似度与预训练语言模型

工具说明

文本相似度与预训练语言模型工具结合了文本相似度计算和先进的预训练语言模型,用于分析医疗文本的语义相似性和关系。 该工具利用预训练语言模型(如BERT、BioBERT)将医疗文本转换为语义向量,然后使用余弦相似度等方法计算文本之间的相似程度。

主要功能包括:

  • 文本语义向量化:将医疗文本转换为高维语义向量表示
  • 文本相似度计算:计算文档之间的语义相似度
  • 相似文档检索:基于语义相似度查找相关文档
  • 文本聚类:根据语义相似性对文档进行聚类
  • 文本语义可视化:将文本语义映射到低维空间进行可视化

该工具支持TXT、CSV和JSON格式的文本文件,适用于处理临床记录、医学文献和病例报告等医疗文本数据。

数据上传与参数设置
拖放文件到这里或点击上传

支持的格式: TXT, CSV, JSON

已选择文件: medical_text_examples.txt
文件大小限制: 20MB。
语言模型参数
超过此长度的文本将被截断
用于生成整个文本表示的方法
相似度参数
0 0.7 1
高于此阈值的文档对将被视为相似
可视化设置
用于将高维向量映射到2D空间的方法
对文档进行层次聚类
分析结果

上传文本数据并运行分析后,结果将显示在这里