余弦相似度算法与预训练语言模型

工具说明

余弦相似度算法与预训练语言模型(PLM)工具结合了余弦相似度计算和预训练语言模型,专门用于医疗文档的相似性检索和分析。 该工具使用领域特定的预训练语言模型(如BioBERT、ClinicalBERT)生成文本的向量表示,然后使用余弦相似度度量计算文本之间的相似性。

余弦相似度是衡量两个向量方向相似性的度量,其值在-1到1之间,值越大表示两个向量的方向越接近。 在医疗文本分析中,高余弦相似度表示两个文档在语义上高度相关。

主要功能包括:

  • 文档相似性排序:根据与查询文档的相似度对文档集合进行排序
  • 相似文档检索:快速查找与目标文档最相似的文档
  • 语义搜索:基于查询文本的语义而非关键词匹配进行搜索
  • 文档聚类:基于语义相似性对文档进行分组
  • 交互式可视化:直观展示文档间的相似关系

该工具特别适用于医学文献检索、病例相似性分析和医疗知识库构建等应用场景。

数据上传与参数设置
拖放文件到这里或点击上传

支持的格式: TXT, CSV, JSON (每行一个文档)

已选择文件: medical_documents.txt
文件大小限制: 20MB。
预训练语言模型配置
用于生成整个文本表示的方法
超过此长度的文本将被截断
余弦相似度配置
0 0.7 1
高于此阈值的文档对将被视为相似
检索时返回的最相似文档数量
在计算相似度前归一化向量(推荐)
文本预处理
分析结果

上传文档集合并运行分析后,结果将显示在这里