余弦相似度算法与预训练语言模型(PLM)工具结合了余弦相似度计算和预训练语言模型,专门用于医疗文档的相似性检索和分析。 该工具使用领域特定的预训练语言模型(如BioBERT、ClinicalBERT)生成文本的向量表示,然后使用余弦相似度度量计算文本之间的相似性。
余弦相似度是衡量两个向量方向相似性的度量,其值在-1到1之间,值越大表示两个向量的方向越接近。 在医疗文本分析中,高余弦相似度表示两个文档在语义上高度相关。
主要功能包括:
该工具特别适用于医学文献检索、病例相似性分析和医疗知识库构建等应用场景。
上传文档集合并运行分析后,结果将显示在这里
找到了与查询文本最相似的文档。
文档ID | 相似度 | 诊断 | 内容摘要 |
---|---|---|---|
文档2 | 0.92 | 急性前壁ST段抬高型心肌梗死 | 患者男性,58岁,因"突发胸痛伴大汗淋漓3小时"入院。既往体健。查体:心率115次/分... |
文档1 | 0.85 | 急性ST段抬高型心肌梗死 | 患者男性,63岁,因"反复胸闷、胸痛3个月,加重伴气促2天"入院。既往有冠心病、高血压... |
文档3 | 0.65 | 不稳定型心绞痛 | 患者女性,68岁,以"发作性胸痛、胸闷伴出汗1周"就诊。既往高脂血症10年。体检:BP 150/90mmHg... |
文档5 | 0.52 | 心源性脑栓塞 | 患者女性,58岁,因"突发右侧肢体无力、言语不清30分钟"急诊入院。既往有房颤、高血压病史... |
文档4 | 0.48 | 急性脑梗死 | 患者男性,72岁,因"间断头晕、视物旋转伴恶心3天"入院。患者既往有高血压、脑梗死病史... |
您的文档集合已成功进行余弦相似度分析。
文档数量 | 10 |
---|---|
平均文档长度 | 212 字符 |
使用语言模型 | BioBERT |
池化策略 | CLS标记 |
相似文档对数量 | 7 |
平均相似度 | 0.51 |
处理时间 | 4.25 秒 |
文档1 | 文档2 | 文档3 | 文档4 | 文档5 | 文档6 | 文档7 | 文档8 | 文档9 | 文档10 | |
---|---|---|---|---|---|---|---|---|---|---|
文档1 | 1.00 | 0.88 | 0.75 | 0.45 | 0.48 | 0.32 | 0.25 | 0.28 | 0.31 | 0.22 |
文档2 | 0.88 | 1.00 | 0.72 | 0.42 | 0.45 | 0.30 | 0.23 | 0.26 | 0.29 | 0.20 |
文档3 | 0.75 | 0.72 | 1.00 | 0.38 | 0.41 | 0.27 | 0.22 | 0.24 | 0.26 | 0.19 |
文档4 | 0.45 | 0.42 | 0.38 | 1.00 | 0.83 | 0.34 | 0.29 | 0.31 | 0.33 | 0.25 |
文档5 | 0.48 | 0.45 | 0.41 | 0.83 | 1.00 | 0.36 | 0.31 | 0.33 | 0.35 | 0.27 |
文档6 | 0.32 | 0.30 | 0.27 | 0.34 | 0.36 | 1.00 | 0.39 | 0.41 | 0.43 | 0.35 |
文档7 | 0.25 | 0.23 | 0.22 | 0.29 | 0.31 | 0.39 | 1.00 | 0.67 | 0.79 | 0.58 |
文档8 | 0.28 | 0.26 | 0.24 | 0.31 | 0.33 | 0.41 | 0.67 | 1.00 | 0.62 | 0.71 |
文档9 | 0.31 | 0.29 | 0.26 | 0.33 | 0.35 | 0.43 | 0.79 | 0.62 | 1.00 | 0.55 |
文档10 | 0.22 | 0.20 | 0.19 | 0.25 | 0.27 | 0.35 | 0.58 | 0.71 | 0.55 | 1.00 |
文档对 | 相似度 | 疾病类型 |
---|---|---|
文档1 - 文档2 | 0.88 | 心肌梗死 |
文档4 - 文档5 | 0.83 | 脑血管疾病 |
文档7 - 文档9 | 0.79 | 胆道系统疾病 |
文档1 - 文档3 | 0.75 | 冠心病 |
文档2 - 文档3 | 0.72 | 冠心病 |
文档8 - 文档10 | 0.71 | 腹部急症 |
文档7 - 文档8 | 0.67 | 消化系统疾病 |