深麦咨询
内容阅读

设计思维 | 大语言模型集成 SNOMED CT 的三种方式

【医信产品的设计思维】系列 2024年第16篇

21
发表时间:2024-10-11 12:13作者:马学海

为弥补大语言模型(LLM)在专业领域应用中的短板,将领域知识库和知识图谱整合进来已成为主流路径之一。

SNOMED CT (系统化临床医学术语集)是国际公认的临床医学术语标准,也是目前最庞大的临床医学术语集(综合性的UMLS除外),由国际医疗术语标准发展组织IHTSDO维护。实际上,它不仅仅是名词术语,它以概念描述逻辑为基础,以关联组配为特色,通过概念、描述和关系来表达临床信息,可以看做是一套适合临床使用的生物医学本体或知识图谱,可用于支持电子健康记录(EHR)的应用,包括临床决策支持系统(CDSS)。

随着LLM的兴起,将 SNOMED CT 和 LLM 进行结合的探索也多了起来。近日,韩国的两位研究人员在 JMIR Medical Informatics 发表了一篇文章,对 SNOMED CT 在大语言模型中的应用进行了综述。

这篇综述基于37项研究,围绕三个方面进行了重点分析:(1)与 SNOMED CT 整合的 LLM 的类型和组成部分;(2)SNOMED CT 的哪些内容被整合;(3)这种整合是否提高了 LLM 在 NLP 任务中的表现。

文章将SNOMED CT 与 LLM的集成方式归纳为三种:

1. 将 SNOMED CT 融入 LLM 输入,即利用概念描述来扩展训练语料库。这类占比最大(76%)。

具体又分为三种方法:

(1)描述集成:通过直接将 SNOMED CT 概念描述的文本添加到训练语料库中来扩展领域词汇量。

fig2-Integrating-SNOMED-CT-descriptions.jpg

(2)关系集成:将 SNOMED CT 的相关子图信息表示为图边,引入到 LLM 中。

fig3-Integrating-SNOMED-CT-relations .jpg


(3)实体类型集成:将实体类型信息纳入训练语料库中。

fig4-Integrating-SNOMED-CT-Entity-type.jpg


2. 将 SNOMED CT 集成到附加的融合模块中。

fig5-Integrating-SNOMED-CT-into-additional-fusion-modules.jpg


3. 检索增强型(Retrieval-augmented)知识融合。在推理过程中将 SNOMED CT 作为外部知识检索器使用。

fig6-Retrieval-augmented-knowledge-fusion.jpg


研究结果表明 SNOMED CT 整合具有潜在的优势,但由于缺乏标准化的评估方法和全面的性能报告,因此无法对其有效性得出明确的结论。


参考文献:

Chang E, Sung S.
Use of SNOMED CT in Large Language Models: Scoping Review
JMIR Med Inform 2024;12:e62924
https://doi.org/10.2196/62924


分享到: