在知识应用类产品(如临床决策支持系统CDSS)的开发中,知识模型的构建是一项核心基础工作。
什么是知识模型?简单概括,它是一种可用于指导行为的结构化框架,其目的是使得知识可以被计算机系统理解和处理。构建知识模型,通常包含以下几个关键要素:
概念(Concepts):知识模型中的基本元素,代表医疗领域中的实体,如疾病、药物、症状等。
术语(Terminology):用于确保知识模型中的概念和术语具有统一和明确的定义,以便于不同系统和用户之间的沟通。
关系(Relationships):描述概念之间的联系,比如因果关系、包含关系、顺序关系等。
规则(Rules):基于概念和关系形成的逻辑表达式,用于指导决策过程。例如,如果患者出现特定症状,则推荐进行某种检查。
证据(Evidence):支持规则和概念的科学依据,通常来源于临床指南、循证文献等。
数据模型(Data Model):定义了如何存储和处理知识模型中的数据,包括数据结构和数据类型。
推理机制(Reasoning Mechanism):用于根据知识模型中的规则和数据进行逻辑推理,以生成决策建议。
更新和维护(Update and Maintenance):知识模型需要定期更新以反映最新的医疗知识和证据。
需要注意的是,一些刚入门者会把“知识模型”和“知识表示”混淆,其实它们是两个高度相关但又有所不同的概念。“知识表示”提供了构建知识模型的技术基础,而“知识模型”则可以指导知识表示的设计和实现。
我们可以用下表来对比两者的不同:
| 知识表示 | 知识模型 |
基本 概念 | 一种方法或系统,用于在计算机系统中编码知识,以便计算机可以存储、处理和使用这些知识。 它关注的是如何将人类的知识转化为计算机可以理解和操作的形式,比如规则、框架、语义网络、本体等。 知识表示的目的是使计算机能够模拟人类的推理过程,解决复杂问题。 | 是指对特定领域知识的一种抽象和简化的表示,它通常用于描述和模拟现实世界中的实体、概念、过程和它们之间的关系。 知识模型可以是静态的,也可以是动态的,它不仅包括了知识的内容,还包括了知识的结构和动态变化。 知识模型通常用于指导决策、预测、模拟和解释复杂系统的行为。 |
目的 | 知识表示侧重于如何将知识编码到计算机系统中 | 知识模型侧重于对知识本身的结构和关系的描述 |
内容 | 知识表示可能包括多种不同的表示方法和形式 | 知识模型通常是指对特定领域知识的系统化描述 |
应用 | 知识表示是实现知识模型的一种手段 | 知识模型则是知识表示的应用目标 |
医学领域的知识表示可以有多种类型,以适应不同类型的医学信息处理分析,应用于不同的场景和需求。我们大致可以列举出以下6种类型:
列表(Lists):最简单的一种,如常见的词表和编码系统等。
层级结构(Hierarchies):包含多层次分类。如国际疾病分类系统(ICD),从21个大的诊断类别开始,逐步细分为更具体的诊断集合。
图(Graphs):本体或知识图谱,表示生物实体之间的关系,如基因共表达网络、蛋白质-蛋白质相互作用网络,或药物-靶标相互作用。
规则(Rules):反映临床诊断推理,通常来源于标准的临床指南。逻辑规则也用于表达约束,例如医学影像分割中的解剖约束。
序列模型(Sequential models):捕捉医学现象中的固有时间顺序和进展,例如如心电图信号,疾病进程的连续变化,病理(如SIR模型)的稳定进展。
函数(Functions)及概率分布(Probability distributions)。
[ 来源:Sirocchi, C., Bogliolo, A. & Montagna, S. Medical-informed machine learning: integrating prior knowledge into medical decision systems. BMC Med Inform Decis Mak 24 (Suppl 4), 186 (2024). https://doi.org/10.1186/s12911-024-02582-4)]
这些表示方法使得医学知识可以被有效地编码和集成到计算模型中,以提高模型的性能、准确性和可解释性。
在理解了知识表示的各种类型以及知识模型的各类要素之后,我们可以把知识模型的构建要点浓缩概括为以下四个方面:
对于临床决策应用,知识模型的构建是一个复杂的过程,涉及到医疗知识的收集、整理、验证和实施。一个良好的知识模型能够提高临床决策的效率和质量,减少医疗错误,并改善患者结果。
具体来说,用于临床决策支持(CDS)的知识模型的开发过程可以大致概括为以下几个基本步骤:
分析需求:确定目标场景和所需的知识类别及其来源,例如疾病风险评估、诊断、治疗干预等等。
选择标准:参考现有的医学术语集或标准集,选取相关概念作为基础,如 SNOMED CT,LOINC等。
确定内容:从内容源(如临床指南、循证文献、工具书等)提取知识模型的核心概念、关系和数据。
设计验证:结合CDS算法构建模型,并测试模型的有效性,反复验证迭代。
模型优化:优化可以从多个方面进行,包括形式上的简化和模块化,关系逻辑上的拆分与融合,透明度和可解释性的提升,动态知识更新和补全,等等。
因为整个过程涉及临床业务分析、医学信息学实践、产品设计、技术研发等,我们常常需要有一个多元团队协同工作。