深麦咨询
内容阅读

设计思维 | 大语言模型用于临床决策支持系统(CDSS):20个挑战

【医信产品的设计思维】系列 2024年第15篇

10
发表时间:2024-08-26 11:37作者:马学海

过去两年,有关大语言模型(LLMs)用于临床决策场景的各类研究和实践探索层出不穷,连篇累牍。但直到目前,LLMs的实际效果依然差强人意。

临床决策支持系统(CDSS)的开发人员在此过程中逐渐认识到了应用LLMs所要面临的很多挑战。本人对此进行了简单梳理,总结出20个方面的关键问题:

技术:10项

  • 可解释性较差:LLMs通常难以解释其决策过程,而这对于医疗领域中的透明度和信任至关重要。

  • 高输出变异性:LLMs可能在相同的输入下产生不同的输出,导致性能的不一致性。

  • 文本分辨障碍:随着LLM的发展,其生成的文本越来越难以与人类编写的文本区分,这可能对医疗文本的真实性和可信度造成影响。

  • 数据质量:LLM的训练依赖于大量的医疗文本数据,如病历、研究报告等,数据的质量直接影响模型的性能。

  • 多模态数据处理和系统集成:医疗数据不仅包括文本信息,还包括图像、声音等多种模态,LLM需要能够有效处理和整合这些多模态数据以提供更全面的决策支持。所以,LLM需要能够与医院现有的信息系统无缝集成,以便于在实际临床环境中使用。

  • 数据捏造:LLMs可能会生成看似合理但实际并不准确的信息或建议,或称AI幻觉,可能对患者造成伤害。

  • 质量控制:需要确保LLMs的训练数据质量和代表性,以避免因数据偏见而影响医疗决策的公正性和准确性。

  • 评估框架:对LLM的评估可能因为基准数据的过时或评估协议的微小变化而导致结果的巨大差异。需要开发独立的和稳定的评估框架和测试平台,以确保LLM-based CDSS的性能和安全性。

  • 技术实现和成本:开发和部署LLM在医疗决策支持系统中需要考虑技术实现的可行性和成本效益。这包括模型的训练、优化、部署以及持续的维护和更新 。

  • 技术优化:需要进一步的技术优化,例如使用检索增强生成技术(RAG)并结合知识图谱应用,来提高LLMs在医疗任务上的性能。

专业:5项

  • 知识更新和准确性:医疗领域知识复杂且更新迅速,LLM需要具备高度的专业性来确保提供的医疗建议是准确可靠的。然而,现有的LLM可能在专业性和准确性方面存在不足,需要通过持续学习和更新来适应新的医学知识。

  • 临床验证:将LLMs的研究成果转化为临床应用需要严格的测试和验证,这在真实世界的医疗场景中往往受限。

  • 实验设计:在LLM的研究中,许多工作缺乏控制变量实验,这限制了对模型性能的全面理解。

  • 循证范式:需要和现有的循证知识库有效整合,在决策过程中遵守循证规则,有清晰的证据来源和证据分析策略。

  • 行为对齐:确保LLM的行为与医疗专业人员的行为保持一致,避免因行为差异导致的医疗建议偏差。

伦理、安全及监管:5项

  • 隐私与安全:医疗数据通常包含敏感信息,需要在训练和使用LLM时确保数据的隐私和安全性,建立数据保护原则及方法。这包括数据的本地化部署、加密、匿名化以及访问控制等措施。

  • 伦理与偏见:在医疗领域使用LLM需要遵守相关的伦理准则,同时尽可能消除偏见(种族、性别等等)。

  • 知识产权与法律法规:在医疗领域使用LLM需要遵守相关的法律法规,确保内容生产者和数据持有者的权益得到保护,确保医生和患者的权益得到保护。

  • 监管及执行:由于LLMs的独特特性,它们作为医疗设备受到监管的路径不明确,需要新的更为有效的监管框架。

  • 法律责任:在出现误诊或治疗建议错误时,需要确定LLMs及其开发者、使用者的法律责任。


分享到: