靠大模型就能看病？专家说：还不行

《自然-医学》发表的一项研究指出，大语言模型（LLM）或许不能协助公众作出更好的日常健康决策。

全球医疗机构提议将LLM作为提升公众获取医疗信息的潜在工具，让个人在向医生求助前，先由LLM进行初步健康评估和疾病管理。但研究显示，即使在医师资格考试中得分很高的LLM也并不保证能有效完成真实世界的交互。

研究团队对LLM进行了测试，看其是否能协助公众精准辨别医疗病症——如普通感冒、贫血或胆结石——并选择一种行动方案，如呼叫救护车或联系全科医生。作者给1298名英国受试者每人指派了10种不同医疗情景，并让他们随机使用三个LLM中的一个，或使用他们的常用资源（对照组），如互联网搜索引擎，来辨别自己的疾病并选择行动方案。

不用人类受试者进行测试时，LLM能准确完成这些情景，平均能在94.9%的情况下正确辨别疾病，在56.3%的情况下选择正确的行动方案。不过，当受试者使用相同的LLM时，相关病症的识别率低于34.5%，选择正确行动方案的情况低于44.2%——该结果未超过对照组。

作者人工检查了人类与LLM交互中的30种情况发现，受试者向模型提供的信息常常不完整或不准确，而且LLM有时也会生成误导性或错误的信息。因此，当前的LLM尚未准备好直接用于患者医疗，因为将LLM与人类用户配对会产生现有基准测试和模拟交互无法预测到的问题。

【纠错】

【责任编辑:ARES11MARS】

深度观察

新华全媒头条丨年末伊朗又起内忧：货币暴跌、三年来最大抗议…