當大語(yǔ)言模型在醫師資格考試中都能取得高分時(shí),人們曾期待它能成為貼身的“AI健康助手”。然而《自然·醫學(xué)》發(fā)表的一項在英國展開(kāi)的研究表明,這些實(shí)驗室里的“優(yōu)等生”在面對真實(shí)用戶(hù)時(shí),表現卻有可能意外“掉鏈子”——它們協(xié)助普通人作健康決策的效果,并未超越互聯(lián)網(wǎng)搜索引擎。這項發(fā)現為當前火熱的AI醫療應用,敲響了一記科學(xué)的警鐘:人們會(huì )不會(huì )高估了當前大語(yǔ)言模型輔助普通人作健康決策的能力?
當前全球醫療體系正嘗試將大語(yǔ)言模型打造為公眾的“第一道健康防線(xiàn)”,幫助人們在就診前進(jìn)行自我評估與管理。然而,該研究揭示了一個(gè)關(guān)鍵落差:在標準測試中表現優(yōu)異的AI模型,一旦面對真實(shí)場(chǎng)景中的普通人,其表現可能大打折扣。
牛津互聯(lián)網(wǎng)研究所科學(xué)家設計了一個(gè)貼近生活的實(shí)驗:邀請近1300名英國參與者,模擬應對感冒、貧血、膽結石等十種常見(jiàn)健康場(chǎng)景,并決定該采取何種行動(dòng)——是撥打急救電話(huà),還是預約家庭醫生。參與者被隨機分配使用三種主流大語(yǔ)言模型(GPT-4o、Llama3或Command R+)之一,或使用互聯(lián)網(wǎng)搜索引擎作為對照。
結果出現了有趣的“人機鴻溝”:當不用人類(lèi)受試者進(jìn)行測試時(shí),AI表現非常出色,平均能識別94.9%的疾病,并在超過(guò)半數情況下給出恰當建議。但當普通人使用相同模型時(shí),疾病識別率驟降至不足35%,行動(dòng)建議準確率也低于45%,甚至未顯著(zhù)優(yōu)于互聯(lián)網(wǎng)搜索引擎。
科學(xué)家進(jìn)一步分析對話(huà)記錄,發(fā)現了兩組典型的“溝通盲區”:普通人往往難以準確、完整地描述癥狀,而AI偶爾也會(huì )生成看似合理實(shí)則具有誤導性的回應。這種雙向的信息偏差,讓原本在測試中表現優(yōu)秀的模型在實(shí)際應用中打了折扣。
這也表明,當前的大語(yǔ)言模型若直接應用于公眾健康咨詢(xún)仍需謹慎,因為在真實(shí)的人機互動(dòng)中,存在大量實(shí)驗室測試無(wú)法預測的復雜性。AI醫療助手的發(fā)展不僅需要技術(shù)迭代,更需要深入理解:當健康遇到焦慮,當專(zhuān)業(yè)術(shù)語(yǔ)遇到日常表達時(shí),人與機器該如何更好地“對話(huà)”。(記者 張夢(mèng)然)