來源:新華網 發布時間:2023-11-20 9:51
如何準確評估和解決大語言模型中的幻覺問題已成為一個至關重要的挑戰。近日,復旦大學與上海人工智能實驗室構建了針對中文大模型的幻覺評測數據集HalluQA,對業界主流的大模型進行了評估。
HalluQA采用無幻覺率來評估大模型的優劣。無幻覺率越高代表模型幻覺越低,事實準確性越高。在評測的24個主流大模型中,包括百度文心一言ERNIE-Bot、百川Baichuan、智譜ChatGLM、阿里通義千問和GPT-4等。
從評測結果來看,幻覺問題對大模型來說尚有困難,有18個模型的無幻覺率低于50%。在幻覺消除上,具備檢索增強能力的大模型優勢明顯,在所有模型評測中,文心一言在整體幻覺問題解決方面表現突出,排名第一,整體無幻覺率為69.33%。
行業普遍認為,幻覺問題對于大模型在多個領域的落地都可能產生影響,包括客戶服務、金融服務、法律決策和醫療診斷等。因此解決幻覺問題越好的大模型,才具備更強的產業落地價值。