多模态LLM幻觉问题降低30%!业内首个“啄木鸟”免重训方法诞生|中科大

来源:mp.weixin.qq.com

现在,中科大的一项研究想到了一个全新办法:一个免重训、即插即用的通用架构,直接从模型给出的错误文本下手,“倒推”出可能出现“幻觉”之处,然后与图片确定事实,最终直接完成修正。他们将这个方法命名为“啄木鸟”(Woodpecker)。就像这位所谓的“森林医生”先找出树木的虫洞再吃掉里面的虫子一样,本文中所提出的“啄木鸟”也是多模态大模型们的“幻觉”医生,能够将问题先诊断出来再一一纠正。结果是“医术确实高明”,成功将:(1)MiniGPT-4的准确性从54.67%提高到了85.33%;(2)mPLUG Ow的准确性从62%提到了86.33%。

“啄木鸟法”治疗多模态LLM幻觉。目前,业内对于大模型幻觉问题的解决办法基本都是用特定数据进行指令微调。比如说,一些多模态大模型(MLLM)在回答问题时总是倾向于肯定答案(eg. 面对一个光头人物图,问它头发是什么颜色,张口就说“黑”),那么我们再喂给模型一些包含负样本的数据,就能解决它“无中生有”的幻觉,遇到没有的就说“no”。除了指令微调,也有的会进行架构调整,反正都要重新训练一个新的模型。

本文提出的“啄木鸟”框架,是业内第一个无需此操作就能解决“幻觉”的全新办法。它一共分为5个步骤,每一步都采用了清晰透明的设计方式,因此具备良好的可解释性。