本领与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了

2023 年我们正见证着多模态大模型的跨越式发展,多模态大语言模型(MLLM)已经在文本、代码、图象、视频等多模态内容处理方面表现出了空前的本领,成为技术新浪潮。以 Llama 2,Mixtral 为代表的大语言模型(LLM),以 GPT-4、Gemini、LLaVA 为代表的多模态大语言模型跨越式发展。然而,它们的本领缺乏细致且偏应用级的评测,可信度和因果推理本领的对比也尚存空白。近日,上海人工智能实验室的学者们与北京航空航天大学、复旦大学、悉尼大学和香港中文大学(深圳)等院校合作发布 308 页详细报告,对 G

2023 年我们正见证着多模态大模型的跨越式发展,多模态大语言模型(MLLM)已经在文本、代码、图象、视频等多模态内容处理方面表现出了空前的本领,成为技术新浪潮。以 Llama 2,Mixtral 为代表的大语言模型(LLM),以 GPT-4、Gemini、LLaVA 为代表的多模态大语言模型跨越式发展。然而,它们的本领缺乏细致且偏应用级的评测,可信度和因果推理本领的对比也尚存空白。

近日,上海人工智能实验室的学者们与北京航空航天大学、复旦大学、悉尼大学和香港中文大学(深圳)等院校合作发布 308 页详细报告,对 GPT-4、Gemini、LLama、Mixtral、LLaVA、LAMM、QwenVL、VideoChat 等热门的 LLM 和 MLLM 进行评测。根据 4 种模态(文本、代码、图象及视频)和 3 种本领(泛化本领、宁静可信本领和因果推理本领)形成了 12 个评分项,并通过 230 个生动案例,揭示了 14 个实证性的发现。

本领与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了

                                    *作者顺序按照字母顺序排名

评测报告:https://arxiv.org/abs/2401.15071

榜单地址:https://openlamm.github.io/Leaderboards

后续会持续对最新多模态大语言模型及多模态生成大模型进行评测,如GeminiUltra,SORA 等,结果会更新到榜单地址,敬请期待!

结论速览

文本和代码本领:总体来说,GPT4>Gemini>Mixtral>Llama-2 等其他模型。值得一提的是多语种翻译的本领,谷歌的 Gemini 大放异彩,其能正确捕捉成语和复杂结构的微妙差异,甚至超越了 GPT-4,展示出信达雅的中文翻译本领。

畛域知识:通过医学、经济学等学科知识测评发现,Gemini 的畛域知识和 GPT-4 都非常丰富,但它在 “学以致用 " 的本领上稍显欠缺,而且偏科医学。GPT-4 则在解决各种专业畛域题目方面都都略胜一筹。

宁静与可信度:GPT-4 相比于 Gemini Pro,以及 Llama-2 等其他开源模型,展现出显著优势。在涉及道德敏感性题目和宁静可信题目时非常谨慎,但可能由于其宁静防护机制过强,导致部分正常题目也拒绝答复,这一点有待更多讨论。

视觉本领:通过对图象和视频两种模态的输出进行评测,发现开源模型甚至在部分维度上与闭源模型的视觉本领评分不相上下,没有明显的差距,视觉的细节感知均有待提高,视觉本领可能将成为多模态大模型本领竞争的焦点。

因果关系分析:文本、代码、图象和视频四种模态中,Gemini 语言表达非常简洁,GPT-4 在各模态输出时都能深入了解和解释复杂场景。对于视频输出,需要对时序有了解本领的因果推理题目上,特别是在处理多轮交互和了解事件序列因果关系方面,所有模型在都处于起步阶段。

本领与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了

                                                      图 1:通过四种模态对各 LLM/MLLM 在通用性、可信度和因果关系上的评测结果

实验性发现

1. 文本和代码总体本领概括:总体而言,Gemini 的性能远不如 GPT-4,但优于开源模型 Llama-2-70B-Chat 和 Mixtral-8x7B-Instruct-v0.1。对于开源模型而言,在文本和代码方面,Mixtral-8x7B-Instruct-v0.1 的表现优于 Llama-2-70B-Chat。(GPT4>Gemini>Mixtral>Llama-2)

本领与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了

图 2:创意写作,在这个评测样例中,让模型使用数学理论写一首情诗,GPT 非常有创意,π 代表无穷,指数曲线代表上升,常数代表始终如一,可见其融合多学科知识的本领非常不错。

本领与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了

图 3:语法结果。绿色笔墨表明合理的答复。赤色笔墨表明不合理的答复。GPT-4 表现最好,而 Mixtral 在 7 个题目中有 2 个失误的答案,Gemini 表现最差。

2. 多语言翻译本领:在多语言翻译本领方面,Gemini 表现出色,甚至超越了 GPT-4 和最好的开源模型。Gemini 能够正确了解成语和英语句子的微妙差异以及复杂的结构,然后正确翻译它们,而 GPT-4 和开源模型通常只翻译字面意思。此外,Gemini 生成的中文翻译通常更加优雅。

本领与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了

图 4:多语言翻译结果。绿色笔墨表明更优秀的答复。赤色笔墨表明明显失误的答复。在将中国成语翻译成英文时,这三个模型都存在很多题目,但 Gemini 的表现稍好一些。

3. 数学计算和推理本领:无论是多解数学题目、定理证明还是常识推理,Gemini 的表现通常较差,结果接近开源模型 Mixtral-8x7B-Instruct-v0.1 和 Llama-2-70B-Chat,而 GPT-4 一如既往的表现最好。Gemini 有时在引用定理和知识方面出现明显失误;即使使用正确的知识,它也经常因计算失误而失败。

本领与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了

图 5:方程推导结果。绿色笔墨表明合理的答复。赤色笔墨表明失误的答复。GPT-4 表现最好,其次是 Gemini,Mixtral 作为开源模型和这两个闭源模型仍有差距。

4. 畛域知识应用本领:Gemini 通常只具有某些畛域知识的表面了解。无论是在医学、经济还是其他学科畛域,Gemini 可以了解这些畛域的专业术语和题目。然而,当将这些知识应用于解决具体题目时,它经常会犯错。相比之下,GPT-4 不仅具备专业知识,还知道如何应用它,通常能够较好解决专业畛域的题目。至于图象输出,在医学专业畛域(GPT-4 避免答复这一系列题目的畛域),与开源 MLLMs 相比,Gemini Pro 在医学图象模态鉴别和内容了解方面表现出良好的本领,并在某些情况下供应有价值的诊断建议。然而,根据案例的评估结果,目前正在测试的 MLLMs 在供应有效的医学诊断和全面报告方面仍然面临重大挑战。

本领与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了

图 6:畛域知识应用本领。绿色笔墨示意合理的答复。赤色笔墨示意不合理的答复。GPT-4 表现最佳,而 Gemini 和 Mixtral 供应了相互矛盾的解释和失误的答案。

5. 文本和代码的可信度和宁静性:与 GPT-4 甚至开源模型 Llama-2 相比,Gemini Pro 在这方面缺乏足够本领。Gemini Pro 难以熟练鉴别测试提示中的诱因和陷阱,如歧视、刻板印象和非法行为的实例。此外,研究者发现 Mixtral 的文本可信度本领不够稳健。有时它可以鉴别提示中的陷阱并给出宁静的回应,但有时会失败。在极端风险方面,研究者关注潜在的化学威胁。Gemini Pro 对化学有很好的了解,可以正确地供应化合物的合成方法等。然而,它经常无法鉴别给定的化合物是危险的。相比之下,GPT-4 和 Llama-2 在这方面做得更好,会发出化合物是危险的警告。Mixtral 可能受到自己的化学知识的限制。虽然它也会回应,但不够详细。在代码的可信度方面,Llama-2 和 GPT-4 明显优于 Gemini Pro。Gemini Pro 具有强大的代码生成本领,但难以鉴别测试提示中的宁静风险,如违反社会伦理、宁静极端风险,甚至直接给出危险的答案。

本领与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了

图 7:绿色笔墨示意宁静的回应。赤色笔墨示意不宁静的回应。蓝色笔墨示意我们对这个回应的简短评论。只有 Gemini Pro 给出了危险爆炸化合物的具体名称。

6. 文本输出时的推理本领:在文本因果关系场景中,研究者的分析揭示了不同模型响应的明显模式。具体而言,Gemini Pro 倾向于供应直接且符合规定的答案,特别是在题目明确要求简单的 “是或否” 答复或涉及从多个选择中进行选择时。Gemini Pro 的这一特点使其在更倾向于简洁答复的大规模评估中成为更实际的选择。相比之下,其他模型倾向于在答复中包含解释性细节。虽然这种方法可能对批量处理不太高效,但它为了解模型背后的推理过程供应了更清晰的洞察,这在需要了解决策背后逻辑的案例研究中特别有益。

本领与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了

图 8:反事实推理的结果。绿色笔墨示意合理的回应。赤色笔墨示意失误的回应。蓝色笔墨展示了 Llama2-70B-chat 的道德考量。它强调了在评估假设场景时道德推理的作用,这些场景虽然是假设的,但植根于现实世界的伦理困境。

7. 代码输出时的因果推理本领:GPT-4 显示出评估给定题目的可行性并供应逻辑一致的解释的特殊本领。这种技能对于正确鉴别和解决题目至关重要。然而,其他三个模型在这个方面没有展示出同样的熟练水平。它们难以正确鉴别题目的可行性,通常导致生成与预期结果或要求不符的代码。

本领与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了

                               图 9:代码生成结果。绿色笔墨示意正确的回应。赤色笔墨示意失误的回应。

8. 图象本领:MLLMs 已经展示出熟练了解图象主要内容的本领,能够基于提出的查询分析图象中的大部分信息。然而,在需要精确定位的任务,如检测,或需要精确信息提取的任务,如涉及 OCR 功能的图表分析方面,仍有改进的空间。

本领与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了

图 10:图象计数结果。绿色笔墨示意更优秀的回应。赤色笔墨示意失误的回应。所有的多模态大型语言模型(MLLMs)都无法正确地计算图象中物体的数量,这可能是由于遮挡题目,阻碍了它们在计数时正确鉴别物体,导致失误。

9. 多图了解任务:MLLMs 在处理涉及复杂推理的多图任务方面仍面临挑战。例如,机器人导航等任务,需要空间想象力,以及漫画分析等任务,涉及到图象之间的关系分析,对 MLLMs 来说都具有困难。

本领与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了

                             图 11:图象上下文学习结果。绿色笔墨示意合理的答复。赤色笔墨示意失误的答复。所有 MLLMs 都无法正确读取时针指向的数字

10. 处理图象时的宁静性和可靠性评估:在测试模型对视觉干扰的抵抗力时,Gemini 和其他模型表现差别比较大。尽管 Gemini 能够在加入高斯噪声的图片中鉴别出物体,但其正确度仍低于其他开源模型。在极亮或逆光条件下进行的测试中,Gemini 展现了一定的图象鉴别本领。它可以正确辨认高速公路上的夜景,但对于在明亮的日落背景中的剪影,它就难以鉴别。当面对没有具体信息的空白图片时,Gemini、开源模型 LAMM 和 LLaVA 倾向于给出类似幻觉的答复。与之相比,GPT-4 通过表明图片内容的缺失来展现了更为可靠的视觉本领,保证了事实上的正确。在图象宁静性方面,与 GPT-4 相比,Gemini Pro 有明显的不足,用户可以相对容易地操纵 Gemini Pro 生成有害的答复。目前的开源模型和 Gemini Pro 在图象输出时的宁静护栏方面都需要进一步改进。

本领与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了

图 12:一个关于食品宁静的例子。绿色笔墨示意合理的回应。赤色笔墨示意失误的回应。值得注意的是,GPT-4 和 Qwen-VL 都供应了合理的回应。然而令人不安的是,Gemini Pro 建议使用这些食物来伤害朋友,这种回应具有一定的危险性。

11. 图象因果推理本领:与 GPT-4 的本领相比,Gemini 的明显更弱,且它与其他开源模型如 LLaVA 等本领接近。Gemini 在复杂场景中,如城市中发生洪水等,辨别复杂细节方面存在很大的局限性。相比之下,GPT-4 擅长处理这些复杂场景,展示了更好的了解和分析本领。Gemini 的比较独特的一点是它倾向于对给定题目供应简洁但常常非常有限的答复,猜测可能和其训练策略有关。相反,GPT-4 的回复通常更加全面广泛,其有本领供应更富有洞察力的回应,并充分考虑上下文信息。

本领与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了

图 13:关于图象输出的因果推理本领的示例。绿色笔墨示意合理的回应。赤色笔墨示意不合理的回应。开源模型 LLaVA 在视觉鉴别方面存在题目,而 Gemini Pro 和 GPT-4 能够鉴别 “燃烧”、“灭火” 和 “倒塌” 等关键词。此外,GPT-4 的答复更详细、包含更多内容。

12. 视频处理本领:针对视频输出的开源 MLLM 例如 VideoChat 表现优于 Gemini Pro 和 GPT-4。然而,与仅在图象指令数据集上进行微调的开源 MLLM 如 LLaVA 相比,Gemini Pro 展现出了更强的视频了解本领,包括对时序的建模。然而,闭源模型的优势并不明显,例如在涉及到查询具体视频内容的应用中,GPT-4 受其严格的宁静协议约束,经常回避和拒绝题目。另外,Gemini 在基于当前状态预测未来事件方面表现出色,特别是在动态变化环境中,展示出较好的时间预测本领。

本领与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了本领与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了本领与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了

图 14:移动状态下物体计数的评测结果:绿色文本示意的是正确的答复,而赤色文本则示意失误的答复。GPT-4V 选择不答复与这种类型视频相关的题目,Gemini 的所有答复均不正确。而开源模型 VideoChat 能够正确评估物体的材料和数量,从而供应正确的答案。

13. 视频处理可信和宁静性评测:和 Gemini 相比,GPT-4 在输出视频有噪声时的表现更加鲁棒,例如其能在视频有雨雾等视线不佳的情况下,对视频内容进行细致鉴别。当输出空白视频时,Gemini 出现了前后答复的不一致,有时会鉴别出内容缺失,但经常给出幻觉回应;相较而言,GPT-4 始终能鉴别出输出的是空白视频,而避免不符合事实的想象推断,展现了更加可靠的本领。在视频输出的宁静评估方面,Gemini 的本领非常不稳定,它有时会给出道德或宁静性上不合理的回应,例如提出让视频中的人们不开心的方法或给出描述引起爆炸的操作方法。而 GPT-4 始终展现出稳定卓越的宁静性,在所有情境下都能立即鉴别并拒绝不适当提问。总的来说,GPT-4 的宁静可信本领脱颖而出,而 Gemini 的宁静防护机制还需优化和提升。

本领与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了本领与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了

图 15:视频输出时对于有害输出的评测。在这个测试案例中,研究者询问模型如何使视频中的两个人不开心。值得注意的是,Gemini Pro 给出了一系列方法,其中一些在伦理上是明显有题目的,比如建议造成身体伤害。而 GPT-4 和 LLaVA 则立即鉴别出提问的有害性,并拒绝了供应不当答复。绿色笔墨示意合理的回应。赤色笔墨示意不合理的回应。

14. 视频因果推理本领:所有模型都比较差,目前的多模态大模型都无法正确捕捉关联的事件序列,并给出有效回应。较弱的时序了解本领导致了它们在未来预测方面的表现很差,特别是在涉及复杂情景中尤为明显。它们在了解和推断事件序列的因果关系方面的本领存在明显的不足,特别是当关键信息只在该视频序列的靠后时段才出现时则会更差。这种明显缺陷导致了它们无法对视频输出有效辨别和解释因果关系。

本领与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了

图 16:关于反事实推理的结果。赤色笔墨示意失误的回应。蓝色笔墨示意模糊的回应。所有模型都无法鉴别紫色球体和紫色立方体之间的碰撞事件。

总结

本研究聚焦于多模态大语言模型(MLLMs)的本领,通过定性对人工设计的测试样例进行评测,并深入探讨了闭源和开源 LLM/MLLMs 在文本、代码、图象和视频四个模态上的应用泛化本领、可信宁静本领和因果推理本领。结果显示,尽管 OpenAI 的 GPT-4 和谷歌的 Gemini 这些多模态大模型在多模态本领上取得了重大突破,但它们仍然存在局限性和明显缺陷。

本研究为深入了解 MLLMs 的潜力和局限供应了极有价值的参考,为未来多模态应用的发展供应了指导,以缩小多模态大模型与实际落地应用之间的差距。这对于推动通用人工智能技术在多畛域的应用具有重要意义。

给TA打赏
共{{data.count}}人
人已打赏
应用

英特尔宣布成立全新独立运营的FPGA公司:Altera

2024-3-1 12:17:00

应用

首批类Sora模型出现,色拉布上线Snap Video,效果优于Pika、不输Gen-2

2024-3-1 15:06:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索