专注图表了解,腾讯、南洋理工等开源图表羊驼大模型ChartLlama

在图像了解畛域,多模态大模型已经充分展示了其卓越的性能。然而,对于工作中经常需要处理的图表了解与生成恣意,现有的多模态模型仍有进步的空间。尽管当前图表了解畛域中的最先进模型在简单尝试集上表现出色,但由于缺乏说话了解和输出才能,它们无法胜任更为复杂的问答恣意。另一方面,基于大说话模型训练的多模态大模型的表现也不尽如人意,主要是由于它们缺乏针对图表的训练样本。这些问题严重制约了多模态模型在图表了解与生成恣意上持续进步。近期,腾讯联合南洋理工大学、东南大学提出了 ChartLlama。钻研团队创造了一个高质量图表数据集,

在图像了解畛域,多模态大模型已经充分展示了其卓越的性能。然而,对于工作中经常需要处理的图表了解与生成恣意,现有的多模态模型仍有进步的空间。

尽管当前图表了解畛域中的最先进模型在简单尝试集上表现出色,但由于缺乏说话了解和输出才能,它们无法胜任更为复杂的问答恣意。另一方面,基于大说话模型训练的多模态大模型的表现也不尽如人意,主要是由于它们缺乏针对图表的训练样本。这些问题严重制约了多模态模型在图表了解与生成恣意上持续进步。

近期,腾讯联合南洋理工大学、东南大学提出了 ChartLlama。钻研团队创造了一个高质量图表数据集,并训练了一个专注于图表了解和生成恣意的多模态大型说话模型。ChartLlama 结合了说话处理与图表生成等多重性能,为科研工作者和相关专业人员提供了一个强大的钻研工具。

专注图表了解,腾讯、南洋理工等开源图表羊驼大模型ChartLlama

论文地址:https://arxiv.org/abs/2311.16483

主页地址:https://tingxueronghua.github.io/ChartLlama/

ChartLlama 的团队构思出了一种巧妙的多元化数据搜集策略,通过 GPT-4 生成特定主题、分布和趋势的数据,来确保数据集的多样性。钻研团队综合开源的绘图库与 GPT-4 的编程才能,来编写图表代码,生成精确的图形化数据表示。此外,钻研团队还运用 GPT-4 描述图表内容和生成问答对,为每个图表生成了丰富多样的训练样本,以确保经过训练的模型能够充分的了解图表。

专注图表了解,腾讯、南洋理工等开源图表羊驼大模型ChartLlama

图表了解畛域中,保守模型仅能实现诸如读取图表中的数字这种简单的 QA 恣意,无法对较复杂的问题进行回答。具体来说,它们难以跟随较长的指令,在涉及数学运算的问答中,也经常出现运算错误,而 ChartLlama 可以有效的避免此类问题,具体对照以下所示:

专注图表了解,腾讯、南洋理工等开源图表羊驼大模型ChartLlama

在保守恣意之外,钻研团队也定义了若干新恣意,其中有三个恣意涉及到了图表生成,论文中给出了相关示例:专注图表了解,腾讯、南洋理工等开源图表羊驼大模型ChartLlama给定图表和指令,进行图表重建与图表编辑的示例

专注图表了解,腾讯、南洋理工等开源图表羊驼大模型ChartLlama

根据指令和原始数据,生成图表的示例

在各种基准数据集上,ChartLlama 都达到了 SOTA 水平,需要的训练数据量也更少。其天真的数据生成与搜集方法,极大地拓宽了图表了解与生成恣意中图表和恣意的种类,推动了该畛域的发展。

方法概述

ChartLlama 设计了一种天真的数据搜集方法,利用 GPT-4 的强大说话才能和编程才能,创造了丰富的多模态图表数据集。

专注图表了解,腾讯、南洋理工等开源图表羊驼大模型ChartLlama

ChartLlama 的数据搜集包括三个主要阶段:

图表数据生成:ChartLlama 不仅从保守数据源搜集数据,还利用 GPT-4 的才能产生合成数据。通过提供特定的特征,如主题、分布和趋势,从而引导 GPT-4 产生多样化和平衡的图表数据。由于生成的数据包含了已知的数据分布特性,这使得指令数据的构建更加天真和多样。

图表生成:接着,利用 GPT-4 强大的编程才能,使用开源库(如 Matplotlib)根据已生成的数据和函数文档来编写图表绘制脚本,生成了一系列精心渲染的图表。由于图表的绘制完全是基于开源工具,这种算法可以生成更多典型的图表用于训练。对照已有数据集,例如 ChatQA,只支撑三种图表典型, ChartLlama 所构建的数据集支撑多达 10 种图表典型,而且可以任意扩展。

指令数据生成:除了图表渲染外,ChartLlama 还进一步利用 GPT-4 来描述图表内容,构造多种多样的问答数据,以确保训练过的模型能全面了解图表。这个全面的指令调整语料库,融合了叙述文本、问题 – 答案对以及图表的源代码或修改后的代码。过往的数据集只支撑 1-3 种图表了解恣意,而 ChartLlama 支撑多达 10 种图表了解与生成恣意,能够更好的帮助训练图文大模型了解图标中的信息。

经过以上步骤,ChartLlama 创造了包含多种恣意和多种图表典型的数据集。其中不同典型的恣意、图表在总数据集中的占比以下所示:

专注图表了解,腾讯、南洋理工等开源图表羊驼大模型ChartLlama

更详细的指令及其说明请参考论文原文。

实验结果

无论是保守恣意还是新的恣意,ChartLlama 都展现了最优越的性能。保守恣意包括图表问答、图表总结,以及图表的结构化数据提取。对照 ChartLlama 和此前最先进的模型,结果以下图所示:

专注图表了解,腾讯、南洋理工等开源图表羊驼大模型ChartLlama

钻研人员也评估了 ChartLlama 所独有的恣意才能,包括图表代码生成,图表总结和图表编辑,同时也构造了对应恣意的尝试集,并与当前最强的开源图文大模型 LLaVA-1.5 进行了对照,结果以下所示:

专注图表了解,腾讯、南洋理工等开源图表羊驼大模型ChartLlama

钻研团队还在典型各异的图表中尝试了 ChartLlama 的问答准确率,和之前的 SOTA 模型 Unichart 以及提出的基线模型进行了对照,结果以下:

专注图表了解,腾讯、南洋理工等开源图表羊驼大模型ChartLlama

总的来说,ChartLlama 不仅推动了多模态学习的边界,也为图表的了解和生成提供了更精确和高效的工具。无论是在学术写作还是在企业演示中,ChartLlama 都将使图表的了解和创造变得更加直观和高效,在生成和解读复杂视觉数据方面迈出了重要的一步。

对此钻研感兴趣的读者可以移步论文原文,了解更多钻研内容。

给TA打赏
共{{data.count}}人
人已打赏
应用

智加科技获全国首张重卡无人驾驭绽放路线尝试派司

2023-12-1 17:39:00

应用

用GPT-4V和人类演示训练机器人:眼睛学会了,手也能跟上

2023-12-4 11:05:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索