率先开放语音、视频等多模态对话威力，这家中国公司又比OpenAI走快了一步

2023 年的 AI 领域，难以回避「大模型」这个关键词。

半年前 ChatGPT 的公布，在海内外引发了一场大模型之战。多家公司加紧研发，纷纷推出类 ChatGPT 产品，或是宣传要打造「中国的 OpenAI」。

有这样一家公司，却以低调的方式走在了研发和落地的前列。

今年三月初，国产 AI 模型「元乘象 ChatImg」推出「图片对话」功用，不仅支持文字聊天，还能看懂图片上的内容并根据图片内容回覆成绩。这一多模态对话威力的开放，甚至早于 OpenAI。

一周之后，震撼全球的 GPT-4 公布，同样增加了多模态威力。或许是受到算力成本的限制，这一功用至今仍未对公众开放。

与此同时，我们可以再往前想一步：除了图象输出之外，多模态对话大模型能不能提供优秀的语音输出或者视频输出功用？何时才能变得大众可用？

现在，你已经可以在全新升级后的「元乘象 ChatImg」上体验到这些功用。

率先开放语音、视频等多模态对话威力，这家中国公司又比OpenAI走快了一步

在微信公众号「元乘象」的菜单栏，鉴于 ChatImg 2.0 的「元乘象 ChatImg」各种新威力已开放尝试，用户可直接点击进入应用页面。

元乘象 CEO 高一钊介绍说，根据多模态对话数据集（LLaVa）的公开评测，ChatImg2.0 的华文和英文多模态对话威力均超过了目前最好的开源模型。

具体而言，评测给定了 90 个成绩，将成绩、图象描述、待测模型回覆结果和 GPT-4 回覆结果一起输出 GPT-3.5，让 GPT-3.5 对比两个回覆，分别给出分数（0-10 分），最终的打分是 90 个成绩上的总分：

率先开放语音、视频等多模态对话威力，这家中国公司又比OpenAI走快了一步

GPT-4 的回覆结果是使用 GPT-4 的纯文本版本鉴于给定的图象描述和目标检测信息作答的，没有真正看到图象。* 代表待测模型针对尝试集中的华文成绩，绝大部分是用英文回覆的，需要提前用 GPT3.5 翻译成华文。

上手尝试

ChatImg 2.0 新增了三项重点功用，分别是「语音交互」、「视频输出」、「发现」。

鉴于这些最新功用，机器之心也上手尝试了一番，让我们来看看结果。

首先是「语音交互」，ChatImg 2.0 可以判断出说话人的意图，并及时地回复语音中提出的成绩：

率先开放语音、视频等多模态对话威力，这家中国公司又比OpenAI走快了一步

然后，机器之心输出了一段八秒的视频，ChatImg 2.0 可以完整地描述视频内容细节：

率先开放语音、视频等多模态对话威力，这家中国公司又比OpenAI走快了一步

大胆设想，如果你有一段主题、人物元素属于未知的视频，或许可以借助这个功用来找到答案。

此外，ChatImg 2.0 的「发现」页面提供了多种玩法，用户能够选择自己需要的对话模式，让交互变得更加简单了。

率先开放语音、视频等多模态对话威力，这家中国公司又比OpenAI走快了一步

比如，这里机器之心选择了「穿搭建议」，ChatImg 2.0 会迅速给出关于户外环境下的推荐衣着：

率先开放语音、视频等多模态对话威力，这家中国公司又比OpenAI走快了一步

让多模态大模型落到行业中去

ChatImg 2.0 的背后，正是 AI 领域的明星初创公司「智子引擎」，近日刚刚宣布完成千万元的天使轮融资。

智子引擎公司 CEO 为中国人民大学高瓴人工智能学院的 90 后博士生高一钊，导师为卢志武，目前卢志武教授也在智子引擎公司担任顾问一职。

早在 2020 年，二人就开启了多模态大模型研发之路。卢志武教授曾主导设计了首个公开的华文通用图文预训练模型文澜 BriVL，并发表于 Nature Communications。该模型经过 6.5 亿弱相关华文图文对的预训练，学习到独特的华文语义理解威力并能很好地将华文语义与视觉信息联系起来，尤其擅长读取华文独有的含蓄语义与图片中的抽象概念。高一钊也深度参与了文澜 BriVL 大模型的研究工作。

当时，多模态大模型尚未如今天一般受到高度关注，但卢志武教授和高一钊却看到了其中蕴含的机遇。这些经验积累，也为 ChatImg 2.0 的打造奠定了理论和实践两方面的深厚基础。

高一钊表示，ChatImg 的诞生恰逢其时，AIGC 在 2022 年爆火，不管是学界还是业界，都开始对生成类大模型产生浓厚的兴趣。特别是在 ChatGPT 公布之后，这种兴趣为大模型领域创业营造了优越的环境。

不过，与市面上的很多 C 端产品不同，团队更希望 ChatImg 扎根到具体的行业当中，去解决 B 端的实际成绩。

在传统的创业思路中，可能已经有了比较成熟、清晰的技术路线，再结合市场需求去找商业模式。而今天的大模型算是一种「新的东西」，对于 ChatImg 的创业过程来说，团队则更多去考虑模型本身的威力和产业化方法论，探索技术落地的更多可能。

「如果 ChatImg 被验证在某个行业真的有用、能够受到产业领域的认可，或许会比融到钱更让我们激动。这个事情可以做得很大，相当于 AI 真正颠覆了一个行业。」高一钊表示。

就在 ChatImg 2.0 公布的同一天，这个愿景迈出了重要一步：由智子引擎与软通智慧共同打造的鉴于多模态大模型 ChatImg 的新型城市治理云「GPT-Creator2.0」正式公布。

率先开放语音、视频等多模态对话威力，这家中国公司又比OpenAI走快了一步

智子引擎和软通动力合作签约。

其中，元乘象 ChatImg 提供了中国最领先的多模态大模型，软通智慧提供了城市场景、城市数据和私有化部署及专训，双方的目标是将事件覆盖度及识别准确度提高到 90% 以上、系统部署复杂度降低 50% 以上，以及巡查人员工作量减少到一半。

此外，智子引擎团队联合北京理工大学张伟民教授团队共同打造了一款智能机器人「小象」，为 ChatImg 装上了「身体」。

高一钊表示，多模态通用生成模型有非常广阔的落地应用前景，包括社会治理、实体机器人等落地场景均值得进一步探索。

{{userData.name}}已认证

率先开放语音、视频等多模态对话威力，这家中国公司又比OpenAI走快了一步

各种尺寸、形态都适用，图卷积神经网络摸索金属纳米粒子的电化学稳定性

利用 PRIMO 重构 M87 黑洞图象，普林斯顿高等研讨院成功将「甜甜圈」变身「金戒指」

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

平安人寿ChatBI：大模型智能化报表的深度实践

ChatGPT遇到这些人名开始自闭，OpenAI回应了

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

OpenAI 从谷歌 DeepMind 挖角三名高级工程师，专注于多模态 AI 研发

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！