率先开放语音、视频等多模态对话能力,这家中国公司又比OpenAI走快了一步

2023 年的 AI 领域,难以回避「大模型」这个关键词。

半年前 ChatGPT 的发布,在海内外引发了一场大模型之战。多家公司加紧研发,纷纷推出类 ChatGPT 产品,或是宣传要打造「中国的 OpenAI」。

有这样一家公司,却以低调的方式走在了研发和落地的前列。

今年三月初,国产 AI 模型「元乘象 ChatImg」推出「图片对话」功能,不仅支持文字聊天,还能看懂图片上的内容并根据图片内容回答问题。这一多模态对话能力的开放,甚至早于 OpenAI。

一周之后,震撼全球的 GPT-4 发布,同样增加了多模态能力。或许是受到算力成本的限制,这一功能至今仍未对公众开放。

与此同时,我们可以再往前想一步:除了图像输入之外,多模态对话大模型能不能提供优秀的语音输入或者视频输入功能?何时才能变得大众可用?

现在,你已经可以在全新升级后的「元乘象 ChatImg」上体验到这些功能。

率先开放语音、视频等多模态对话能力,这家中国公司又比OpenAI走快了一步

在微信公众号「元乘象」的菜单栏,基于 ChatImg 2.0 的「元乘象 ChatImg」各种新能力已开放测试,用户可直接点击进入应用页面。

元乘象 CEO 高一钊介绍说,根据多模态对话数据集(LLaVa)的公开评测,ChatImg2.0 的中文和英文多模态对话能力均超过了目前最好的开源模型。

具体而言,评测给定了 90 个问题,将问题、图像描述、待测模型回答结果和 GPT-4 回答结果一起输入 GPT-3.5,让 GPT-3.5 对比两个回答,分别给出分数(0-10 分),最终的打分是 90 个问题上的总分:

率先开放语音、视频等多模态对话能力,这家中国公司又比OpenAI走快了一步

GPT-4 的回答结果是使用 GPT-4 的纯文本版本基于给定的图像描述和目标检测信息作答的,没有真正看到图像。* 代表待测模型针对测试集中的中文问题,绝大部分是用英文回答的,需要提前用 GPT3.5 翻译成中文。

上手测试

ChatImg 2.0 新增了三项重点功能,分别是「语音交互」、「视频输入」、「发现」。

基于这些最新功能,机器之心也上手测试了一番,让我们来看看结果。

首先是「语音交互」,ChatImg 2.0 可以判断出说话人的意图,并及时地回复语音中提出的问题:

率先开放语音、视频等多模态对话能力,这家中国公司又比OpenAI走快了一步

然后,机器之心输入了一段八秒的视频,ChatImg 2.0 可以完整地描述视频内容细节:

率先开放语音、视频等多模态对话能力,这家中国公司又比OpenAI走快了一步

大胆设想,如果你有一段主题、人物元素属于未知的视频,或许可以借助这个功能来找到答案。

此外,ChatImg 2.0 的「发现」页面提供了多种玩法,用户能够选择自己需要的对话模式,让交互变得更加简单了。

率先开放语音、视频等多模态对话能力,这家中国公司又比OpenAI走快了一步

比如,这里机器之心选择了「穿搭建议」,ChatImg 2.0 会迅速给出关于户外环境下的推荐衣着:

率先开放语音、视频等多模态对话能力,这家中国公司又比OpenAI走快了一步

让多模态大模型落到行业中去

ChatImg 2.0 的背后,正是 AI 领域的明星初创公司「智子引擎」,近日刚刚宣布完成千万元的天使轮融资。

智子引擎公司 CEO 为中国人民大学高瓴人工智能学院的 90 后博士生高一钊,导师为卢志武,目前卢志武教授也在智子引擎公司担任顾问一职。

早在 2020 年,二人就开启了多模态大模型研发之路。卢志武教授曾主导设计了首个公开的中文通用图文预训练模型文澜 BriVL,并发表于 Nature Communications。该模型经过 6.5 亿弱相关中文图文对的预训练,学习到独特的中文语义理解能力并能很好地将中文语义与视觉信息联系起来,尤其擅长读取中文独有的含蓄语义与图片中的抽象概念。高一钊也深度参与了文澜 BriVL 大模型的研究工作。

当时,多模态大模型尚未如今天一般受到高度关注,但卢志武教授和高一钊却看到了其中蕴含的机遇。这些经验积累,也为 ChatImg 2.0 的打造奠定了理论和实践两方面的深厚基础。

高一钊表示,ChatImg 的诞生恰逢其时,AIGC 在 2022 年爆火,不管是学界还是业界,都开始对生成类大模型产生浓厚的兴趣。特别是在 ChatGPT 发布之后,这种兴趣为大模型领域创业营造了优越的环境。

不过,与市面上的很多 C 端产品不同,团队更希望 ChatImg 扎根到具体的行业当中,去解决 B 端的实际问题。

在传统的创业思路中,可能已经有了比较成熟、清晰的技术路线,再结合市场需求去找商业模式。而今天的大模型算是一种「新的东西」,对于 ChatImg 的创业过程来说,团队则更多去考虑模型本身的能力和产业化方法论,探索技术落地的更多可能。

「如果 ChatImg 被验证在某个行业真的有用、能够受到产业领域的认可,或许会比融到钱更让我们激动。这个事情可以做得很大,相当于 AI 真正颠覆了一个行业。」高一钊表示。

就在 ChatImg 2.0 发布的同一天,这个愿景迈出了重要一步:由智子引擎与软通智慧共同打造的基于多模态大模型 ChatImg 的新型城市治理云「GPT-Creator2.0」正式发布。

率先开放语音、视频等多模态对话能力,这家中国公司又比OpenAI走快了一步

智子引擎和软通动力合作签约。

其中,元乘象 ChatImg 提供了中国最领先的多模态大模型,软通智慧提供了城市场景、城市数据和私有化部署及专训,双方的目标是将事件覆盖度及识别准确度提高到 90% 以上、系统部署复杂度降低 50% 以上,以及巡查人员工作量减少到一半。

此外,智子引擎团队联合北京理工大学张伟民教授团队共同打造了一款智能机器人「小象」,为 ChatImg 装上了「身体」。

高一钊表示,多模态通用生成模型有非常广阔的落地应用前景,包括社会治理、实体机器人等落地场景均值得进一步探索。

相关资讯

Meta 首发「变色龙」挑战 GPT-4o,34B 参数引领多模态革命!10 万亿 token 训练刷新 SOTA

【新智元导读】GPT-4o 发布不到一周,首个敢于挑战王者的新模型诞生!最近,Meta 团队发布了「混合模态」Chameleon,可以在单一神经网络无缝处理文本和图像。10 万亿 token 训练的 34B 参数模型性能接近 GPT-4V,刷新 SOTA。GPT-4o 的横空出世,再次创立了一个多模态模型发展的新范式!为什么这么说?OpenAI 将其称为「首个『原生』多模态」模型,意味着 GPT-4o 与以往所有的模型,都不尽相同。传统的多模态基础模型,通常为每种模态采用特定的「编码器」或「解码器」,将不同的模态分

178页!GPT-4V(ision)医疗领域首个全面案例测评:离临床应用与实际决策尚有距离

上海交大&上海AI Lab发布178页GPT-4V医疗案例测评,首次全面揭秘GPT-4V医疗领域视觉性能。

面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型:8B 参数、高效部署手机

感谢面壁智能昨晚推出并开源 MiniCPM 系列最新的端侧多模态模型 MiniCPM-Llama3-V 2.5,支持 30 种语言,宣称可实现:最强端侧多模态综合性能:超越 Gemini Pro 、GPT-4VOCR 能力 SOTA(IT之家注:State-of-the-Art):9 倍像素更清晰,难图长图长文本精准识别图像编码快 150 倍:首次端侧系统级多模态加速▲ OpenCompass 模型量级对比MiniCPM-Llama3-V 2.5 总参数量为 8B,多模态综合性能超越 GPT-4V-1106、Ge