智象未来多模态大模型3.0全球首发,创始人兼CEO梅涛演讲实录来了

2024年12月28日,智象未来科技有限公司在安徽省人工智能产业先导区启动仪式中,宣布智象多模态生成大模型3.0与智象多模态理解大模型1.0同时发布。 上海电影集团、中国移动咪咕音乐、科大讯飞等企业参加。 加拿大工程院外籍院士、智象未来创始人兼CEO梅涛进行现场演讲。

2024年12月28日,智象未来科技有限公司在安徽省人工智能产业先导区启动仪式中,宣布智象多模态生成大模型3.0与智象多模态理解大模型1.0同时发布。上海电影集团、中国移动咪咕音乐、科大讯飞等企业参加。加拿大工程院外籍院士、智象未来创始人兼CEO梅涛进行现场演讲。

智象未来多模态大模型3.0全球首发,创始人兼CEO梅涛演讲实录来了

梅涛指出2024年是人工智能技术持续发展的一年,在这一年中有多个人工智能技术的标志性事件。

智象未来多模态大模型3.0全球首发,创始人兼CEO梅涛演讲实录来了

2024年人工智能技术发展的五个标志性事件

Sora的出现标志着视觉生成领域取得了重大突破;GPT-4o体现了大模型从单一语言模态向多模态(如图像和视频理解)的跨越。GPT-o1的推出让我们将关注点从大规模预训练转向了推理优化,进一步提升了大模型的逻辑推理能力。通过GPT-o1机器能够像人类一样进行反复思考、推敲,展现出更加接近人类的思维方式。

此外,借助于这些先进的大模型技术,我们还可以极大地促进具身智能的发展,使得机器人不仅能够执行任务,还能在复杂环境中做出灵活判断并采取行动,真正实现“思考”与“行动”相结合。最后,但同样重要的是AI正在成为推动科学发展的重要力量。例如,今年的诺贝尔物理学奖及化学奖均颁给了人工智能专家,这充分证明了“AI for Science”的巨大潜力及其对未来科技发展的重要意义。

智象未来多模态大模型3.0全球首发,创始人兼CEO梅涛演讲实录来了

人工智能的本质是建立连接

为什么现阶段能够出现所谓的“智能涌现”?今年的“大脑奖”获奖者们揭示了计算科学与神经科学融合的巨大潜力,这种跨学科的合作为人工智能的发展铺平了一条道路。

大模型的神经网络与人类大脑在运作机制和构造上展现出了高度的相似性。深度神经网络实际上是对人类大脑皮层认知过程的一种简化模拟。这表明,大模型可能与人类大脑的构造有着本质上的一致。人类认知的核心在于构建大脑神经元的“连接”,而人工智能的本质也是构建人工神经元之间的“连接”。

正是由于构造和机制的相似性,我们今天能够一起见证“智能涌现”。随着技术的进步,人工智能大模型有望展现出超乎想象的能力,不仅在模仿人类思维方面取得进展,还将在解决复杂问题和创新领域中发挥重要作用。

智象未来多模态大模型3.0全球首发,创始人兼CEO梅涛演讲实录来了

大模型通往AGI的两条路径

在当前工业界,通往通用人工智能(AGI)有两大主流技术路径。其一是以GPT为代表的通过next token prediction方式,将人类数千年来积累的庞大文本知识库进行高度浓缩,例如,GPT-4等万亿级参数规模的大语言模型。然而,随着数据资源的日益消耗,这一路径也面临着增长极限的挑战。

另一条路径则是以Sora为代表的扩散模型(diffusion model),该模型致力于将复杂的视觉信息及物理交互过程纳入学习范畴,旨在构建能够理解并模拟人类与真实世界互动的多模态模型。智象未来也是在这条曲线上参与全球竞争,拓展技术边界,探索更加全面和深入的物理世界的理解和生成能力。虽然两条路径各有侧重,但随着研究的深入和技术的融合,一个统一的大模型架构出现也很有可能。

智象未来多模态大模型3.0全球首发,创始人兼CEO梅涛演讲实录来了

直面Scaling Law的四点思考

假设Scaling Law一直有效的情况下, 5年后大模型研发资源预判:能源需求增加200倍、预训练费用增加250倍、模型计算量和算力规模增加10000倍、高质量数据增加至1000倍。那么作为一家创业公司,应该如何持续增长?

思考一:多模态大模型一定是通往AGI的必经之路

多模态大模型是通往AGI的路线,是从单一的文本模态过渡到多模态,多模态理解再到多模态生成,最后多模态生成和理解实现统一。这也是商业化落地最快的一条通路,更是各大厂商的必争之地。

智象未来多模态大模型3.0全球首发,创始人兼CEO梅涛演讲实录来了

思考二:大模型研发正在从预训练过渡到推理优化的阶段

人类有两种思考模式,一种是快思考、一种是慢思考。GPT-4o代表快思考,GPT-o1代表慢思考。在GPT-o1之前,大模型企业多投入在预训练上,o1之后我们把推理优化赋能到大模型上面,使得我们自己的大模型能力能够提升一个台阶。

智象未来多模态大模型3.0全球首发,创始人兼CEO梅涛演讲实录来了

思考三:AI仍在探寻产品的市场契合点

当前,人工智能技术仍处于快速发展的初级阶段。在迈向市场化应用的过程中,我们需要跨域两个鸿沟。一个鸿沟是,实现从强大模型到专业用户有效应用的跃迁。尽管现有的AI模型规模庞大、功能强大,但仍存在概率性的“幻觉”现象,即输出结果可能不完全符合实际情况。另一个鸿沟是,如何将服务于专业用户的能力普及至普通用户群体,降低大模型的使用门槛。梅涛指出,解决以上两个鸿沟的方案是,基础模型的研发与建设仍需大量投入,从而提升模型的准确性与可靠性,这是支撑大型AI企业持续发展的根基所在,并且通过不断产品与运营优化,提升用户体验,弥合AI产品的“最后一公里”问题,这样才能让每一位用户都能轻松享受到人工智能带来的便利。

智象未来多模态大模型3.0全球首发,创始人兼CEO梅涛演讲实录来了

思考四:高质量的版权数据资产,将成为人工智能企业核心竞争力之一

“高质量的版权数据资产,将成为人工智能企业核心竞争力之一。”这是梅涛分享的第四个思考,他进一步阐述至2028年,大模型训练将消耗掉人类历史中积累的大量数据。“面对未来可能出现的数据匮乏状况,我们应当提前布局,思考应对策略。”因此构建和积累高质量的版权数据资产显得尤为重要。这不仅关乎于企业的竞争力,更是推动人工智能技术持续发展的重要基石。因此,如何有效利用现有数据、探索新的数据来源以及数据使用创新方式,将是摆在所有人工智能企业面前思考的首要问题。

智象未来的业务支撑

梅涛表示,基于以上的思考,智象未来从2023年3月成立之初,就明确了“1+3+N”的商业化布局。即以1个大模型为基础,通过3条产品线形成市场触点,深度了解用户需求,满足使用场景,服务商业环境。

智象未来多模态大模型3.0全球首发,创始人兼CEO梅涛演讲实录来了

智象多模态大模型是我们企业发展的关键引擎,在模型能力达成后,就是我们的应用产品,这可以确保技术成果迅速转化为商业应用。今天我荣幸地宣布,智象未来已携手合作伙伴,共同构建了版权数据业务。自此,智象未来可以向用户提供拥有版权保护的应用数据。模型、数据、应用,这三者构成了我们通往通用人工智能的稳固三角支撑。

智象未来多模态大模型3.0全球首发,创始人兼CEO梅涛演讲实录来了

截至目前,智象多模态大模型已经拥有国内最全的多模态版权语料库,拥有数十万小时版权视频素材,上万个授权IP,涵盖超过70%华语影视数据,已形成上亿条AIGC二创素材,在影视、文旅、通信、营销、教育等场景得到广泛应用。在商业化方面,已累计服务了全球100多个国家和地区的1000多万用户和4万多家企业客户。目前智象未来已经在北京、上海、深圳、香港等地区设有常驻机构,并作为安徽省人工智能先导区的零号入驻企业落地合肥。

活动现场,智象未来与人民网、上海电影集团、彩讯科技、捷成华视网聚、安徽联通、中国移动咪咕音乐等12家生态伙伴企业代表签约,形成集技术研发、产业化应用、市场推广于一体的生态体系。

智象多模态大模型全面升级

本次发布的智象多模态生成大模型3.0带来了图像和视频生成能力的全面升级。具体包含了画面质量与相关性提升、镜头运动和画面运动更可控,以及多场景驱动的优化。同时,智象未来还推出了智象多模态理解大模型1.0版,通过对物体级别的画面建模以及事件级别的时空建模,实现了更精细、准确的图像与视频内容理解。

智象未来多模态大模型3.0全球首发,创始人兼CEO梅涛演讲实录来了

梅涛介绍说:大模型3.0版,相较于1.0与2.0版本,实现了显著的技术飞跃与创新突破,是全球首创的扩散自回归模型,这一架构巧妙地将自回归模型与扩散模型融为一体,不仅继承了DiT模型在图像生成上的优势,还通过结合自回归模型的方式,有效降低了模型规模与计算成本,实现了性能与效率的双重优化。

智象未来多模态大模型3.0全球首发,创始人兼CEO梅涛演讲实录来了

此外,3.0版在控制能力上也取得了关键进展,实现了对镜头运动和局部运动的精准操控,进一步提升了生成内容的画质与动态表现力。并且,引入的混合成像模型MOE架构,确保了在保持高生成质量的同时,显著加快了推理速度,为实时或近实时的应用提供了可能。

这些技术创新使得智象未来的多模态生成大模型3.0版能够广泛应用于运动镜头捕捉、影视特效制作、自然风光模拟以及物理世界的数字重现等多个领域,展现了人工智能在创意产业与视觉艺术中的巨大潜力与应用价值。这不仅是对既有技术框架的超越,更是向通用人工智能迈进的坚实一步。

智象未来多模态大模型3.0全球首发,创始人兼CEO梅涛演讲实录来了

智象多模态理解大模型1.0为现场嘉宾带来了生动的案例展示。

智象未来多模态大模型3.0全球首发,创始人兼CEO梅涛演讲实录来了

智象多模态理解大模型1.0不仅对这一场景可以进行详尽的描述,捕捉画面中物体间的复杂关系、逻辑链条、空间布局和镜头运动,使之栩栩如生。

智象未来多模态大模型3.0全球首发,创始人兼CEO梅涛演讲实录来了

“一站式视频平台”展示了一部反映安徽文化旅游特色的视频。在展示中:左侧部分,展示了用户通过上传个人照片,在平台创造出全新的交互式体验。右侧部分,展示了安徽文物IP,在平台创造出个性化的互动展示。这一创新实践不仅增强了内容的吸引力,也为宣传提供了独特的辨识度。

智象未来多模态大模型3.0全球首发,创始人兼CEO梅涛演讲实录来了

智象未来不仅在产品体验上追求卓越,更致力于构建开放的技术生态。智象多模态大模型目前拥有超过20个高性能API接口,服务于100多家头部企业,并已实现了超过1000万次的调用,且这一数字还在持续增长。智象未来与科大讯飞、联想、谷歌、微软等行业头部企业合作,拓宽了多模态大模型的服务范围和融合深度,推动了生成式人工智能技术在各领域的广泛应用和创新发展。

智象未来多模态大模型3.0全球首发,创始人兼CEO梅涛演讲实录来了

梅涛表示,作为一家创新企业,我们拥有强烈的社会责任感,尤其在教育领域。AIGC技术不仅是创新引擎,更是人才培养的重要工具,我们正在积极推动技术与教育的融合。

智象未来在去年成功举办了10余场设计大赛,吸引了超过30所院校的3000多名选手参与,创作出近10000部作品,展现了年轻人的创造力和创新精神。今年,我们不仅与院校合作,还将技术能力延伸至了60多所中小学,激发学生们对人工智能的兴趣。目前我们还计划将这一教育倡议扩展至200余所中小学,打造成为人工智能研学的标杆项目。

智象未来将通过教育融合项目为青少年提供一个接触和实践人工智能的平台,将他们培养成未来科技创新的中坚力量。

相关资讯

视频生成赛道再添“猛将”,智谱清影正式上线

年初 Sora 横空出世,验证了 Scalling Law 在视频生成方面的有效性。 但 Sora 始终止步于公开的 60 秒 demo,产品落地计划迟迟未有公开。  随后的半年时间,不少“玩家”继续在AI视频生成赛道展开角逐,并逐步实现落地。

实时音视频领域拓荒者的十年

2015 年,声网将WebRTC大会引入中国,筹办了第一届面向国内开发者、业务人员和用户的RTC(实时视音频)大会。 在大会开始的前夕,现任声网市场VP、RTC大会主策人彭小欢失眠了,她非常担心明天会不会有人来。 一晃十年过去了,当年的RTC大会早已升级为RTE(实时互联网)大会, 10 月 25 日RTE 2024也如期而至,但早已不用担心是否有人光顾,现场可谓是座无虚席。

李飞飞谢赛宁新作「空间推理」:多模态大模型性能突破关键所在

李飞飞谢赛宁再发新成果:直接把o1式思考拉至下一个level——多模态大语言模型的空间思维! 这项研究系统评估了多模态大模型的视觉空间智能,结果发现:当前,即使是最先进的多模态大模型,在空间认知方面与人类相比仍有显著差距,测试中约71%的错误都源于空间推理方面的缺陷,即空间推理能力是当前主要瓶颈。 图片更为有趣的是,在这种情况下,思维链、思维树等常用的语言提示技术直接失灵了——不仅没有提升模型在空间任务上的表现,反而会使性能下降。