AI在线 AI在线

多模态

视频生成赛道再添“猛将”,智谱清影正式上线

年初 Sora 横空出世,验证了 Scalling Law 在视频生成方面的有效性。 但 Sora 始终止步于公开的 60 秒 demo,产品落地计划迟迟未有公开。  随后的半年时间,不少“玩家”继续在AI视频生成赛道展开角逐,并逐步实现落地。
7/31/2024 2:36:00 PM
朱可轩

商汤大模型的「5o」交互,普通人如何和 AI 过一天?

在商汤的演示下,日日新5o拥有像人一样的实时视觉能力,可以跟人进行流畅的视频交互——能听、能说、能看、无延时,它可以通过摄像头 语音实现和用户的实时交互,并获知用户所在的真实场景下的各种状态信息,打破了与AI交互的次元壁,实现了与AI的“视频通话”,已经具备真人聊天般的交互体验。 两个月前OpenAI推出了GPT-4o,以突破性的智能交互能力,彻底颠覆了我们对AI语音助手的认知,颠覆了过去的人机交互,给业界带来又一次震撼。 震撼之外,中国大模型界对GPT-4o的认知似乎并不如GPT-4那么统一,有人认为「在实现AGI的路上,GPT-4o并不重要」、有人评价「在技术突破上,GPT-4o没那么惊艳」;有人认为GPT-4o的发布是 AI 2.0 时代的标志性事件,会催生全新的应用平台和商业模式。
7/15/2024 6:42:00 PM
张进

商汤即将发布“日日新5.5”,现场将签约多项重磅合作

商汤科技将发布“日日新5.5”,混合模态能力大幅提升据消息,2024年7月5日,在世界人工智能大会(WAIC 2024)上,商汤科技在“大爱无疆·向新力”人工智能论坛将发布“日日新5.5”版本,全面升级“云、端、边”大模型产品矩阵,同时进行多项重磅合作的签约发布,加速生成式AI向产业落地的全面跃迁。 商汤发布日日新5.5版本,混合模态能力大幅提升据悉,基于基础模型的技术领先优势,本次商汤推出的“日日新5.5”大模型体系的多模态能力大幅升级。 此前,商汤在今年推出的“日日新5.0”大模型体系,其多模态图文感知能力、文生图能力就已经达到全球领先水平,并在多个多模态大模型权威综合基准测试中综合取得SOTA。
6/26/2024 4:43:00 PM
我在思考中

国产端侧小模型超越 GPT-4V,「多模态」能力飞升

在刚刚过去的机器人学术顶会 ICRA 2024 上,「具身智能」成为热议,其中围绕具身智能的一个普遍疑问是:若将 AI 大模型应用到消费级机器人领域,首先是模型适配终端,还是终端适配模型? 过去一年,由于 6B、7B 等小模型的成果井喷,以及 MoE 训练技术的越发成熟,将模型跑在手机、学习机、平板电脑、机器人甚至汽车等等终端应用上的想象力开始变大,无论算法层还是硬件层都「蠢蠢欲动」。 诚然,这已经成为一个明朗的行业方向,但在系统整合上却要面临不同话语体系之间的博弈。
5/20/2024 4:10:00 PM
陈彩娴

专访纽约城市大学田英利教授:用多通道、多模态的方法「看懂」手语

与聋哑人交流,是一件成本很高的事情。 首先要看得懂手语,其次是会打手语。 在全球任何一个国家,手语都被归属为一门“小语种”。
3/6/2024 9:48:00 AM
吴彤