多模态

视频生成赛道再添“猛将”，智谱清影正式上线

年初 Sora 横空出世，验证了 Scalling Law 在视频生成方面的有效性。但 Sora 始终止步于公开的 60 秒 demo，产品落地计划迟迟未有公开。随后的半年时间，不少“玩家”继续在AI视频生成赛道展开角逐，并逐步实现落地。

7/31/2024 2:36:00 PM

朱可轩

在商汤的演示下，日日新5o拥有像人一样的实时视觉能力，可以跟人进行流畅的视频交互——能听、能说、能看、无延时，它可以通过摄像头语音实现和用户的实时交互，并获知用户所在的真实场景下的各种状态信息，打破了与AI交互的次元壁，实现了与AI的“视频通话”，已经具备真人聊天般的交互体验。两个月前OpenAI推出了GPT-4o，以突破性的智能交互能力，彻底颠覆了我们对AI语音助手的认知，颠覆了过去的人机交互，给业界带来又一次震撼。震撼之外，中国大模型界对GPT-4o的认知似乎并不如GPT-4那么统一，有人认为「在实现AGI的路上，GPT-4o并不重要」、有人评价「在技术突破上，GPT-4o没那么惊艳」；有人认为GPT-4o的发布是 AI 2.0 时代的标志性事件，会催生全新的应用平台和商业模式。

7/15/2024 6:42:00 PM

张进

商汤即将发布“日日新5.5”，现场将签约多项重磅合作

商汤科技将发布“日日新5.5”，混合模态能力大幅提升据消息，2024年7月5日，在世界人工智能大会（WAIC 2024）上，商汤科技在“大爱无疆·向新力”人工智能论坛将发布“日日新5.5”版本，全面升级“云、端、边”大模型产品矩阵，同时进行多项重磅合作的签约发布，加速生成式AI向产业落地的全面跃迁。商汤发布日日新5.5版本，混合模态能力大幅提升据悉，基于基础模型的技术领先优势，本次商汤推出的“日日新5.5”大模型体系的多模态能力大幅升级。此前，商汤在今年推出的“日日新5.0”大模型体系，其多模态图文感知能力、文生图能力就已经达到全球领先水平，并在多个多模态大模型权威综合基准测试中综合取得SOTA。

6/26/2024 4:43:00 PM

我在思考中

国产端侧小模型超越 GPT-4V，「多模态」能力飞升

在刚刚过去的机器人学术顶会 ICRA 2024 上，「具身智能」成为热议，其中围绕具身智能的一个普遍疑问是：若将 AI 大模型应用到消费级机器人领域，首先是模型适配终端，还是终端适配模型？过去一年，由于 6B、7B 等小模型的成果井喷，以及 MoE 训练技术的越发成熟，将模型跑在手机、学习机、平板电脑、机器人甚至汽车等等终端应用上的想象力开始变大，无论算法层还是硬件层都「蠢蠢欲动」。诚然，这已经成为一个明朗的行业方向，但在系统整合上却要面临不同话语体系之间的博弈。

5/20/2024 4:10:00 PM

陈彩娴