多模态大模型

几十个测试后,发现海螺语音与 ElevenLabs 掰手腕的能力不是盖的

试想一个场景,职场中接到一个香港客户的单子,但是在交付的过程中耽搁了时间,现在要进行线上沟通解释,那么你面对的情况大致是这样的:如果不对这段音频进行标注,可能大部分人会认为这一粤语、英语混用的片段是真实发生或从TVB电视剧里截出来的。 但其实,这是由 AI 完成的配音,背后所使用的工具是海螺语音。 今年 1 月,继 MiniMax 发布并开源基础语言大模型 MiniMax-Text-01 和视觉多模态大模型 MiniMax-VL-01 后,再次推出了升级的语音大模型 T2A-01 系列,搭载于海螺 AI 之上,开辟海螺语音板块。

决策过程是魔法还是科学?首个多模态大模型的可解释性综述全面深度剖析

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

首个Mamba+Transformer混合架构多模态大模型来了,实现单卡千图推理

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

最晚明年上半年落地L3:理想端到端自动驾驶,性能大幅提升

最近一段时间,生成式 AI 技术兴起,众多造车新势力都在探索视觉语言模型与世界模型的新方法,端到端的智能驾驶新技术似乎成为了共同的研究方向。上个月,理想汽车发布了端到端 VLM 视觉语言模型 世界模型的第三代自动驾驶技术架构。此架构已推送千人内测,将智能驾驶行为拟人化,提高了 AI 的信息处理效率,增强了对复杂路况的理解和应对能力。李想曾在公开的分享中表示,面对大部分算法难以识别和处理的罕见驾驶环境,VLM(Visual Language Model)即视觉语言模型可以系统地提升自动驾驶的能力,这种方法从理

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]本工作由清华大学朱军教授领衔的基础理论创新团队发起。长期以来,团队着眼于目前人工智能发展的瓶颈问题,探索原创性人工智能理论和关键技术,在智能算法的对抗安全理论和方法研究中处于国际领先水平,

华为云董理斌:做难事解难题,盘古大模型以“智”重塑千行万业

7 月 5 日,2024 世界人工智能大会暨人工智能全球治理高级别会议 —“盘古大模型重塑千行万业” 分论坛于上海世博中心举办。在 “盘古大模型做难事解难题,以‘智’重塑千行万业” 主题演讲中,华为云 Marketing 部部长董理斌向出席会议的百余名人工智能领域顶尖专家、业界领军人物分享了盘古大模型 5.0 的全新能力,以及盘古大模型深入高铁、钢铁、工业设计、建筑设计、气象等领域,重塑千行万业的应用进展。他表示,盘古大模型 5.0 通过更多的模态和更强的思维能力,重塑云服务,为开发者、客户和伙伴提供更强大、更丰富

国内首个!商汤科技发布“日日新5o”,实时多模态流式交互对标GPT-4o

2024 年 7 月 5 日,上海 ——2024 世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2024)战略合作伙伴商汤科技召开 “大爱无疆・向新力” 人工智能论坛,发布国内首个所见即所得模型 “日日新 5o”,交互体验对标 GPT-4o,实现全新 AI 交互模式。通过整合跨模态信息,基于声音、文本、图像和视频等多种形式,国内首个所见即所得模型 “日日新 5o” 带来一种全新的 AI 交互模式,即实时的流式多模态交互。现场也为大家展示了这种创新交互模式 ——工作人员刚开始仅是和 “日日新 5o” 打个招

联汇科技赵天成:从 CMU 天才少年,到多模态创业先行者

CMU LTI (卡内基梅隆大学语言技术研究所)每年在全球范围内只有十个左右的博士录取名额,其中的华人学者凤毛麟角。 本次以 OpenAI 发布 ChatGPT 为标志掀起的人工智能浪潮,CMU 也在各大主流 AI 公司中扮演了技术核心。 这群 CMU 中的华人学者,在中西争夺人工智能高地的竞争中,归国人才显得尤其弥足珍贵。

元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入

人类获取的信息83%来自视觉,图文多模态大模型能感知更丰富和精确的真实世界信息,构建更全面的认知智能,从而向AGI(通用人工智能)迈出更大步伐。 元象今日发布多模态大模型 XVERSE-V ,支持任意宽高比图像输入,在主流评测中效果领先。 该模型全开源,无条件免费商用 ,持续推动海量中小企业、研究者和开发者的研发和应用创新。

苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V

编译 | 赖文昕编辑 | 陈彩娴大模型的诞生,让科技巨头与创业公司们在新一轮的竞赛中再次鸣枪出发,OpenAI、Anthropic、Mistral等创业之星的升起更是证明了在新技术的影响下,大厂并不存在绝对的优势。 不久前,苹果叫停了启动十多年且投入数十亿美元的自动驾驶电动汽车项目,美国总部裁员了600多人,另有近2000名员工转到AI部门。 然而,在目前市场上的主流智能手机品牌中,苹果几乎是唯一一家尚未正式推出大模型的厂商。

亚马逊云科技展示Claude 3大模型能力,生成式AI落地正在加速

上周日,亚马逊云科技宣布 Mistral AI 的 Mistral Large 模型在Amazon Bedrock上正式可用。随着知名 AI 初创公司 Mistral AI、Anthropic 的前沿的大语言模型(LLM)陆续登陆 Amazon Bedrock,人们在构建生成式 AI 应用程序时,已经有了一系列先进模型的选择。

个性经济时代,MiniMax 语音大模型如何 To C?

大约一个月前,距离 GPT Store 上线还有两周,一位名为 Kyle Tryon 的国外开发者在个人博客上分享了其基于 ChatGPT Plus 开发的三个 Agent(又称“GPTs”),其中一个 Agent 是关于美国费城旅游出行的个人指南“PhillyGPT”,它能访问当地 SEPTA 公共交通 API,为个人提供费城当地的实时天气、旅游资讯、文艺演出活动、出行路线、公交车站与地标数据、预计抵达时间等等。 具体可访问 PhillyGPT 链接:,实际是人们对于 GPT 时代 C 端个性消费产品的真正想象。 无独有偶,1 月 11 日 OpenAI 正式上线 GPT Store 后,公布 300 万个 GPTs 之余,也将与用户日常消费活动息息相关的徒步路线指南“AllTrails”放在推荐榜单上。

阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA

OpenAI GPT-4V 和 Google Gemini 都展现了非常强的多模态理解能力,推动了多模态大模型(MLLM)快速发展,MLLM 成为了现在业界最热的研究方向。MLLM 在多种视觉-语言开放任务中取得了出色的指令跟随能力。尽管以往多模态学习的研究表明不同模态之间能够相互协同和促进,但是现有的 MLLM 的研究主要关注提升多模态任务的能力,如何平衡模态协作的收益与模态干扰的影响仍然是一个亟待解决的重要问题。论文地址:: 体验地址:  体验地址:,阿里多模态大模型 mPLUG-Owl 迎来大升级,通过模态协

最懂工业的大模型来了!思谋发布全球首个工业多模态大模型

大模型技术正在引领新一轮工业革命,但将其应用于工业制造,仍面临许多挑战,专业知识的缺乏是关键难点。11月5日,香港中文大学终身教授、思谋科技创始人兼董事长贾佳亚受邀参加第六届中国国际进口博览会暨虹桥国际经济论坛开幕式。虹桥论坛上,贾佳亚在主题演讲中表示,“目前,业界还没有一个能真正服务于高端智能制造的大模型。” 贾佳亚在虹桥国际经济论坛上发表主题演讲亟待人工智能技术提高、释放生产力的工业制造界盼大模型已久,至此终于迎来全球首个工业多模态大模型IndustryGPT V1.0。论坛上,贾佳亚和团队正式发布Indust
  • 1