应用

阿里通义万相视觉生成大模型升级，支持文生视频、图生视频等

在今日的 2024 云栖大会上，阿里云发布了通义万相 Wanx 视觉生成大模型的新升级，能力全面进化。通义万相除了此前的文生图能力，现已支持文生视频、图生视频等，还有插画设计、涂鸦作画、局部重绘、短片创作、配乐生成等场景化能力。据阿里云官方透露，通义万相累计创作图片数已达 7500 万，累计用户数已达 93 万。通义万相官网显示，全新发布自研 AI 视频生成大模型，具备“强大的画面视觉动态生成能力”，擅长概念理解与组合生成，优化中式元素表现，同时支持多语言与可变分辨率生成。AI在线附体验链接：

9/19/2024 2:35:09 PM

汪淼

阿里通义千问开源 Qwen2.5 大模型，号称性能超越 Llama

感谢在今天的 2024 云栖大会上，阿里云 CTO 周靖人发布通义千问新一代开源模型 Qwen2.5，其中，旗舰模型 Qwen2.5-72B 号称性能超越 Llama 405B。Qwen2.5 涵盖多个尺寸的大语言模型、多模态模型、数学模型和代码模型，每个尺寸都有基础版本、指令跟随版本、量化版本，总计上架 100 多个模型。Qwen2.5 语言模型：0.5B、1.5B、3B、7B、14B、32B 以及 72B;Qwen2.5-Coder 编程模型：1.5B、7B 以及即将推出的 32B;Qwen2.5-Math 数

9/19/2024 2:21:51 PM

汪淼

字节音乐大模型炸场！Seed-Music发布，支持一键生成高质量歌曲、片段编辑等

高质量音乐生成、高灵活音乐编辑，Seed-Music 再次打开了 AI 音乐创作的天花板。放假期间，本 i 人又领教了被 e 人支配的恐惧。跟 e 人朋友出门玩，先被拉去饭局尬聊，再和陌生人组队打本，下面这首歌真是唱出了 i 人心声。后两天假期就舒服多了。通关了黑神话悟空还不过瘾，我在家补经典 86 版的《西游记》。无论多少次重温，还是会被大圣的魅力吸引。这歌怎么样，是不是感觉斗战胜佛活灵活现，如在眼前？实际上，两首歌都并非真人所作，而是全靠字节最新发布的音乐大模型 ——Seed-Music。Seed-Music

9/19/2024 1:03:00 PM

机器之心

硕博招生将启！AI排名跻身前15，全球首所人工智能大学MBZUAI实力大增

全世界第一所人工智能大学 MBZUAI 全球招贤纳才。自 2019 年 10 月成立以来，全球第一所人工智能大学 MBZUAI 便吸引了整个学术界的关注，并已在多个 AI 领域取得亮眼的成果。今年 5 月，MBZUAI 建立了 Institute of Foundation Models，继去年 10 月份和 G42 共同开发了最先进的阿拉伯语大模型之后，又独立开发了领先的 K2 开源模型，成为全世界唯一一个能够自行训练开发 65B 规模大模型的大学，引领了新一代基础模型的研究。同时，计算生物学方向的生命大模型研究

9/19/2024 12:58:00 PM

机器之心

图森未来无人车：转型 AIGC 游戏是为了活下去

“最近出现了大量不实言论和报道，给图森未来造成很大影响”。时隔数年图森高层首次集体现身，包括陈默、吕程、郝佳男 —— 分别是董事长、CEO 和中国区 CEO。也是图森目前“硕果仅存”的领导层。今年年初以来，昔日无人驾驶第一股曝出一系列动向：2 月，失去所有国内自动驾驶合作伙伴；3 月，被曝停止所有研发和商业化活动；5 月，前 CTO 也是创始团队之一王乃岩被曝离职，加入小米汽车；图森也在此时和北美监管机构达成和解协议；8 月，图森发布公告，转向 AIGC 影视动画赛道；9 月，一封股东匿名举报信流出，直指现在的领导

9/19/2024 11:46:26 AM

汪淼

阿里 CEO 吴泳铭：AI 算力需求渗透率超 50%，最大的想象力不在手机屏幕

感谢今日举办的 2024 云栖大会开幕式上，阿里巴巴集团董事兼 CEO、阿里云智能集团董事长兼 CEO 吴泳铭表示，“在新增的算力市场和算力需求中，超过 50% 以上的需求现在都由 AI 驱动产生，AI 算力的需求渗透已经超过 50%，已经占据主导地位，未来这一趋势还会持续地扩大。”“AI 计算正在加速演进，成为整个计算体系的主导，无论是端侧的计算还是云端的计算，这都是一个非常明显的趋势，生成式 AI 对数字世界和物理世界的重构，将带来计算架构的根本性变化。”吴泳铭表示，“过去几十年 CPU 主导的计算体系，正在加

9/19/2024 10:54:47 AM

汪淼

全球首个多模态地理科学大模型“坤元”发布，中国科学院打造

中国科学院地理科学与资源研究所、中国科学院青藏高原研究所、中国科学院自动化研究所等单位 9 月 19 日正式发布全球首个多模态地理科学大模型“坤元”（Sigma Geography）。据介绍，该大模型是专注于地理科学的专业语言大模型，具备处理地理科学相关问题的专业能力。研发团队完成了地理学全谱系高质量语料库构建、地理科学语言大模型构建、地理科学研究智导平台研发等工作，让“坤元”具备“懂地理”“精配图”“知人心”“智生图”等特点，实现了地理专业问题解答、地理学文献智能分析、地理数据资源查询、地理数据挖掘分析、专题地图

9/19/2024 10:49:11 AM

汪淼

阿里国际发布最新开源多模态模型Ovis，多模态能力再升级

看一眼菜品图就知道怎么做、能给植物看病、能把手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级！今天，阿里国际AI团队发布了一款多模态大模型Ovis，在图像理解任务上不断突破极限，多种具体的子类任务中均达到了SOTA（最新技术）水平。多模态大模型能够处理和理解多种不同类型的数据输入，例如文本、图像。与大型语言模型（LLMs）相比，大语言模型在处理和生成文本数据方面有专长，而多模态大模型能够处理非文本数据，如图像等等。根据多模态权威综合评测平台OpenCompass的数据，Ovis1.6-Gemma2

9/19/2024 10:47:00 AM

新闻助手

门板上做研究的首席科学家：Jeff Dean解密谷歌和Gemini背后的故事

“最开始我就知道谷歌相当有希望，谷歌能发展到现在的规模不过是水到渠成。 ”这位谷歌首席科学家在谷歌度过了近乎一半的人生，对谷歌的喜爱不减反增，到现在还依然坚守着谷歌最初的愿景并为此奋斗：组织全球信息并使其普遍可用和有用Jeff Dean 还记得刚加入谷歌的时候，每到周二的流量高峰期就开始担心系统会不会崩溃，还好后来及时增加了设备，对代码和搜索功能做了更多优化，谷歌搜索这才步入了正轨。后来吴恩达在谷歌担任顾问，Jeff Dean 和他商定了大型神经网络的研究目标，最终促成了 Google Brain 团队的成立。

9/19/2024 10:38:00 AM

刘洁

“终结者”雏形将登场，英伟达预测未来 2-3 年机器人领域迎来“GPT-3 时刻”

科技媒体 The Decoder 昨日（9 月 18 日）发布博文，报道称英伟达高级科学家 Jim Fan 预测，未来几年机器人领域将迎来“GPT-3 时刻”。Jim Fan 简介Jim Fan 在斯坦福大学视觉实验室获得了博士学位，师从李飞飞教授。他的研究领域十分广泛，包括了多模态基础模型、强化学习以及计算机视觉，曾实习于谷歌云 AI、OpenAI、百度硅谷人工智能实验室等知名组织。Jim Fan 目前在英伟达公司领导 AI 相关研究，其团队正致力于开发“Project Groot”，这是公司为创建人形机器人基础

9/19/2024 9:43:48 AM

故渊

OpenAI ChatGPT 新增自动模式，基于提示词复杂度灵活选择合适 AI 模型

科技媒体 testingcatalog 昨日（9 月 18 日）报道，OpenAI 面向所有用户在多种设备上，为 ChatGPT 推出了“Auto”自动模式。AI在线注：用户切换选择 Auto 之后，会自动根据用户输入的提示词复杂程度，自动选择最合适的 AI 模型。对于复杂的提示，它会选用最先进的模型，而对于较简单的提示，则采用更快的模型以节省时间。许多用户反馈表示，在大多数情况下，他们更倾向于与最先进的模型进行交互。然而，在某些特定场景下，能够选择优化速度被视为一项有价值的功能。

9/19/2024 9:28:30 AM

故渊

Anthropic 暗示将推新 Claude AI 桌面应用

科技媒体 testingcatalog 昨日（9 月 18 日）发布博文，报道称 Anthropic 公司正准备推出全新的 Claude AI 桌面应用。AI在线援引消息源报道，该桌面应用内部称为“Claude Nest”，官方近期已经在 Claude AI 网页界面新增了下载按钮，但尚未放出下载链接。除了桌面应用外，Anthropic 还在开发一项针对 artifacts 的新功能，可能允许用户通过一个独立的扩展直接将他们的 artifacts 导出到 VSCode 中。此功能可能与 artifact remix

9/19/2024 9:22:36 AM

故渊

新代码暗示 OpenAI 本月 24 日推出 ChatGPT AI 高级语音模式

科技媒体 testingcatalog 昨日（9 月 18 日）发布博文，报道称 OpenAI 公司可能会在 9 月 24 日进一步推广 ChatGPT 的高级语音模式，甚至可能是直接正式发布。OpenAI 于今年 7 月宣布向一小部分 ChatGPT Plus 用户开放 ChatGPT 的高级语音模式，让用户首次获得 GPT-4o 的超现实音频响应。AI在线援引该媒体报道，OpenAI 公司已更新高级语音模式 FAQ 页面，在代码中被发现“hasSeenAdvancedVoice/2024-09-24”的字符串，

9/19/2024 9:08:32 AM

故渊

YouTube 将推出 AI“一站式服务”：可生成创意、标题、完整视频

据 The Verge 报道，在当地时间周三（今天）举行的“Made on YouTube”特别活动上，谷歌宣布为 YouTube 带来一系列 AI 相关功能，有望改变视频制作的方式乃至视频本身。据悉，谷歌为 YouTube 创作者中心带来了新的“灵感”选项卡，其由 AI 驱动，主要功能就是“告诉”创作者应该制作的东西 —— 推荐视频的概念，提供标题和缩略图，甚至可以编写视频的大纲。YouTube 将其定位为一个“有作用的头脑风暴工具”，但用户也可以使用该工具构建整个视频项目。YouTube 还推出了一款名为 Ve

9/18/2024 10:48:41 PM

清源

AI 成功进军好莱坞，视频生成平台 Runway 与狮门影业达成合作

AI 视频生成平台 Runway 今天宣布与狮门影业达成合作，该公司将使用狮门影业的影片目录训练一个定制视频模型。狮门影业副董事长迈克尔・伯恩斯表示，公司的电影制片人、导演和其他创意人才将获得该模型，以增强工作效率。“狮门影业拥有一支出色的创意团队，对 AI 如何帮助他们的工作有着清晰的愿景，我们很高兴能帮助他们将想法变为现实。”Runway 公司表示，公司在考虑如何将模型作为模板授权给个人创作者，使其建立和训练自己的定制模型。值得一提的是，这是第一家与好莱坞主要制片厂公开合作的生成式 AI 公司。AI在线注：狮门

9/18/2024 10:06:27 PM

清源

消息称车载激光雷达公司 RoboSense 速腾聚创入局具身智能，组建机器人研发团队

据晚点 Auto 报道，速腾聚创近期组建了数十人的机器人研发团队。蓝胖子机器人原研发总监、曾在英特尔中国研究院工作的王涛也已加入。AI在线注：具身智能是人工智能的一个发展领域，指一种智能系统或机器能够通过感知和交互与环境进行实时互动的能力。可以简单理解为各种不同形态的机器人，让它们在真实的物理环境下执行各种各样的任务，来完成人工智能的进化过程。速腾聚创客户包括小鹏、问界、比亚迪、广汽、上汽、吉利等车企。市场咨询机构 Yole Group 发布的车载激光雷达市场报告显示，2023 年禾赛与速腾聚创分别以 37% 和

9/18/2024 9:56:24 PM

沛霖（实习）

保守派中间派原生派，谁将主导搜索引擎未来三十年？

拥有智能索引库、专属知识库、混合大模型调度系统的 AI 原生搜索，能否成为正统，引领搜索引擎的下一个三十年？如今的科技界，没有比 AI 搜索更强的新共识了。在过去的几十年里，以 Google、百度为代表的「搜索引擎」，和以抖音、TikTok 代表的「推荐引擎」，轮番引领了信息经济的发展。而今天，大语言模型（ LLM ）的出现，有望进一步增强搜索引擎的地位和价值，让它以 AI 搜索的新身份，再次引领人工智能应用的浪潮。一、保守还是激进？涌向 AI 搜索的三大支流AI 正成为「端掉」传统搜索引擎业务的最大变量，但如何实

9/18/2024 9:07:00 PM

机器之心

OpenAI押注的「1X」训出专用世界模型，首证机器人Scaling Law

机器人能认出镜子中的自己吗？目前来看，依然做不到。去年 3 月，OpenAI 领投了一家具身智能公司「1X」。这是一家成立于 2014 年的挪威人形机器人公司，致力于研发双足机器人 NEO 和商用轮式人形机器人 EVE。本月初，1X 正式推出了专为家庭使用而设计的双足人形机器人 NEO Beta，让人们看到了大模型加持下活灵活现、超拟人机器人的不断进步。如今，1X 迎来了自己的世界模型。具体地，基于视频生成（Sora）和自动驾驶世界模型（端到端自动驾驶，E2EAD）领域的进展，1X 训练出了一个世界模型，作为自家

9/18/2024 9:00:00 PM

机器之心

资讯热榜

Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度纳米AI发布MCP万能工具箱，简化AI工具集成与调用 Ollama 支持全线的 Qwen 3 模型 AI视频资讯早读！7个产品更新+8个案例精选 Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna Qwen3正式发布，优化编码与代理能力，强化MCP支持引领AI新潮流 DeepWiki：AI驱动的GitHub代码库百科全书正式亮相

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能开源用户学习 GPT 微软 Meta 图像 AI创作技术论文 Stable Diffusion Gemini 马斯克算法蛋白质芯片生成式代码英伟达腾讯神经网络研究计算 Anthropic Sora 3D AI for Science AI设计机器学习 GPU 开发者 AI视频场景华为预测人形机器人百度苹果伟达 Transformer 深度学习 xAI 模态字节跳动 Claude 大语言模型搜索具身智能驾驶神器推荐文本 Copilot LLaMA 算力安全视觉视频生成干货合集应用训练大型语言模型科技亚马逊特斯拉 2024 AGI