AI资讯列表 - AI在线

文生图 AI 工具 Midjourney 开放网页版，新用户附赠 25 张免费试用额度

感谢Midjourney 官方账号在 X 平台发布推文，宣布向所有用户开放网页界面，并重新推出免费试用图像生成功能。Midjourney 此前因其文生图 AI 工具被滥用而暂停免费使用，现在重新向用户开放。科技媒体 The Decoder 认为 Midjourney 此举可能是针对最新上线的 Ideogram 2.0 工具。AI在线附上官方宣传视频如下：用户无需使用 Discord 即可注册网页版并在网页版中生成图片，Midjourney 还准备了一些常见的提示词帮助以及图片示例，用户可以根据浏览其他用户生成的图

威刚联手研华推出第三代 C-Rob 自走机器人，搭载英伟达 Nova Orin 平台

据研华本月 21 日新闻稿，威刚联合该企业成功打造了第三代 C-Rob AMR（AI在线注：自走机器人，Autonomous Mobile Robot），可减少 70% 导入时间。威刚与研华此前在机器人领域即有合作：威刚的第二代 C-Rob AMR 就在上位机系统应用了研华的 MIC-710AIX 自走机器人应用 AI 推理系统。而威刚第三代 C-Rob AMR 搭载则搭载研华 MIC-732-AO 系统；MIC-732-AO 建立在英伟达 2022 年推出的 Isaac Nova Orin 计算和传感器参考平台上

开源公司 Grafana Labs 融资 2.7 亿美元；a16z 发布全球 Top100 AI 应用：字节美图上榜丨AI情报局

今日融资快报开源软件提供商 Grafana Labs 以 60 亿美元估值筹集 2.7 亿美元Grafana Labs 正式名称为 Raintank Inc.，是 Grafana Cloud 的创造者，这是一个广泛使用的开源 IT 基础设施监控平台。该平台通过从客户的基础设施中抓取遥信数据和运营数据，并将这些数据绘制成图表，帮助管理员更容易地识别模式和趋势。 Grafana 还提供针对不同 IT 基础设施平台的工具，例如 Grafana Cloud 中的 Kubernetes Monitoring 模块，以及利用 AI 减少云基础设施成本的 Adaptive Metrics 功能。

硅基向左，潞晨向右

如果将大模型应用开发比做“淘金”，那么构建大模型基座所必需的算力和工具体系，则是不可或缺的“铲子”。俗话说，淘金先富卖铲人，谁都想在这场 AI 浪潮中“分一杯羹”，不光巨头在争当“卖铲人”，也有不少创业公司从中发现了新的机遇。其中，在加速计算赛道，袁进辉带领的硅基流动与尤洋创办的潞晨科技可谓典型代表，在他们之外，国内早期能做出分布式系统的团队并不多。

数字华夏展示“夏澜”人形机器人：高仿外观、百变人脸、自然语音交互

2024 世界机器人大会（WRC）于 8 月 21 日在北京开幕，数字华夏（深圳）科技有限公司（下文简称数字华夏）展示了全新的交互型人形机器人“夏澜”。首创“人形交互机器人”概念，目标打造“有温度的人形机器人”AI在线从报道中获悉，数字华夏公司首创“人形交互机器人”概念，其核心目标是打造“有温度的人形机器人”，希望能突破传统机器人的冰冷界限，创造真正能与人类产生情感共鸣的智能伙伴。强大 AI 系统数字华夏的夏系列人形机器人最大的亮点在于强大的 AI 系统，官方将其称为“智慧大脑”，能展现丰富表情的“百变人脸”、接

全球消费级 AI 移动应用 TOP 50 榜单：美图秀秀挤进前十，字节跳动豆包首次上榜排 26 位

风投公司安德里森・霍罗威茨（Andreessen Horowitz，又名 a16z）于 8 月 21 日发布博文，公布了最新《Top 100 消费级生成式 AI 应用》榜单。a16z 公司简介安德里森・霍罗威茨，又名 a16z，是一家美国私人风险投资公司，由马克・安德里森和本・霍罗威茨于 2009 年创立。该公司总部位于美国加利福尼亚州门洛帕克，从 2006 年到 2010 年，安德里森和霍罗威茨都是科技公司的积极投资者，他们共同投资了 8000 万美元在 Twitter 等 45 家初创公司。报告简介报告每隔 6

原 Character.AI CEO 诺姆・沙泽尔“回家”后履新，消息称将任谷歌 Gemini 联合技术负责人

据 The Information 北京时间今天晨间报道，谷歌发送给员工的消息显示，本月重返谷歌的 Character.AI 联合创始人兼原 CEO 诺姆・沙泽尔（Noam Shazeer）将担任谷歌 AI 项目 Gemini 的联合技术负责人。沙泽尔将与谷歌长期从事人工智能研究的杰夫・迪恩（Jeff Dean）和奥里奥尔・维尼亚尔斯（Oriol Vinyals）一起开发 Gemini，其目标是与 OpenAI 的大语言模型 GPT 竞争。本月初，初创公司 Character.AI 宣布，该公司已与谷歌母公司 Al

英伟达发布 80 亿参数新 AI 模型：精度、效率高，可在 RTX 工作站上部署

英伟达于 8 月 21 日发布博文，发布了 Mistral-NeMo-Minitron 8B 小语言 AI 模型，具备精度高、计算效率高等优点，可在 GPU 加速的数据中心、云和工作站上运行模型。英伟达携手 Mistral AI 上月发布开源 Mistral NeMo 12B 模型，在此基础上英伟达再次推出更小的 Mistral-NeMo-Minitron 8B 模型，共 80 亿个参数，可以在搭载英伟达 RTX 显卡的工作站上运行。英伟达表示通过宽度剪枝（width-pruning）Mistral NeMo 12

微软 Azure AI 语音服务推出虚拟人形象，支持文本转视频

微软 Azure AI 语音服务允许开发者构建多语言生成式 AI 语音应用，Azure AI 语音服务最新推出了文本到语音虚拟人功能，可以将简单的文本转换为人类自然说话视频。今天，微软宣布全面推出 Text to Speech Avatar 功能。这项新功能使开发者能够为其用户创建个性化虚拟人。该服务的输出视频分辨率为 1920 x 1080，每秒 25 帧。AI在线附示例如下：Text to Speech Avatar 具有以下功能：将文本转换为由 Azure AI 文本转语音提供支持的人类说话视频，该视频具有自

McAfee 携手联想推出“全球首款自动 Deepfake 检测器”，遏制 AI 诈骗

网络安全公司 McAfee 和联想公司合作，推出了全新的 Deepfake Detector，声称是全球首款自动 Deepfake 检测器，可以遏制网络钓鱼。McAfee 表示该工具基于自家 AI 算法，能够帮助用户识别可能的 Deepfake 诈骗以及其它 AI 骗局，目前已经邀请美国、英国、澳大利亚的部分联想 AI PC 用户测试，初期仅限于英语情境。McAfee 表示 Deepfake Detector 已使用超过 20 万个样本进行训练，并非依赖云网络，而是利用联想 AI PC 中的 NPU，直接从 PC

AI 视频哪家强？7款AI视频生成工具详细测评

国内外AI视频生成工具那么多，各自有哪些优缺点，该如何选择？这篇文章帮你总结好了！一、可灵 AI-内测完全免费支持文生图/视频、图生图/视频、支持首尾帧、支持运镜调整，内测完全免费网站链接：、Dreamina（即梦）支持文生图/视频、图生图/视频、支持首尾帧、支持运镜调整，每天 88 积分（预计 9 个视频）网站链接：、Luma-图转视频稳定支持文生视频、图生视频、支持首尾帧、每月可免费生成 30 个视频网站链接：、Pika-支持语音视频同步生成支持文生视频、图生视频、支持首尾帧、支持运镜，支持

Midjourney 官宣网页版免费用，前谷歌大佬祭出 AI 生图 Ideogram 2.0

Midjourney 一度稳居 AI 生图的第一梯队，甚至是很多人心中的 Top1。但是 Ideogram 2.0 的发布，抢夺了 Midjourney 的荣光，不仅一举拉高了图像生成质量，还打起了价格战。曾经在 AI 图像生成领域无可匹敌的领导者 Midjourney，终于听劝了，上周五推出了网页版图像编辑器。新编辑器巧妙集成了重绘、缩放等核心功能。不仅提高了操作效率，而且使整体交互逻辑更加清晰，对于高频使用 Midjourney 的用户来说，绝对欣喜！今天，Midjourney 宣布，将升级后的新工具向所有人免

实测四款AI生图神器，Midjourney「霸主」地位难撼动

机器之能报道编辑：杨文MJ、Ideogram 2.0、Flux、Imagen 3，谁能坐上AI生图第一把交椅？AI 圈，卷完视频卷图像。继 FLUX 生成的各种恶搞图像满天飞后，其他 AI 生图玩家也坐不住了，纷纷迎战：就在今天，Midjourney 一改往日「高冷范」，宣布所有用户可免费使用一个月（暗藏小心思：只能免费生成 25 张图像）；同时，Ideogram 也正式推出 2.0 版本，声称文本渲染能力更强；谷歌曾多次「剧透」的 AI 生图模型 Imagen 3 前几天也终于亮相。更有趣的是，Ideogram和

世界机器人大会上，这家承载「未来养老希望」的国产机器人被包围了

正在北京举行的世界机器人大会上，人形机器人的展示成为了现场绝对的焦点，在星尘智能的展台上，由于 AI 机器人助理 S1 在一个展区上演扬琴、武术、书法三台大戏，能文能武，吸引了大量专业观众和媒体的驻足。在带弹性的琴弦上的优雅演奏，让 S1 展现出速度、力度、精度兼具的精细操作和绝对掌控。央视新闻对「书法」背后的模仿学习和智能控制进行了专题报道，公司创始人来杰解释到，丝滑动作的背后，是硬件侧追求最好力控和最仿人身体指标（速度、负载等），而是在 AI 侧则采集人的真实动作数据，让机器人遇强则强，快速学习进化。而敏捷飘逸

大模型时代的ASR就是不一样！豆包“听力”水平现场评测，方言&小朋友口音直接拿捏！

2024 火山引擎 AI 创新巡展上海站于近日举办，活动展示了豆包大模型在综合评分、语音识别等方面的效果提升，还发布了对话式 AI 实时交互解决方案。豆包大模型团队成果 Seed-ASR ，提供了语音识别能力支持。Seed-ASR 是一款 ASR（自动语音识别）成果。它能准确转录各种语音信号，识别不同语言、方言、口音。对于人名、生词，Seed-ASR 也能结合文本语音等上下文，实现更准确转录。该成果目前已被集成进豆包 APP 、火山引擎相关服务模块中。本文介绍了 Seed-ASR 技术亮点 —— 高精度识别、大容量

明确了：文本数据中加点代码，训练出的大模型更强、更通用

代码知识原来这么重要。如今说起大语言模型（LLM），写代码能力恐怕是「君子六艺」必不可少的一项。在预训练数据集中包含代码，即使对于并非专门为代码设计的大模型来说，也已是必不可少的事。虽然从业者们普遍认为代码数据在通用 LLM 的性能中起着至关重要的作用，但分析代码对非代码任务的精确影响的工作却非常有限。在最近由 Cohere 等机构提交的一项工作中，研究者系统地研究了代码数据对通用大模型性能的影响。论文链接：「预训练中使用的代码数据对代码生成以外的各种下游任务有何影响」。作者对范围广泛的自然语言推理任务、世界知识任

国内首个自研MoE多模态大模型，揭秘腾讯混元多模态理解

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]以 GPT 为代表的大型语言模型预示着数字认知空间中通用人工智能的曙光。这些模型通过处理和生成自然语言，展示了强大的理解和推理能力，已经在多个领域展现出广泛的应用前景。无论是在内容生成、自

用AI自动设计智能体，数学提分25.9%，远超手工设计

基于 ADAS 所发现的智能体的性能大大优于最先进的手工设计的基线。基础模型 (FM) 如 GPT 和 Claude ，正在成为通用智能体的强有力支持，被越来越多的用于多种推理和规划任务。然而，在解决问题时，需要的智能体通常是具有多个组件的复合智能体系统，而不是单片模型查询。此外，为了使智能体能够解决复杂的现实世界任务，它们通常需要访问外部工具，例如搜索引擎、代码执行和数据库查询。因此，人们提出了许多有效的智能体系统构建块，例如思维链规划和推理、记忆结构、工具使用和自我反思。尽管这些智能体已经在各种应用中取得了显