AI资讯列表 - AI在线

深度解析Recraft V3：突破文本渲染限制，「文生图」黑马是怎样炼成的？

在当前的图像生成技术中，文本渲染的能力已逐渐成为衡量其先进性的重要标准。不论是学术界的最新研究还是市场上的先进产品，都在竞相展示其处理复杂文本的能力，这不仅标志着技术的进步，更是成为一种创新的分水岭。实际上，字图生成技术在多个领域内显示出显著的实用性，例如在设计海报、书籍封面、广告和LOGO等方面，已成为不可或缺的工具。

又一 OpenAI 研究员离职，称 AGI 使命无比艰难

OpenAI 治理研究员 Richard Ngo 宣布离职。近来，OpenAI 中专注于 AI 安全的员工接连出走，Ngo 是最新的一位。

国产地表最强视频模型震惊歪果仁，官方现场摇人30s直出！视觉模型进入上下文时代

来自中国的视频生成模型，再一次震惊了全球大模型圈。生数科技推出的Vidu 1.5，成为世界首个支持多主体一致性的多模态模型！上传小哥、机甲、街景，接下来，就是见证奇迹的时刻。

刚刚，谷歌宣布35岁Keras之父Francois Chollet离职

「再见，并感谢您一直以来的合作，Francois Chollet！」今天，一封发布于 Google for Developers 网站的公开信，让很多人略微震惊。「今天，我们宣布 Keras 的创始人、人工智能领域的领军人物 Francois Chollet 将离开 Google，开始他职业生涯的新篇章。

灵宝CASBOT首款人形机器人产品—CASBOT 01发布，应用级产品搅动千亿市场

2024年11月13日，人形机器人品牌灵宝CASBOT正式发布首款全尺寸双足人形机器人“CASBOT 01”，一款多场景落地的通用类脑智能机器人。这是灵宝CASBOT在成立不到1年的时间内交出的一份亮眼的答卷，也标志着人形机器人赛道迎来一位极具快速商业化能力的新入局者。成立至今，灵宝CASBOT已在航天航海、应急救援、井下作业、工业制造和商业服务等多个领域积累了众多合作伙伴，并探索出具身智能商业应用的新场景。

简单了解大模型（LLM）智能体，传统软件工程思维依然适用

说到大模型应用的理想态，我相信很多人都可以想到《钢铁侠》里面的贾维斯，可以根据环境、天气、对手火力等情况，给钢铁侠提供决策指导或者自主决策。大模型Agent就是人们希望借助大模型实现的类似于贾维斯一样智能助手能力，它具备环境感知能力、自主理解、决策制定以及行动执行的能力。在实现Agent架构过程中，有很多思维方式和传统软件工程思维是相似的。

Meta最新！PARTNR：具身多智能体任务中规划与推理的基准测试框架

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&出发点本文提出了一个人机协作中的规划与推理任务基准（PARTNR），旨在研究家庭活动中的人机协调。 PARTNR任务展现了日常任务的特点，如空间、时间和异构agent能力约束。

Waymo玩明白了！全新多模态端到端算法EMMA：感知规划一网打尽~

写在前面 & 笔者的个人理解本文介绍了EMMA，一种用于自动驾驶的端到端多模态模型。 EMMA建立在多模态大型语言模型的基础上，将原始摄像头传感器数据直接映射到各种特定于驾驶的输出中，包括规划者轨迹、感知目标和道路图元素。 EMMA通过将所有非传感器输入（如导航指令和自车状态）和输出（如轨迹和3D位置）表示为自然语言文本，最大限度地利用了预训练的大型语言模型中的世界知识。

现在是投资实施人工智能的好时机吗？

虽然供应商表示，他们目前基于代理的人工智能产品很容易实现，但分析师表示，事实远非如此。软件供应商的宣传也在不断发展，在他们的营销信息中，人工智能开始取代生成式人工智能。他们说，人工智能不仅仅是为人类审查生成代码或内容，它将遵循指令，做出决定，并采取行动，就像人类工作者一样，无需人类干预。

用大模型云锦天章问世彩云科技开创DCFormer架构全新篇章

2017年，谷歌发布《Attention Is All You Need》论文，首次提出Transformer架构，掀开了人工智能自然语言处理（NLP）领域发展的全新篇章。 Transformer架构作为神经网络学习中最重要的架构，成为后来席卷全球的一系列通用大模型如ChatGPT、Gemini的底层技术支撑。而提升Transformer的运行效率也成为人工智能领域的研究热点，2024年4月，谷歌最近一次更新了Transformer架构，提出了Mixture-of-Depths（MoD）方法，使得训练后采样过程中提速50%，成为Transformer架构提速升级的又一重要事件。

Red Hat 收购 Neural Magic 并开源其技术：优化通用设备 AI 性能，可媲美专用芯片

Red Hat 于 11 月 12 日发布公告，宣布收购初创企业 Neural Magic，但并未披露本次交易细节。

关于战略人工智能的深度综述

译者 | 朱先忠审校 | 重楼本文将全面探索战略性人工智能的概念、发展及相关博弈论理论，并对战略人工智能的未来发展方向提出建议。开场白1997年5月11日，纽约市。这是纽约市一个美丽的春日，天空晴朗，气温攀升至20摄氏度。

如何使用Kubernetes合理调整GPU和CPU资源以训练和推理AI模型

译者 | 李睿审校 | 重楼如今，人工智能服务的迅速崛起创造了对计算资源的巨大需求，而如何有效管理这些资源成为一项关键挑战。虽然使用Kubernetes运行人工智能工作负载已经取得了长足的进步，但基于动态需求优化调度仍然是一个亟待改进的领域。在全球范围内，许多组织面临与GPU集群的成本和可用性相关的限制，并且通常依赖于这些计算集群来进行推理工作负载和持续的模型训练和微调。

AI 开始“卷”智能体：OpenAI 被曝明年将推 Operator，可控制电脑、独立执行任务

科技媒体 The Verge 今天（11 月 14 日）发布博文，报道称 OpenAI 公司计划于 2025 年 1 月，以研究预览和开发工具的形式，推出名为“Operator”的自动化 AI 智能体，可以独立控制计算机并执行各种任务。

人工智能的下一个前沿：多模态系统将重塑我们的世界

人工智能的世界正在以惊人的速度发展。多模态人工智能处在这场革命的前沿，这项技术将重新定义我们人类与机器的交互方式。多模态人工智能不仅仅是另一个热词，多模态人工智能是一个正在改变各个行业并有望重塑数字格局的范式转变。

终于把 Seq2Seq 算法搞懂了！！

Seq2Seq（Sequence-to-Sequence）模型是一种用于处理序列数据的神经网络架构，广泛应用于自然语言处理（NLP）任务，如机器翻译、文本生成、对话系统等。它通过编码器-解码器架构将输入序列（如一个句子）映射到输出序列（另一个句子或序列）。图片模型结构Seq2Seq 模型由两个主要部分组成。

腾讯：大模型 App 元宝不会嵌入商业搜索结果，目前专注于尽可能增加对用户的吸引力

腾讯元宝是依托于腾讯混元大模型的 AI 产品，发布于今年 5 月，提供了 AI 搜索、AI 总结、AI 写作等功能。

DeepL 推出首个语音翻译解决方案 DeepL Voice，号称消除虚拟会议中语言障碍

DeepL Voice 现已面向全球企业推出，推出时支持以下口语语言：英语、德语、日语、韩语、瑞典语、荷兰语、法语、土耳其语、波兰语、葡萄牙语、俄语、西班牙语和意大利语。

资讯列表