AI资讯列表 - AI在线

Meta 发布 Sapiens 视觉模型，让 AI 分析和理解图片 / 视频中人类动作

Meta Reality 实验室最新推出了名为 Sapiens 的 AI 视觉模型，适用于二维姿势预估、身体部位分割、深度估计和表面法线预测 4 种以人为中心的基本视觉任务。这些模型的参数数量各不相同，从 3 亿到 20 亿不等。它们采用视觉转换器架构，任务共享相同的编码器，而每个任务有不同的解码器头。二维姿势预估：这项任务包括检测和定位二维图像中人体的关键点。这些关键点通常与肘、膝和肩等关节相对应，有助于了解人的姿势和动作。身体部位分割：这项任务将图像分割成不同的身体部位，如头部、躯干、手臂和腿部。图像中的每个像

程序员为何容易爱上 AI？MIT 学者研究：「智性恋」浓度过高

OpenAI 警告说，跟人工智能语音聊天可能会产生「情感依赖」。这种情感依赖是怎么产生的呢？MIT 的一项研究指出，这可能是「求仁得仁」的结果，无怪乎连软件工程师也会对 AI 着迷。「请不要爱上我们的人工智能聊天机器人。」这个月，OpenAI 在发布的官方报告中，特意提到，不希望用户与 ChatGPT-4o 建立情感联系。OpenAI 的这种担心并不是多余的，对一百万个 ChatGPT 交互日志的分析表明，AI 的第二大流行用途居然是性角色扮演。论文地址： AI 伴侣上瘾的不仅包括对技术不甚了解的普通用户，连软件工

Transformer 作者 Aidan Gomez 预警：只卖模型玩不过 OpenAI

Transformer 八子中最年轻的 Aidan Gomez 在最新的采访中感叹：只卖模型真的不赚钱！谷歌版的 Aidan Gomez，是给 AI 领域带来深远影响的 Transformer 作者之一。而现在的 Aidan Gomez，是估值飙升 55 亿美元的 Cohere 公司的联合创始人兼 CEO（此前推出了 Command R 系列开源大模型）。在这次与 20VC 主理人 Harry Stebbings 的对话中，Aidan Gomez 大谈特谈 AI 的发展趋势。其中的一些话题引发了网友们的关注和讨论，

前 OpenAI 研究人员警告“老东家”：若 AI 无监管将造成灾难性伤害

据《商业内幕》北京时间今天上午报道，OpenAI 公开表示了对加州 SB 1047 法案（AI 安全法案）的反对意见之后，两名 OpenAI 的前研究人员则站出来公开反对自己的“老东家”，并提出警告。美国加州 AI 安全法案将要求 AI 公司采取措施，防止其模型造成“严重损害”，例如开发可能导致大量人员伤亡的生物武器或造成超过 5 亿美元（AI在线注：当前约 35.66 亿元人民币）的经济损失。这些前员工向加州州长加文・纽森和其他立法者致信称，OpenAI 对该法案的反对令人失望，但并不令人意外。两名研究人员威廉・

腾讯推出“全球首个”语音指挥 FPS AI 队友，可据输入指令推测玩家意图

感谢AI在线从腾讯魔方工作室获悉，在 8 月 21 日的 2024 科隆游戏展上，《暗区突围》端游海外版《Arena Breakout: Infinite》亮相。同时，由魔方工作室群技术团队联合《暗区突围》项目团队推出了号称“全球首个”的语音指挥 FPS AI F.A.C.U.L. 。据官方介绍，该产品是全球第一个“能听懂人类语言”的 FPS AI 队友，应用了生成式 AI 技术，包括语音输入、大语言模型、实时语音合成和环境识别等。其支持玩家用语音直接输入复杂战术指令，还能以此推测玩家意图并用 AI 语音实时反

“国内首个能力追齐 GPT-4o 语音能力的模型”，心辰 Lingo 语音 AI 模型开放内测预约

金科汤姆猫投资的西湖心辰于今年 8 月推出心辰 Lingo 语音大模型，是国内首个端到端语音大模型，已于今天（8 月 24 日）开启内测预约。在 8 月 21 日发布的公告中，官方介绍称相比较传统 TTS，端到端语音大模型则是一种更为全面的技术，它不仅可以语音识别，还集成了自然语言处理、意图识别、对话管理以及语音合成等多个环节，实现了从语音输入到语音反馈的完整交互过程，极大地丰富了人机交互的深度和广度。AI在线援引官方新闻稿，心辰 Lingo 语音模型是国内首个能力追齐 GPT-4o 语音能力的模型，技术能力上具备

集成 Photoshop 功能的强大节点！ComfyUI layer style节点保姆级教程（三）

前言：学习 ComfyUI 是一场持久战，而 ComfyUI layer style 是一组专为图片设计制作且集成了 Photoshop 功能的强大节点。该节点几乎将 PhotoShop 的全部功能迁移到 ComfyUI，诸如提供仿照 Adobe Photoshop 的图层样式、提供调整颜色功能（亮度、饱和度、对比度等）、提供 Mask 辅助工具、提供图层合成工具和工作流相关的辅助节点、提供图像效果滤镜等。旨在集中工作平台，使我们可以在 ComfyUI 中实现 PhotoShop 的一些基础功能。一、安装方式方

Ideogram 倒逼 Midjourney“拔剑”，开放网页版后再向免费用户开放 AI 文生图提示词描述工具

科技媒体 testingcatalog 昨日（8 月 23 日）发布博文，或许是 Midjourney 感受到来自 Ideogram 最新模型的压力，在昨日开放网页版，并附赠 25 张文生图试用额度之外，还向免费用户推出了“Tools with the Lab”工具。AI在线注：该功能此前已经向购买 Pro 专业版订阅的用户开放，现在向免费用户也开放体验，用户点击后会进入“Describe”页面。用户可以上传任意照片，然后该工具就会提供 4 种不同的描述，之后用户可以将其作为提示词，通过 Midjourney 创建

Meta 研发新方法：整合语言和扩散 AI 模型，降低计算量、提高运算效率、优化生成图像

Meta AI 公司最新推出了 Transfusion 新方法，可以结合语言模型和图像生成模型，将其整合到统一的 AI 系统中。AI在线援引团队介绍，Transfusion 结合了语言模型在处理文本等离散数据方面的优势，以及扩散模型在生成图像等连续数据方面的能力。Meta 解释说，目前的图像生成系统通常使用预先训练好的文本编码器来处理输入的提示词，然后将其与单独的扩散模型结合起来生成图像。许多多模态语言模型的工作原理与此类似，它们将预先训练好的文本模型与用于其他模态的专用编码器连接起来。不过 Transfusion

摩尔线程开源音频理解大模型 MooER：基于国产全功能 GPU 训练和推理

摩尔线程开源了音频理解大模型 —MooER（摩耳），是业界首个基于国产全功能 GPU 进行训练和推理的大型开源语音模型。基于摩尔线程夸娥（KUAE）智算平台，MooER 大模型用 38 小时完成了 5000 小时音频数据和伪标签的训练。MooER 不仅支持中文和英文的语音识别，还具备中译英的语音翻译能力。在 Covost2 中译英测试集中，MooER-5K 取得了 25.2 的 BLEU 分数，接近工业级效果。摩尔线程 AI 团队在该工作中开源了推理代码和 5000 小时数据训练的模型，并计划进一步开源训练代码和基

AI在用 | 发现一个AI调色板，还真整出了「五彩斑斓的黑」

机器之能原创作者：sia以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式，但绝大部分人依然不知道该如何使用。因此，我们推出了「AI在用」专栏，通过直观、有趣且简洁的人工智能使用案例，来具体介绍AI使用方法，并激发大家思考。我们也欢迎读者投稿亲自实践的创新型用例。投稿邮箱：[email protected]无论用哪种模型生成精美图片，提示语都会包含对调色板的要求。想要营造日落的氛围感觉？一定要提示，使用温暖、明亮的日落色调。还要强调色调给人的感受，如一种壮丽、瑰丽的感觉。提示语：Po

搭载三星电子 HBM3E 12H 内存，韩 Rebellions 有望今年内发布下代 AI 芯片

据韩媒 ZDNet Korea 报道，韩国无厂 AI 芯片设计企业 Rebellions 首席技术官 Oh Jin-wook 在接受采访时表示其下一代 AI NPU 芯片 REBEL 有望于 2024 年内发布。▲ Rebellions 此前推出的 Atom NPUREBEL 专为加速大语言模型和多模态模型而设计，其采用三星三星的制程与内存组合：三星 4nm 工艺搭配三星 HBM3E 12H 内存。此外 REBEL 芯片还将支持 800Gb 以太网。REBEL 家族包含两款产品，即基于单个芯粒的 REBEL-

AI首次解决量子物理学难题，DeepMind精确计算量子激发态，登Science

编辑 | KX此前，Google DeepMind 研究人员开发的费米子神经网络 (FermiNet) 非常适合对大量电子的量子基态进行建模。FermiNet 最初专注于分子的基态。但是，当分子和材料受到大量能量的刺激时，例如暴露在光或高温下，电子可能会被踢入更高的能量状态——激发态。激发态在物理学和化学等领域都很重要；然而，从第一原理出发对激发态特性进行可扩展、准确且稳健的计算仍然面临重要的理论挑战。现在，DeepMind 研究人员开发了一种计算激发态的新方法，它比以前的方法更强大、更通用。该方法可以应用于任何

一句话生成《黑神话：悟空》3D资产，胡渊鸣创业项目Meshy上新，免费试用

几何更干净、细致，工作流更合理，Meshy的3D生成能力又进化了，所有人都可以免费试用。天命人，你现在已经到哪儿了？毫无疑问，不论是朋友圈还是各个网络平台，这两天最火的是《黑神话：悟空》。哪怕你平时根本不玩游戏，也可能因为破纪录的销售额，或者全网刷屏的「自来水」，而关注到这个被誉为「创造了中国游戏历史」的超级大作。不过《黑神话：悟空》首次出圈，是因为一支实机演示视频。这支拥有近六千万播放量的预告片，宣告着在西方文化主导的游戏行业，中国玩家即将迎来他们梦寐以求的根植于中国文化的英雄主角。而预告片中直击人心的视觉效果，

终于，Claude上线LaTeX公式渲染功能，评论区网友沸腾了

当 ChatGPT 老早就支持使用 LaTeX 语言输入和显示数学公式时，Claude 现在终于补上了这一功能。在论文、书籍、报告或幻灯片中，我们有时需要插入数学公式或符号。其中使用 LaTeX 语言来生成数学公式或符号是主要方式之一，这就是所谓的 LaTeX 公式渲染，通过简单的命令来实现复杂的数学表达式。对于大语言模型来说，它们在解答一些数学相关的问题时有时也需要输出数学方程式或表达式。这时如果能够使用 LaTeX 输出标准的公式，答案自然会更加清晰明了。以大模型初创公司 Anthropic 的 Claude

重返谷歌的Transformer作者，开始掌管Gemini AI

Noam Shazeer 2021 年离职谷歌，3 年后又以特殊方式重回谷歌。本月初，初创公司 Character.AI 宣布了一则重磅消息，约 25 亿美元「卖身」谷歌，并授予谷歌获得 Character.AI 大型语言模型（LLM）技术的非独家许可。Character.AI 的联合创始人 Noam Shazeer 和 Daniel De Freitas 也将重返谷歌。其中，Noam Shazeer 是 Character.AI 的创始人、CEO，也是 Transformer 论文作者之一，他曾在谷歌任首席软件工

总说具身智能的数据太贵，鹏城实验室开源百万规模标准化数据集

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]该论文作者来自于鹏城实验室多智能体与具身智能研究所及南方科技大学、中山大学的师生团队，包括林倞教授（研究所所长，国家杰青，IEEE Fellow），郑锋教授，梁小丹教授，王志强（南科大），

帕西尼发布第二代多维触觉人形机器人 TORA-ONE：双手集成近 2000 个自研 ITPU 传感单元

2024 世界机器人大会于 8 月 21 日在北京开幕，帕西尼感知科技发布了第二代人形机器人 TORA-ONE。第二代多维触觉人形机器人 TORA-ONE 双手集成近 2000 个自研的 ITPU 多维触觉传感单元，能捕捉并解析接触面上细微形变与多维度触感信息；本体自由度提升至 47 个，搭配 26 自由度的仿生灵巧手，支持自研的 VTLA-Model 视触觉多模态感知模型与 AI 视觉系统。▲ 第二代多维触觉人形机器人 TORA-ONEAI在线注意到，TORA-ONE 采用了高度模块化的设计理念，支持 1.46