AI资讯列表 - AI在线

被奔驰看上的“人”

机器之能报道编辑：吴昕别人秀“大脑”，我们有的是“肌肉”，还有美妙的成本价格。继 Figure 01、优必选、Digit 之后，人形机器人 Apollo 成为第四个进入知名车厂试点的“打工人”。上周五，人形机器人公司、NASA 合作伙伴 Apptronik 宣布已与梅赛德斯·奔驰（以下简称奔驰）达成一项商业协议，试点将身高 1.7 米、体重 140 多斤的双足机器人 Apollo 用于制造业。奔驰也成为继宝马、蔚来汽车之后最新尝试人形机器人的汽车公司。据英国《金融时报》报道，奔驰已经开始在位于匈牙利的一家工厂试用数

OpenAI 首席技术官：不确定 Sora 的训练数据来自哪里

感谢OpenAI 近期推出了炙手可热的文本转视频生成模型 Sora，然而该公司首席技术官 (CTO) Mira Murati 在接受华尔街日报采访时却语焉不详，无法明确说明 Sora 的训练数据来源。在采访中，记者直接询问 Murati 关于 Sora 训练数据来源时，她仅以含糊的官方话术搪塞：“我们使用的是公开可用数据和许可数据。”当记者追问具体来源是否包含 YouTube 视频时，Murati 竟然表示“我实际上并不确定（I'm actually not sure about that）”，并拒绝回答有关 In

李开复：目前最好的大模型智能已达人类平均智力水平三倍

感谢据新浪科技报道，今日举行的 2024 澜舟科技大模型技术和产品发布会期间，澜舟科技宣布与创新工场董事长李开复创立的零一万物达成战略合作。创新工场董事长、零一万物 CEO 李开复在今天的活动中表示，大模型的智力水平在两年前就已经比普通人水平“好一点”，而在目前，世界上最好的大模型已经是人类平均智力水平的三倍。李开复以“答题”举例，即在 100 道考题里，普通人平均只能答对 33 题，而“最好的 AI 大模型”可答对 99 道以上。李开复称从应用角度来看，“杀手级”应用早已问世。“至少在美国我们可以看到，AI 应用

全球首个类 Sora 开源复现方案来了！全面公开所有训练细节和模型权重

全球首个开源的类 Sora 架构视频生成模型，来了！整个训练流程，包括数据处理、所有训练细节和模型权重，全部开放。这就是刚刚发布的 Open-Sora 1.0。它带来的实际效果如下，能生成繁华都市夜景中的车水马龙。还能用航拍视角，展现悬崖海岸边，海水拍打着岩石的画面。亦或是延时摄影下的浩瀚星空。自 Sora 发布以来，由于效果惊艳但技术细节寥寥，揭秘、复现 Sora 成为了开发社区最热议话题之一。比如 Colossal-AI 团队推出成本直降 46% 的 Sora 训练推理复现流程。短短两周时间后，该团队再次发布最

可发现药物靶点，哈佛等机构开发了一种对蛋白建模的深度学习方法

编辑 | 萝卜皮翻译延伸对于维持细胞蛋白质稳态至关重要，并且翻译景观的改变与一系列疾病相关。核糖体分析可以在基因组规模上详细测量翻译。然而，目前尚不清楚如何从这些数据中的技术产物中分离出生物变异，并识别翻译失调的序列决定因素。在最新的研究中，中国科学院、哈佛大学（Harvard University）、斯坦福大学（Stanford University）、约翰霍普金斯大学（Johns Hopkins University）的研究团队开发了 Riboformer，一个基于深度学习的框架，用于对翻译动态中上下文相关的变

专访上海大学方昱春教授：数据驱动的手语识别研究，如何破解数据之困？｜GAIR live

在科技日新月异的今天，手语识别作为一种新兴的跨学科研究领域，正逐渐走进公众视野。近期，我们邀请了上海大学的方昱春教授，这位在计算机视觉和手语研究领域深耕多年的资深专家，与我们分享了她如何将计算机视觉技术与手语研究相融合，开辟出一片新的研究天地。方教授的研究重点在于利用计算机视觉技术（CV）探索手语识别，特别是通过深度学习方法来求解这一复杂而神奇的自然语言交流形式。

没等来OpenAI，等来了Open-Sora全面开源

不久前 OpenAI Sora 以其惊人的视频生成效果迅速走红，在一众文生视频模型中突出重围，成为全球瞩目的焦点。继 2 周前推出成本直降 46% 的 Sora 训练推理复现流程后，Colossal-AI 团队全面开源全球首个类 Sora 架构视频生成模型「Open-Sora 1.0」，涵盖了整个训练流程，包括数据处理、所有训练细节和模型权重，携手全球 AI 热爱者共同推进视频创作的新纪元。先睹为快，我们先看一段由 Colossal-AI 团队发布的「Open-Sora 1.0」模型生成的都市繁华掠影视频。

马斯克开源Grok-1：3140亿参数迄今最大，权重架构全开放，磁力下载

开源社区有福了。说到做到，马斯克承诺的开源版大模型 Grok 终于来了！今天凌晨，马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家（MoE）模型「Grok-1」，以及该模型的权重和网络架构。这也使得Grok-1成为当前参数量最大的开源大语言模型。封面图根据 Grok 提示使用 Midjourney 生成的：神经网络的 3D 插图，具有透明节点和发光连接，以不同粗细和颜色的连接线展示不同的权重。这个时候，马斯克当然不会忘了嘲讽 OpenAI 一番，「我们想了解更多 OpenAI

ICLR 2024 | 无需训练，Fast-DetectGPT让文本检测速度提升340倍

Fast-DetectGPT 同时做到了高准确率、高速度、低成本、通用，扫清了实际应用的障碍！大语言模型如 ChatGPT 和 GPT-4 在各个领域对人们的生产和生活带来便利，但其误用也引发了关于虚假新闻、恶意产品评论和剽窃等问题的担忧。本文提出了一种新的文本检测方法 ——Fast-DetectGPT，无需训练，直接使用开源小语言模型检测各种大语言模型生成的文本内容。Fast-DetectGPT 将检测速度提高了 340 倍，将检测准确率相对提升了 75%，成为新的 SOTA。在广泛使用的 ChatGPT 和 G

iPhone 内置 Gemini AI？消息称苹果正与谷歌谈判合作

感谢据彭博社报道，知情人士透露，苹果公司就在 iPhone 中内置谷歌 Gemini 人工智能引擎进行谈判，为达成一项将震撼 AI 行业的重磅协议奠定了基础。知情人士表示，两家公司正在积极谈判，以允许谷歌的一套生成人工智能模型 Gemini，为今年苹果 iPhone 软件的一些新功能提供动力。由于讨论是私下进行的，知情人士要求匿名。据知情人士透露，苹果最近还与 OpenAI 进行了讨论，并考虑使用其模型。不过据IT之家此前报道，苹果也在研究自己的 AI 大模型，苹果公司旗下研究团队近日在 ArXiv 中公布了一篇名

拖拽P图技术又升级了：StableDrag更稳、更准，南大、腾讯联合打造

去年 5 月，动动鼠标就能让图片变「活」得研究 DragGAN 吸引了 AI 圈的关注。通过拖拽，我们可以改变并合成自己想要的图像，比如下图中让一头狮子转头并张嘴。实现这一效果的研究出自华人一作领衔的「Drag Your GAN」论文，于上个月放出并已被 SIGGRAPH 2023 会议接收。相关的项目在 GitHub 上已经积累了 34.5k 的 Star 量。项目地址：，新加坡国立大学和字节跳动推出了类似的研究 ——DragDiffusion。他们利用大规模预训练扩散模型，极大提升了基于点的交互式编辑在现实世界

首个AI软件工程师Devin完整技术报告出炉，还有人用GPT做出了「复刻版」

从编码、编译到调试、验证，AI 智能体能做的事情更多了。这周三，Cognition AI 团队发布的首个 AI 软件工程师 Devin 引爆了 AI 社区，引发了人们对程序员这个职业未来前景的热议。在对 Devin 的评估中，团队使用了 SWE-bench。这是一个由 GitHub 问题和拉取请求组成的软件工程系统的自动化基准测试。他们认为 SWE-bench 是一个不错的选择，它确定性地评估（通过单元测试）系统解决现实世界代码库问题的能力，并与 HumanEval 等仅限于独立功能的基准测试不同。从结果来看，在

从直观物理学谈到认知科学，Sora不是传统物理模拟器盖棺定论了？

本文篇幅很长，主题很多，但循序渐进，对「Sora 究竟是不是世界模拟器」这一说法给出了非常详实的解读。最近，OpenAI 的文生视频模型 Sora 爆火。除了能够输出高质量的视频之外，OpenAI 更是将 Sora 定义为一个「世界模拟器」（world simulators）。当然，这一说法遭到了包括图灵奖得主 Yann LeCun 在内很多学者的反驳。LeCun 的观点是：仅仅根据 prompt 生成逼真视频并不能代表一个模型理解了物理世界，生成视频的过程与基于世界模型的因果预测完全不同。近日，澳大利亚麦考瑞大学

大模型能自己优化Prompt了，曾经那么火的提示工程要死了吗？

人类设计 prompt 的效率其实很低，效果也不如 AI 模型自己优化。2022 年底，ChatGPT 上线，同时引爆了一个新的名词：提示工程（Prompt Engineering）。简而言之，提示工程就是寻找一种编辑查询（query）的方式，使得大型语言模型（LLM）或 AI 绘画或视频生成器能得到最佳结果或者让用户能绕过这些模型的安保措施。现在的互联网上到处都是提示工程指南、快捷查询表、建议推文，可以帮助用户充分使用 LLM。在商业领域，现在也有不少公司竞相使用 LLM 来构建产品 copilot、自动化繁琐的

COLING24｜自适应剪枝让多模态大模型加速2-3倍，哈工大等推出SmartTrim

基于 Transformer 结构的视觉语言大模型（VLM）在各种下游的视觉语言任务上取得了巨大成功，但由于其较长的输入序列和较多的参数，导致其相应的计算开销地提升，阻碍了在实际环境中进一步部署。为了追求更为高效的推理速度，前人提出了一些针对 VLM 的加速方法，包括剪枝和蒸馏等，但是现有的这些方法大都采用静态架构，其针对不同输入实例采用同样的计算图进行推理，忽略了不同实例之间具有不同计算复杂性的事实：针对复杂的跨模态交互实例，自然需要更多计算才能完全理解图像和相关问题的复杂细节；相反，简单的实例则可以用更少的计算

流浪地球里的数字生命计划启动了？DeepMind在电脑里造果蝇，网友：能造人吗？

「质疑图恒宇，理解图恒宇，成为图恒宇。」在《流浪地球 2》中，刘德华饰演的图恒宇是一个令人印象深刻的角色。为了让在车祸中去世的女儿拥有「完整的一生」，他不顾人类世界对「数字生命计划」的禁令，一直在暗中独自努力完善数字生命的架构，并最终决定公然违规，将女儿的数据上传至量子计算机，之后因此被捕入狱。电影《流浪地球 2》中的数字生命图丫丫。电影上映后，有关「数字生命」的话题经过了很多讨论。最近，这个话题被再次提起，起因是不少失去亲友的人正在尝试用 AI 技术「复活

苹果为杀入AI领域低调收购，iOS 18要有大动作

苹果一直是人工智能公司的最大买家，甚至超过了微软和谷歌。在 AI 领域百花齐放的当下，作为全球顶尖的科技公司苹果，似乎掀起的水花不是很大。苹果在 AI 领域的布局到底是什么，或许苹果 CEO 蒂姆・库克的一句话可以为我们答疑解惑。此前在 2024 苹果股东大会上，库克表示，今年将在 GenAI 领域实现重大进展。此外，苹果宣布放弃 10 年之久的造车项目之后，一部分造车团队成员也开始转向 GenAI。如此种种，苹果向外界传达了加注 GenAI 的决心，很多人开始感叹苹果在生成式 AI 领域终于不再低调了。显然，苹果

一句指令就能冲咖啡、倒红酒、锤钉子，清华具身智能CoPa「动」手了

近期，具身智能方向取得了诸多进展。从谷歌的 RT-H 到 OpenAI、Figure 联合打造的 Figure 01，机器人的交互性、通用性越来越强。如果未来机器人成为人们日常生活的助手，你期待它们能够完成哪些任务？泡一杯热气腾腾的手冲咖啡，整理桌面，甚至帮你精心安排一场浪漫的约会，这些任务，只需一句指令，清华的具身智能新框架「CoPa」都能完成。CoPa（Robotic Manipulation through Spatial Constraints of Parts）是清华叉院高阳教授机器人研究团队最新提出的具