AI资讯列表 - AI在线

高通发布解读终端侧生成式 AI 技术白皮书：异构计算背后的技术奥秘

过去一年，生成式 AI 赛道持续火热，到今天，“All in AI”已经成为几乎所有科技企业的共识，互联网企业在用 AI 重新打造业务和软件，终端厂商在用 AI 重塑产品，抢滩“AI 手机”、“AI PC”，上游的芯片和解决方案提供商，则也在用 AI 重新定义芯片。在此背景下，作为很早就在底层芯片技术层面布局终端侧 AI 的高通，最近发布了《通过 NPU 和异构计算开启终端侧生成式 AI》白皮书。在这份白皮书中，高通详细解读了在生成式 AI 需求愈发旺盛的趋势下，他们是如何利用 NPU 和异构计算，开启终端侧的丰富

基于DiT，支持4K图像生成，华为诺亚0.6B文生图模型PixArt-Σ来了

这个模型和 Sora 一样采用了 DiT 框架。众所周知，开发顶级的文生图（T2I）模型需要大量资源，因此资源有限的个人研究者基本都不可能承担得起，这也成为了 AIGC（人工智能内容生成）社区创新的一大阻碍。同时随着时间的推移，AIGC 社区又能获得持续更新的、更高质量的数据集和更先进的算法。于是关键的问题来了：我们能以怎样的方式将这些新元素高效地整合进现有模型，依托有限的资源让模型变得更强大？为了探索这个问题，华为诺亚方舟实验室等研究机构的一个研究团队提出一种新的训练方法：由弱到强式训练（weak-to-stro

LeCun最新专访：为什么物理世界终将成为LLM的「死穴」？

在人工智能领域，很少有像 Yann LeCun 这样的学者，在 65 岁的年龄还能高度活跃于社交媒体。一直以来，Yann LeCun 都是以「直言不讳的批评者」形象活跃于人工智能领域。他始终支持开源，并带领 Meta 的团队推出了占据如今开源大模型领域半壁江山的 Llama 2；他对很多人深感恐慌的人工智能末日论不以为然，坚信 AGI 的到来一定是件好事……近日，LeCun 又一次来到 Lex Fridman 的播客，展开了一场接近三个小时的对谈，内容涉及开源的重要性、LLM 的局限性、为什么人工智能末日论者是错误

用AI短视频「反哺」长视频理解，腾讯MovieLLM框架瞄准电影级连续帧生成

在视频理解这一领域，尽管多模态模型在短视频分析上取得了突破性进展，展现出了较强的理解能力，但当它们面对电影级别的长视频时，却显得力不从心。因而，长视频的分析与理解，特别是对于长达数小时电影内容的理解，成为了当前的一个巨大挑战。究其原因，导致模型理解长视频困难的一个主要原因是缺乏高质量、多样化的长视频数据资源，而且收集和注释这些数据需要庞大的工作量。面对这样的难题，腾讯和复旦大学的研究团队提出了 MovieLLM，一个创新性的 AI 生成框架。MovieLLM 采用了创新性的方法，不仅可以生成高质量、多样化的视频数

怎么劝ChatGPT干活效果最好？我们尝试了100种方法，有图有真相

在 ChatGPT API 中，系统提示是一项很有亮点的功能，它允许开发人员控制 LLM 输出的「角色」，包括特殊规则和限制。系统提示中的命令比用户输入提示中的命令要有效得多，这让开发人员拥有了更大的发挥空间，而不是像现在使用 ChatGPT 网页应用程序和移动应用程序那样仅仅使用用户提示。举个例子，一个很有趣的 Trick 就是「给小费」。BuzzFeed 数据科学家 Max Woolf 是数亿 ChatGPT 用户中的一员。他亲自尝试过：如果没有 500 美元的小费奖励，ChatGPT 只会返回一个表情符号，这

奥特曼重返OpenAI董事会：看完3万份文件，调查组认定了

过山车一样的剧情。特别独立调查委员会发现，在去年 OpenAI 管理层动荡时，首席执行官萨姆・奥特曼（Sam Altman）的行为「不构成强制解雇」，现在他重新加入董事会了。历时超过 110 天，OpenAI 的宫斗剧现在迎来了盖棺定论的时刻。没有通用人工智能危机，也和神秘的技术突破 Q* 无关，国际律师事务所 WilmerHale 在大量调查之后认定，这次动荡的原因在于董事会成员之间关系破裂。现在，奥特曼和 Greg Brockman 是「OpenAI 的正确领导者」。在发布消息与记者通话时，奥特曼坐在 Greg

教授何恺明在MIT的第一堂课

700 座的大教室，相比去年增加一倍容量，仍然座无虚席：这就是麻省理工学院（MIT）计算机视觉课《Advances in Computer Vision》6.8300 在 2024 新学期的盛况。今年是四位教授，每人负责一部分课程：课程信息：，能选上这课的学生太幸运了，每节都是计算机视觉顶会 CVPR Oral 的体验。对于很多人来说，其中最为期待的自然是新晋教授何恺明的课。MIT 电气工程与计算机科学系副教授何恺明（Kaiming He）在 3 月 7 日走上讲台上完成了自己「人生中教的第一堂课」。据参与现场的同

谷歌具身智能新研究：比RT-2优秀的RT-H来了

RT-H 在一系列机器人任务中的表现都优于 RT-2。随着 GPT-4 等大型语言模型与机器人研究的结合愈发紧密，人工智能正在越来越多地走向现实世界，因此具身智能相关的研究也正受到越来越多的关注。在众多研究项目中，谷歌的「RT」系列机器人始终走在前沿（参见《大模型正在重构机器人，谷歌 Deepmind 这样定义具身智能的未来》）。谷歌 DeepMind 去年 7 月推出的 RT-2：全球第一个控制机器人的视觉 - 语言 - 动作（VLA）模型。只需要像对话一样下达命令，它就能在一堆图片中辨认出霉霉，并送给她一罐可乐

扩散模型如何构建新一代决策智能体？超越自回归，同时生成长序列规划轨迹

设想一下，当你站在房间内，准备向门口走去，你是通过自回归的方式逐步规划路径吗？实际上，你的路径是一次性整体生成的。近期的研究表明，采用扩散模型的规划模块能够同时生成长序列的轨迹规划，这更加符合人类的决策模式。此外，扩散模型在策略表征和数据合成方面也能为现有的决策智能算法提供更优的选择。来自上海交通大学的团队撰写的综述论文《Diffusion Models for Reinforcement Learning: A Survey》梳理了扩散模型在强化学习相关领域的应用。综述指出现有强化学习算法面临长序列规划误差累积、

大模型在复杂推理任务上潜力如何？多智能体互动框架ThinkThrice玩转剧本杀

剧本杀是一种广受欢迎的多角色扮演侦探游戏，要求玩家扮演不同的角色。通过阅读角色文本、理解各自的故事、搜集线索、以及逻辑推理，玩家们共同努力揭开谜团。游戏角色通常被分为平民和凶手两大类：平民的目标是找出隐藏在他们中间的凶手，而凶手则尽力隐藏自己的身份，避免被发现。那么，如果让 AI 加入游戏，会产生怎样的新变化呢？剧本杀游戏流程。加拿大蒙特利尔大学和 Mila 研究所的研究团队带来了一项令人兴奋的新研究，将 AI 的潜力引入到剧本杀游戏中。这项

让 AI 模型互相教学，谷歌推出社会学习框架

谷歌近日公开了一项名为“社会学习（Social Learning）”的 AI 框架，该框架允许 AI 语言模型能够通过自然语言互相学习，由于不需要直接交换敏感关键信息，因此训练出的 AI 模型更具隐私保护性。据介绍，在这款“社会学习框架”中，“学生模型”会向多个已知特定任务解法的“教师模型”学习各种问题的解决方案，研究人员设计了“垃圾短信检测”、“解决小学数学问题”、“根据特定文字回答问题”等多项测试，来评估相关“社会学习”框架的成效。研究人员表示，部分 AI 模型只经过短暂的“社会学习”框架训练，便能够能获得良好

OPPO 刘作虎内部讲话：AI 手机不是噱头，3 个月内友商必定都会跟进

3 月 11 日上午消息，新浪科技获悉，OPPO 高级副总裁、首席产品官，一加创始人刘作虎近日在一加内部会中回应了行业热议的 AI 手机话题。他表示，AI 手机不是噱头，而是行业大势所趋，3 个月内友商必定都会跟进。新浪科技独家获悉的内部会视频显示，在讲话开始，刘作虎首先总结了一加的业绩情况。刘作虎透露，一加在 2023 和 2024 开年都取得了领先行业的增速，其中 2024 年开年实现了同比去年 40% 的增长。2022 年，在一加 9 周年时，OPPO 正式宣布开启双品牌时代，OPPO 线上就是一加。同时，O

基于生成式 AI 技术，汤姆猫正在研发一款语音交互陪伴机器人

感谢汤姆猫公司日前公布了新一期的“投资者关系活动记录表”，披露了公司在 AI 领域的布局。据介绍，汤姆猫公司国内研发团队与西湖心辰合作的汤姆猫 AI 讲故事等产品，已初步完成主要功能的测试，公司海外团队研发的首款 AI 手游《Talking BenAI》已在斯洛文尼亚、塞浦路斯、南非等地区开启首轮海外测试。此外，公司 AI 硬件团队正研发一款基于生成式人工智能技术的 AI 语音交互陪伴机器人，预计将为公司业务带来全新增长空间。汤姆猫透露，此前一款全新适配 MR / VR 硬件的产品原型已经在苹果 Vision Pr

百度实战案例！百科AI对话式体验设计完整复盘

导语近年来 AI 发展如火如荼，大模型诞生与技术的积累和不断创新，带来了人机交互方式的革新。各大厂也纷纷结合自身业务场景进行模型和应用的开发，AI 正以惊人的速度改变着我们的生活和工作方式。面对生成式 AI 的行业浪潮，百度百科产研团队也在探索如何结合大模型能力，发挥百科在泛知识领域的优势，延展百科场景 AI 特色体验，强化内容浏览的体验感及效率性，契合用户对百科的期望，带给用户更极致的知识消费体验。一、认知建立——0到1建设消费新场景我们初步要做的是利用生成式 AI 的能力来解决词条冗长内容阅读的问题。在此基

OpenAI 视频生成服务 Sora 引发隐私担忧，意大利数据监管机构展开调查

感谢意大利数据保护机构 (Garante) 周五宣布，已对微软支持的 OpenAI 公司开发的一项服务展开调查，这个名为 Sora 的服务可以根据文本提示生成视频。监管机构要求 OpenAI 澄清其向用户和非用户告知其产品 Sora 使用的数据的方式是否符合欧盟法规。OpenAI 公司暂未对此事发表评论。意大利数据监管机构是欧盟国家中最为积极的监管机构之一，一直致力于评估人工智能平台是否符合欧盟的数据隐私法规。IT之家注意到，去年该机构就以涉嫌违规使用用户数据为由，禁止了聊天机器人 ChatGPT 在意大利的使用。

调查：AMD AI 芯片 Instinct MI300X 吸引大量用户弃用英伟达

根据最近的一项调查，大量人工智能专业人士正计划从英伟达转向采用 AMD Instinct MI300X GPU。TensorWave 联合创始人 Jeff Tatarchuk 透露，他们进行了一项独立调查，涵盖 82 名工程师和人工智能专业人士。其中，约有 50% 的受访者表示他们对 AMD Instinct MI300X GPU 充满信心，因为相比于英伟达的 H100 系列产品，MI300X 不仅拥有更出色的性价比，而且供应充足，避免了遇到货源紧张的问题。Jeff 还提到，TensorWave 公司也将采用 MI

百度李彦宏：“程序员”职业将不复存在，未来编程语言只会剩下英文和中文

感谢在 3 月 9 日央视的《对话》・开年说节目上百度创始人、董事长兼首席执行官李彦宏表示，以后不会存在“程序员”这种职业了，因为只要会说话，所有人都能具备程序员的能力。“未来的编程语言只会剩下两种，一种叫做英文，一种叫做中文。”李彦宏说道。谈到“百模大战”，李彦宏看来，这是对社会资源很大的浪费。大家不要去“卷”大模型，去“卷”应用，只有应用才真正直接创造价值。同时，他强调，做出上亿用户使用的应用时，大模型的真正价值才得到体现。对于未来两年大模型会对人类生活或生产带来怎么改变，李彦宏认为，“互联网改变我们的很多生活

ChatGPT 每天耗电超 50 万度，是美国普通家庭 1.7 万多倍

感谢据 The New Yorker 报道，热门聊天机器人 ChatGPT 每天需要处理超过 2 亿次请求，其电量消耗可能高达每天 50 万千瓦时。相比之下，美国普通家庭每天的平均用电量仅为 29 千瓦时，这意味着 ChatGPT 的日耗电量是普通家庭的 1.7 万倍以上。更令人担忧的是，随着生成式人工智能的普及，其电量消耗可能会进一步激增。荷兰中央银行数据科学家 Alex de Vries 在一份发表于可持续能源期刊《焦耳》上的论文中计算得出，如果谷歌将生成式人工智能技术应用于所有搜索，其每年将消耗约 290 亿