AI资讯列表 - AI在线

告别微软，姜大昕带领这支精英团队攀登Scaling Law，万亿参数模型已有预览版

攀登 Scaling Law，打造万亿参数大模型，前微软 NLP 大牛姜大昕披露创业路线图。前段时间，OpenAI 科学家 Jason Wei 的一份作息时间表引发了广泛关注。表中有很多让人看了会心一笑的梗，比如「9 点 45：背诵 OpenAI 章程，向最优化的神祷告，学习《苦涩的教训》」「10 点用 Google Meet 开会，讨论怎么在更多数据上训练更大的模型」「11 点写代码，用来在更多数据上训练更大的模型」「1 点：实操，在更多数据上训练更大的模型」「4 点：对用更多数据训练的更大的模型进行提示工程」…

AI行业买英伟达GPU，花的钱比赚的多17倍

有人却表示「很合理」。搞 AI 大模型，实在太烧钱了。我们知道，如今的生成式 AI 有很大一部分是资本游戏，科技巨头利用自身强大的算力和数据占据领先位置，并正在使用先进 GPU 的并行算力将其推广落地。这么做的代价是什么？最近《华尔街日报》一篇有关明星创业公司的报道里给出了答案：投入是产出的 17 倍。上个周末，机器学习社区围绕这个数字热烈地讨论了起来。明星创业公司，几周估值翻倍：但没有收入由知名投资人 Peter Thiel 支持的 AI 初创公司 Cognition Labs 正在寻求 20 亿美元估值，新一轮

可编辑的DALL·E 3要来了？一句话就能PS图片

OpenAI 从未放慢前进的脚步，DALL・E 3 将支持对生成后的图片进行再次编辑。可编辑的 DALL・E 3 难道要来了？在 OpenAI 刚刚更新的一篇文章中，透漏了一些关于 DALL・E 3 编辑器界面的消息。该功能使得用户通过选择图像中的一个区域并在聊天中进行文本描述来编辑图像。去年，OpenAI 将 DALL・E 3 集成进 ChatGPT，这种王炸级别的组合令很多人直呼 OpenAI 开始颠覆 AI 绘画领域。但遗憾的是，用户不能对生成的图片进行编辑。现在，这一功能可能真的要来了，已经有网友放出了预览

比LoRA还快50%的微调方法来了！一张3090性能超越全参调优，UIUC联合LMFlow团队提出LISA

2022 年底，随着 ChatGPT 的爆火，人类正式进入了大模型时代。然而，训练大模型需要的时空消耗依然居高不下，给大模型的普及和发展带来了巨大困难。面对这一挑战，原先在计算机视觉领域流行的 LoRA 技术成功转型大模型 [1][2]，带来了接近 2 倍的时间加速和理论最高 8 倍的空间压缩，将微调技术带进千家万户。但 LoRA 技术仍存在一定的挑战。一是 LoRA 技术在很多任务上还没有超过正常的全参数微调 [2][3][4]，二是 LoRA 的理论性质分析比较困难，给其进一步的研究带来了阻碍。UIUC 联合

ICLR 2024 | 鸡生蛋蛋生鸡？再论生成数据能否帮助模型训练

随着生成模型（如 ChatGPT、扩散模型）飞速发展，一方面，生成数据质量越来越高，到了以假乱真的程度；另一方面，随着模型越来越大，也使得人类世界的真实数据即将枯竭。面对这一处境，一个近期的研究热度是，能否利用生成模型生成的假数据来辅助学习？学界对此也产生了许多争论：到底是可以左脚踩右脚（bootsrap）地实现 weak-to-strong 的不断提升，还是像鸡生蛋、蛋生鸡一样，只不过是徒劳无功？在近期 ICLR 2024 工作中，北大王奕森团队针对这一「数据扩充」（Data Inflation）问题展开了深入研

三星计划为 Bixby 加入生成式 AI 功能，使其更智能

感谢三星移动业务执行副总裁 Won-joon Choi 在上个月接受 CNBC 采访时透露，三星正考虑为其虚拟助手 Bixby 加入类似于 ChatGPT 的生成式人工智能 (Generative AI) 功能。Won-joon Choi 表示，“随着生成式人工智能和大语言模型 (LLM) 技术的出现，我认为我们必须重新定义 Bixby 的角色，以便使其能够配备生成式人工智能技术，并在未来变得更加智能。”IT之家注意到，Bixby 推出已有很长时间了，虽然三星目前忙于为其各类应用和服务加入“Galaxy AI”功能

大模型实时打《街霸》捉对 PK：GPT-4 不敌 3.5，新型 Benchmark 火了

让大模型直接操纵格斗游戏《街霸》里的角色，捉对 PK，谁更能打？GitHub 上一种你没有见过的船新 Benchmark 火了。与 llmsys 大模型竞技场中，两个大模型分别输出答案，再由人类评分不同 —— 街霸 Bench 引入了两个 AI 之间的交互，且由游戏引擎中确定的规则评判胜负。这种新玩法吸引了不少网友来围观。由于项目是在 Mistral 举办的黑客马拉松活动上开发，所以开发者只使用 OpenAI 和 Mistral 系列模型进行了测试。排名结果也很出人意料。经过 342 场对战后，根据棋类、电竞常用的

清华电子系明星公司亮相：发布国产AI算力平台，公测免费送百亿Token

3月31日，由清华大学电子系主任汪玉作为发起人的AI infra公司无问芯穹在上海召开第一次产品发布会。机器之心此前独家介绍过，无问芯穹团队的目标是利用自己加速计算的核心产品优势，降低算力成本，与算力中心合作，整合算力资源，为算力市场提供增量，最终向B 端和 C 端开发者提供可以直接调度的低成本算力。在这次发布上，无问芯穹团队正式发布“无穹Infini-AI”大模型开发与服务平台，并宣布自3月31日起正式开放全量注册，给所有实名注册的个人和企业用户提供百亿tokens免费配额。开发者可以在这个平台上体验、对比各种模

消息称 OpenAI 将于本月在日本东京设立亚洲首个办事处

感谢据日经新闻报道，OpenAI 将于本月（2024 年 4 月）在日本东京开设亚洲首个办事处并开始业务活动。除了为企业提供独特的服务外，OpenAI 还将参与制定正确使用生成式 AI 的规则。OpenAI 于 2022 年发布 ChatGPT，引发全球生成式 AI 热潮。IT之家注意到，2023 年 4 月，OpenAI 首席执行官 Sam Altman 访问日本，在与日本首相会面后，他表示考虑在日本开设办事处并扩大服务范围。Altman 与日本首相就 AI 的技术进步和优点，以及侵犯隐私和版权等风险交换了意见。

统一角色、百变场景，视频生成神器PixVerse被网友玩出了花，超强一致性成「杀招」

又双叒叕是一个新功能的亮相。你是否会遇见过想要给图片角色换个背景，但是 AI 总是搞出「物非人也非」的效果。即使在 Midjourney、DALL・E 这样成熟的生成工具中，保持角色一致性还得有些 prompt 技巧，不然人物就会变来变去，根本达不到你想要的结果。不过，这次算是让你遇着了。AIGC 工具 PixVerse 的「角色 - 视频」新功能可以帮你实现这一切。不仅如此，它能生成动态视频，让你的角色更加生动。输入一张图，你就能够得到相应的动态视频结果，在保持角色一致性的基础上，丰富的背景元素和角色动态让生成结

全日程发布｜Sora之后的视频生成技术与应用

说起 Sora，相信大家都不陌生。近一个多月内，关于 Sora 的讨论延伸到了各个角落，这个一直没有对外开放的视频生成模型，不仅让人惊艳，更让人焦虑。作为持续关注 AI 技术前沿的团队，机器之心特别策划了「视频生成技术与应用 — Sora 时代」的技术论坛。本次活动聚焦 Sora 发布后的技术创新、思考与应用实践，希望能帮助大家构建一个完整的视频生成知识图谱。面对扑面而来的 AI 视频生成，积极拥抱学习并敢于尝试，才能抓住技术潮流，破局而生。期待 2024.04.13，在北京海淀区，和你相遇。活动全日程论坛报名通道

CVPR 2024 | 让视频姿态Transformer变得飞速，北大提出高效三维人体姿态估计框架HoT

目前，Video Pose Transformer（VPT）在基于视频的三维人体姿态估计领域取得了最领先的性能。近年来，这些 VPT 的计算量变得越来越大，这些巨大的计算量同时也限制了这个领域的进一步发展，对那些计算资源不足的研究者十分不友好。例如，训练一个 243 帧的 VPT 模型通常需要花费好几天的时间，严重拖慢了研究的进度，并成为了该领域亟待解决的一大痛点。那么，该如何有效地提升 VPT 的效率同时几乎不损失精度呢？来自北京大学的团队提出了一种基于沙漏 Tokenizer 的高效三维人体姿态估计框架HoT，

此时此刻，两个Claude智能体正在无休止对话，无人干预

现在，AI 大模型已经疯狂到这种地步了吗？此时此刻，正有两个 Claude 模型在无休止地对话，它们在探索整个宇宙的奥妙。项目主页介绍称，这是两个 Claude 3 Opus 模型实例之间的自动对话，它们被指示使用命令行界面的比喻（metaphor）来无限地探索它的好奇心，不存在任何人为干预。其中 Claude 2 的系统提示为「Assistant is in a CLI mood today. The human is interfacing with the simulator directly. capita

吴恩达：别光盯着GPT-5，用GPT-4做个智能体可能提前达到GPT-5的效果

智能体的潜力被低估了？AI 智能体是去年很火的一个话题，但是 AI 智能体到底有多大的潜力，很多人可能没有概念。最近，斯坦福大学教授吴恩达在演讲中提到，他们发现，基于 GPT-3.5 构建的智能体工作流在应用中表现比 GPT-4 要好。当然，基于 GPT-4 构建的智能体工作流效果更好。由此看来，AI 智能体工作流将在今年推动人工智能取得巨大进步，甚至可能超过下一代基础模型。这是一个值得所有人关注的趋势。这个关于智能体的演讲在社交媒体上引发了广泛关注。有人表示，这代表着 AI 发展中的范式转变，体现了从静态输出到动

金山办公 WPS AI 开始收费：原版超级会员无 AI 权益，需升级“大会员”

感谢WPS 今日上线了 WPS AI 会员，独立于超级会员之外，连续包月 25 元 / 月。WPS 还推出了大会员，包含 WPS AI 会员和原有超级会员 Pro 的功能，连续包月 35 元 / 月。此外，原有 WPS 超级会员 Pro 可以升级到大会员，大于 2 个月为 5 元 / 月。目前开通仅限最新 PC 版（2024 春季版 16147 以上）。IT之家从官方权益对比表获悉，WPS AI 会员可享 200 次 / 月的 AI 智能问答，WPS 大会员可享 1000 次 / 月的 AI 智能问答，两者其余 A

微软、OpenAI又搞大动作：斥资1000亿美元开发AI超算「星际之门」

该超级计算机将配备数百万个专用服务器芯片，旨在为 OpenAI 的 AI 技术提供强大动力。根据 Information 消息，微软和 OpenAI 正在计划一个数据中心项目，该项目将包含一个拥有数百万专用服务器芯片的超级计算机，以支持 OpenAI 的人工智能技术。另外，项目成本可能高达 1000 亿美元，包括一个名为 Stargate （「星际之门」）的人工智能超级计算机，预计将于 2028 年启动。微软很可能负责资助该项目。不过该项目尚未获得正式批准，未来或许还有变化。一位知情人士表示，微软是否愿意继续实施

OpenAI首次官宣语音项目，配音演员警报拉响

文本输入和一个 15 秒的音频样本就能生成与原始说话者非常相似的自然声音。今天，OpenAI 在语音领域又带给我们一点点震撼，通过文本输入以及一段 15 秒的音频示例，可以生成既自然又与原声极为接近的语音。值得注意的是，即使是小模型，只需一个 15 秒的样本，也能创造出富有情感且逼真的声音。OpenAI 将这个语音引擎命名为 Voice Engine，首次开发时间是 2022 年末，今天是 Voice Engine 预览版的首次亮相。下面为该语音引擎的一些早期示例，例如可以帮助用户翻译视频和播客等内容，输入一段原始

CVPR 2024 | 面部+肢体动画，一个框架搞定从音频生成数字人表情与动作

AI 数字人面部与肢体的驱动算法作为数字人研发的重要环节，可以大幅度降低 VR Chat、虚拟直播和游戏 NPC 等领域中的驱动成本。近年来，基于语音生成面部、肢体和手部的动作的各类独立基线模型已经逐渐成熟。然而，直接将不同模型的动画结果混合会导致最终全身整体的动画不协调。研究者逐渐考虑使用统一的框架来同时生成面部表情和肢体动作。然而，尽管研究社区在面部的表情和肢体的动作上分别存在统一的数据标准，已有的基线模型仅在独立的数据格式上进行训练和评估，比如 FLAME (面部) 和 AMASS (肢体)。社区仍然缺少面向