AI资讯列表 - AI在线

比LoRA还快50%的微调方法来了！一张3090性能超越全参调优，UIUC联合LMFlow团队提出LISA

2022 年底，随着 ChatGPT 的爆火，人类正式进入了大模型时代。然而，训练大模型需要的时空消耗依然居高不下，给大模型的普及和发展带来了巨大困难。面对这一挑战，原先在计算机视觉领域流行的 LoRA 技术成功转型大模型 [1][2]，带来了接近 2 倍的时间加速和理论最高 8 倍的空间压缩，将微调技术带进千家万户。但 LoRA 技术仍存在一定的挑战。一是 LoRA 技术在很多任务上还没有超过正常的全参数微调 [2][3][4]，二是 LoRA 的理论性质分析比较困难，给其进一步的研究带来了阻碍。UIUC 联合

ICLR 2024 | 鸡生蛋蛋生鸡？再论生成数据能否帮助模型训练

随着生成模型（如 ChatGPT、扩散模型）飞速发展，一方面，生成数据质量越来越高，到了以假乱真的程度；另一方面，随着模型越来越大，也使得人类世界的真实数据即将枯竭。面对这一处境，一个近期的研究热度是，能否利用生成模型生成的假数据来辅助学习？学界对此也产生了许多争论：到底是可以左脚踩右脚（bootsrap）地实现 weak-to-strong 的不断提升，还是像鸡生蛋、蛋生鸡一样，只不过是徒劳无功？在近期 ICLR 2024 工作中，北大王奕森团队针对这一「数据扩充」（Data Inflation）问题展开了深入研

三星计划为 Bixby 加入生成式 AI 功能，使其更智能

感谢三星移动业务执行副总裁 Won-joon Choi 在上个月接受 CNBC 采访时透露，三星正考虑为其虚拟助手 Bixby 加入类似于 ChatGPT 的生成式人工智能 (Generative AI) 功能。Won-joon Choi 表示，“随着生成式人工智能和大语言模型 (LLM) 技术的出现，我认为我们必须重新定义 Bixby 的角色，以便使其能够配备生成式人工智能技术，并在未来变得更加智能。”IT之家注意到，Bixby 推出已有很长时间了，虽然三星目前忙于为其各类应用和服务加入“Galaxy AI”功能

大模型实时打《街霸》捉对 PK：GPT-4 不敌 3.5，新型 Benchmark 火了

让大模型直接操纵格斗游戏《街霸》里的角色，捉对 PK，谁更能打？GitHub 上一种你没有见过的船新 Benchmark 火了。与 llmsys 大模型竞技场中，两个大模型分别输出答案，再由人类评分不同 —— 街霸 Bench 引入了两个 AI 之间的交互，且由游戏引擎中确定的规则评判胜负。这种新玩法吸引了不少网友来围观。由于项目是在 Mistral 举办的黑客马拉松活动上开发，所以开发者只使用 OpenAI 和 Mistral 系列模型进行了测试。排名结果也很出人意料。经过 342 场对战后，根据棋类、电竞常用的

清华电子系明星公司亮相：发布国产AI算力平台，公测免费送百亿Token

3月31日，由清华大学电子系主任汪玉作为发起人的AI infra公司无问芯穹在上海召开第一次产品发布会。机器之心此前独家介绍过，无问芯穹团队的目标是利用自己加速计算的核心产品优势，降低算力成本，与算力中心合作，整合算力资源，为算力市场提供增量，最终向B 端和 C 端开发者提供可以直接调度的低成本算力。在这次发布上，无问芯穹团队正式发布“无穹Infini-AI”大模型开发与服务平台，并宣布自3月31日起正式开放全量注册，给所有实名注册的个人和企业用户提供百亿tokens免费配额。开发者可以在这个平台上体验、对比各种模

消息称 OpenAI 将于本月在日本东京设立亚洲首个办事处

感谢据日经新闻报道，OpenAI 将于本月（2024 年 4 月）在日本东京开设亚洲首个办事处并开始业务活动。除了为企业提供独特的服务外，OpenAI 还将参与制定正确使用生成式 AI 的规则。OpenAI 于 2022 年发布 ChatGPT，引发全球生成式 AI 热潮。IT之家注意到，2023 年 4 月，OpenAI 首席执行官 Sam Altman 访问日本，在与日本首相会面后，他表示考虑在日本开设办事处并扩大服务范围。Altman 与日本首相就 AI 的技术进步和优点，以及侵犯隐私和版权等风险交换了意见。

统一角色、百变场景，视频生成神器PixVerse被网友玩出了花，超强一致性成「杀招」

又双叒叕是一个新功能的亮相。你是否会遇见过想要给图片角色换个背景，但是 AI 总是搞出「物非人也非」的效果。即使在 Midjourney、DALL・E 这样成熟的生成工具中，保持角色一致性还得有些 prompt 技巧，不然人物就会变来变去，根本达不到你想要的结果。不过，这次算是让你遇着了。AIGC 工具 PixVerse 的「角色 - 视频」新功能可以帮你实现这一切。不仅如此，它能生成动态视频，让你的角色更加生动。输入一张图，你就能够得到相应的动态视频结果，在保持角色一致性的基础上，丰富的背景元素和角色动态让生成结

全日程发布｜Sora之后的视频生成技术与应用

说起 Sora，相信大家都不陌生。近一个多月内，关于 Sora 的讨论延伸到了各个角落，这个一直没有对外开放的视频生成模型，不仅让人惊艳，更让人焦虑。作为持续关注 AI 技术前沿的团队，机器之心特别策划了「视频生成技术与应用 — Sora 时代」的技术论坛。本次活动聚焦 Sora 发布后的技术创新、思考与应用实践，希望能帮助大家构建一个完整的视频生成知识图谱。面对扑面而来的 AI 视频生成，积极拥抱学习并敢于尝试，才能抓住技术潮流，破局而生。期待 2024.04.13，在北京海淀区，和你相遇。活动全日程论坛报名通道

CVPR 2024 | 让视频姿态Transformer变得飞速，北大提出高效三维人体姿态估计框架HoT

目前，Video Pose Transformer（VPT）在基于视频的三维人体姿态估计领域取得了最领先的性能。近年来，这些 VPT 的计算量变得越来越大，这些巨大的计算量同时也限制了这个领域的进一步发展，对那些计算资源不足的研究者十分不友好。例如，训练一个 243 帧的 VPT 模型通常需要花费好几天的时间，严重拖慢了研究的进度，并成为了该领域亟待解决的一大痛点。那么，该如何有效地提升 VPT 的效率同时几乎不损失精度呢？来自北京大学的团队提出了一种基于沙漏 Tokenizer 的高效三维人体姿态估计框架HoT，

此时此刻，两个Claude智能体正在无休止对话，无人干预

现在，AI 大模型已经疯狂到这种地步了吗？此时此刻，正有两个 Claude 模型在无休止地对话，它们在探索整个宇宙的奥妙。项目主页介绍称，这是两个 Claude 3 Opus 模型实例之间的自动对话，它们被指示使用命令行界面的比喻（metaphor）来无限地探索它的好奇心，不存在任何人为干预。其中 Claude 2 的系统提示为「Assistant is in a CLI mood today. The human is interfacing with the simulator directly. capita

吴恩达：别光盯着GPT-5，用GPT-4做个智能体可能提前达到GPT-5的效果

智能体的潜力被低估了？AI 智能体是去年很火的一个话题，但是 AI 智能体到底有多大的潜力，很多人可能没有概念。最近，斯坦福大学教授吴恩达在演讲中提到，他们发现，基于 GPT-3.5 构建的智能体工作流在应用中表现比 GPT-4 要好。当然，基于 GPT-4 构建的智能体工作流效果更好。由此看来，AI 智能体工作流将在今年推动人工智能取得巨大进步，甚至可能超过下一代基础模型。这是一个值得所有人关注的趋势。这个关于智能体的演讲在社交媒体上引发了广泛关注。有人表示，这代表着 AI 发展中的范式转变，体现了从静态输出到动

金山办公 WPS AI 开始收费：原版超级会员无 AI 权益，需升级“大会员”

感谢WPS 今日上线了 WPS AI 会员，独立于超级会员之外，连续包月 25 元 / 月。WPS 还推出了大会员，包含 WPS AI 会员和原有超级会员 Pro 的功能，连续包月 35 元 / 月。此外，原有 WPS 超级会员 Pro 可以升级到大会员，大于 2 个月为 5 元 / 月。目前开通仅限最新 PC 版（2024 春季版 16147 以上）。IT之家从官方权益对比表获悉，WPS AI 会员可享 200 次 / 月的 AI 智能问答，WPS 大会员可享 1000 次 / 月的 AI 智能问答，两者其余 A

微软、OpenAI又搞大动作：斥资1000亿美元开发AI超算「星际之门」

该超级计算机将配备数百万个专用服务器芯片，旨在为 OpenAI 的 AI 技术提供强大动力。根据 Information 消息，微软和 OpenAI 正在计划一个数据中心项目，该项目将包含一个拥有数百万专用服务器芯片的超级计算机，以支持 OpenAI 的人工智能技术。另外，项目成本可能高达 1000 亿美元，包括一个名为 Stargate （「星际之门」）的人工智能超级计算机，预计将于 2028 年启动。微软很可能负责资助该项目。不过该项目尚未获得正式批准，未来或许还有变化。一位知情人士表示，微软是否愿意继续实施

OpenAI首次官宣语音项目，配音演员警报拉响

文本输入和一个 15 秒的音频样本就能生成与原始说话者非常相似的自然声音。今天，OpenAI 在语音领域又带给我们一点点震撼，通过文本输入以及一段 15 秒的音频示例，可以生成既自然又与原声极为接近的语音。值得注意的是，即使是小模型，只需一个 15 秒的样本，也能创造出富有情感且逼真的声音。OpenAI 将这个语音引擎命名为 Voice Engine，首次开发时间是 2022 年末，今天是 Voice Engine 预览版的首次亮相。下面为该语音引擎的一些早期示例，例如可以帮助用户翻译视频和播客等内容，输入一段原始

CVPR 2024 | 面部+肢体动画，一个框架搞定从音频生成数字人表情与动作

AI 数字人面部与肢体的驱动算法作为数字人研发的重要环节，可以大幅度降低 VR Chat、虚拟直播和游戏 NPC 等领域中的驱动成本。近年来，基于语音生成面部、肢体和手部的动作的各类独立基线模型已经逐渐成熟。然而，直接将不同模型的动画结果混合会导致最终全身整体的动画不协调。研究者逐渐考虑使用统一的框架来同时生成面部表情和肢体动作。然而，尽管研究社区在面部的表情和肢体的动作上分别存在统一的数据标准，已有的基线模型仅在独立的数据格式上进行训练和评估，比如 FLAME (面部) 和 AMASS (肢体)。社区仍然缺少面向

非侵入设备贴在脖子上，就能代替人类发声，研究登《自然通讯》

研究人员开发了一种由 AI 驱动的发声贴片，可以非侵入性地粘附在喉部帮助发声。在你看不到的地方，说话这件小事对于许多人来说「难于登天」：2014 年美国一项针对发声障碍的研究发现，近 1800 万成年人在使用声道说话时存在困难，而该群体中超过一半的人经历过言语衰弱问题的时间超过 10 年。现在，一种新型非侵入式可穿戴设备成为了这一医疗需求新的解决方法。该技术包括粘附在脖子上的轻质贴片，该贴片可以测量人的颈部运动。接着，设备处理器将这些信号转换为语音，然后播放语音音频来代替人类发声。这项研究由来自加州大学洛杉矶分校（

「天工大模型3.0」4月17日正式发布——同步开源4000亿参数MoE超级模型，性能超Grok1.0

2023年4月17日，昆仑万维发布自研双千亿级大语言模型「天工1.0」正式奠定了国产大模型崛起之路。在即将到来的2024年4月17日，在「天工」大模型一周年之际，昆仑万维重磅宣布，「天工3.0」正式开启公测！「天工3.0」采用4千亿级参数MoE混合专家模型，并将同步选择开源，是全球模型参数最大、性能最强的MoE模型之一。相较于上一代「天工2.0」MoE大模型，「天工3.0」在模型语义理解、逻辑推理、以及通用性、泛化性、不确定性知识、学习能力等领域拥有惊人的性能提升，其模型技术知识能力提升超过20%，数学/推理/代码

马斯克称人工智能毁灭人类的可能性为 20%，但仍值得冒险

埃隆・马斯克 (Elon Musk) 在早些时候举办的 Abundance 峰会 “人工智能辩论” 研讨会上表示，即使人工智能技术有 1/5 的可能性会对人类构成威胁，但其利大于弊，我们仍然值得冒险进行研发。马斯克重新评估了之前他对人工智能的风险评估，他在研讨会上表示：“我认为人工智能有可能终结人类文明。我可能同意 Geoffrey Hinton 的观点，这个概率大约是 10% 到 20% 左右。”但他补充说：“我认为积极的可能性场景要大于消极的可能性场景。”马斯克并没有提到他是如何计算该风险的。IT之家注意到，去