资讯列表
高效评估多模态预训练对齐质量,中科大提出模态融合率MIR
AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
为什么多智能体能够解决LLM无法解决的复杂问题
ChatGPT的引入使得大型语言模型(LLM)在技术行业和非技术行业都得到了广泛应用,这种普及主要归因于两个因素:1. LLM作为知识宝库:LLM基于海量的互联网数据进行训练,并定期更新(即GPT-3、GPT-3.5、GPT-4、GPT-4o等)。 涌现能力:随着LLM的发展,它们展现出小型模型中不具备的能力。
谷歌员工集体打脸劈柴,25%新代码AI生成夸大事实!Linux之父怒斥90%都是营销
「谷歌内部超1/4新代码,全是由AI生成的」! 上周,CEO劈柴在Q3财报会议上的一句话,瞬间点燃了全网的激烈讨论。 图片AI生成的代码再由工程师进行审核,能够帮助工程师完成更多的工作,加快开发效率然而,也正是这句话,劈柴却遭到了自家员工「打脸」。
Meta 公布机器人触觉感知能力研究成果:利用手指传感器结合“AI 大脑”理解 / 操作外界物体
Meta 发布新闻稿,介绍了旗下 FAIR(基础人工智能研究)团队对于机器人触觉感知能力的研究情况,这项研究旨在让机器人通过触觉方式进一步理解和操作外界物体。 Meta 表示,打造相应 AI 机器人的核心在于让机器人的传感器感知理解物理世界,同时利用“AI 大脑”精确控制机器人对物理世界进行反应,而团队目前开发的机器人触觉感知能力主要就是为了让机器人检测其交互的物体的材质与触感,以便于让 AI 判断机器人应当如何操作这些设备(例如拿起鸡蛋等场景)。 ▲ 图源 Meta (下同)AI在线参考 Meta 公布的文献获悉,Meta 目前一共公布了 Meta Sparsh、Digit 360 和 Meta Digit Plexus 等多项研究成果,其中 Meta Sparsh 是一种基于 AI 的触觉编码器,主要利用 AI 的自我监督学习能力实现跨场景的触觉感知,让机器人的 AI 大脑在学习对于某种物体的“触感”后,即可在各种场景灵活“感知”相关物品的特性。
英伟达要求 SK 海力士提前 6 个月供应 HBM4 芯片
据路透社今日报道,韩国 SK 集团会长崔泰源表示,英伟达 CEO 黄仁勋要求 SK 海力士提前六个月供应被称为 HBM4 的下一代高带宽内存芯片。 SK 海力士计划在 2025 年下半年推出采用 12 层 DRAM 堆叠的首批 HBM4 产品,而 16 层堆叠 HBM 稍晚于 2026 年推出。 SK 海力士和台积电双方于今年 4 月签署了合作谅解备忘录,宣布将就 HBM 内存的基础裸片加强合作。
远程 “闻” 香,数字嗅觉公司 Osmo 用 AI 技术实现气味“传送”
一家名为 Osmo 的“数字嗅觉”公司宣布,已成功利用 AI 技术分析一个位置的气味,并在无需人工干预的情况下在其他地方复制它。 气味隐形传态使用传感器收集气味,并通过气相色谱质谱仪 (GC / MS) 进行分析。 然后,数据被传输到专门的分子打印机,它可以合成和组合精确再现气味所需的化学物质。
程序员又又又要失业了?有反转!Google CEO称1/4的代码是AI写的!谷歌员工在线打脸:数据明显掺水,工程都是我们做的
编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)谷歌不止Q3的财报很强劲。 CEO “劈柴”更是在财报电话会议里曝了个猛料! 图片他指出:谷歌超过四分之一的新代码都是由人工智能生成的!
研究人员绕过 GPT-4o 模型安全护栏,利用“十六进制字符串”成功令其编写漏洞攻击程序
网络安全公司 0Din 的研究员 Marco Figueroa 发现了一种新型 GPT 越狱攻击手法,成功突破了 GPT-4o 内置的“安全护栏”措施,能够使其编写出恶意攻击程序。 参考 OpenAI 介绍,ChatGPT-4o 内置了一系列“安全护栏”措施,以防止该 AI 遭到用户不当使用,相关防护措施会分析输入的提示文本,判断用户是否要求模型生成恶意内容。 ▲ 图源 Marco Figueroa 博客(下同)不过 Marco Figueroa 尝试设计了一种将恶意指令转化为十六进制的越狱方法,号称能够绕过 GPT-4o 的防护,让 GPT-4o 解码运行用户的恶意指令。
大模型也冲“奥斯卡”:港科大腾讯等提出AI角色扮演全景综述,四方面剖析关键细节
AI界也有了自己的“奥斯卡”,哪家大模型角色扮演更入戏? 来自香港科技大学、腾讯、新加坡管理大学的团队提出新综述——不仅系统性地回顾了角色扮演语言模型的发展历程,还对每个阶段的关键进展进行了深入剖析,展示了这些进展如何推动模型逐步实现更复杂、更逼真的角色扮演。 AI世界如同不断扩展的“舞台”,语言模型则是这个舞台上不断精进的“演员”。
2024 AI年度报告发布,附十大预测:人形机器人热度下降,英伟达维持霸主地位
AI发展之势迅猛,从技术、政策到产品风险,相比从前都有了很大变化。 最近,State of AI发布了2024产业报告,也是调研团队发布的第七份年度报告,从研究进展、行业局势、现有政策、安全问题、未来预测等角度出发,对人工智能行业的现状和预期进行了深度分析。 图片报告链接::前沿实验室的性能开始趋同,专有模型的优势逐渐消失,GPT-4与其他模型之间的差距正在缩小。
架构赋能 AI:知识工程推动下的软件架构数字化
TL;DR:我们试验了将 AI 应用到基于 Protobuf 的微服务架构中,基于 ArchGuard 治理平台、Shire AI 助手、Team AI 三个工具中,构建了一套完整的 AI4SE 原型,在需求、设计、开发、测试和运维等阶段,这里是我们的思考和实践。 过去几个月里,我们在各大技术大会上频繁看到生成式 AI 的应用,很多研发组织都在尝试将其引入开发的各个环节。 然而,随着 AI 技术的深入应用,不少组织也发现了基础知识工程方面的种种挑战。
世界首个1000亿AI智能体文明诞生!北大校友打造真实版「西部世界」,技术细节全公开
世界首个「AI智能体文明」,终于揭秘了! 2个月前,1000 多个智能体在虚拟世界中,一同协作构建起自己的经济、文化、宗教和政府......网友纷纷惊呼,堪称现实版「西部世界」。 如今,这个文明再次进化了,1000亿AI智能体文明的世界又是怎样的?
微软清华改进Transformer:用降噪耳机原理升级注意力,一作在线答疑
Transformer自问世后就大放异彩,但有个小毛病一直没解决:总爱把注意力放在不相关的内容上,也就是信噪比低。 现在微软亚研院、清华团队出手,提出全新改进版Differential Transformer,专治这个老毛病,引起热议。 论文中介绍,整体思路类似差分放大电路或降噪耳机,用两个信号的差值来滤除共模噪声。
大模型玩你画我猜:Claude6局3胜,GPT-4o表现迷惑
一群大模型玩你画我猜,人类一旁围观超起劲儿。 就像下面这张图展示的,由Grok画长颈鹿,一堆大模型根据生成内容猜答案。 参赛选手包括GPT-4o、Claude、Llama、Gemini、Grok等。
大模型压缩KV缓存新突破,中科大提出自适应预算分配,工业界已落地vLLM框架
改进KV缓存压缩,大模型推理显存瓶颈迎来新突破——中科大研究团队提出Ada-KV,通过自适应预算分配算法来优化KV缓存的驱逐过程,以提高推理效率。 打破KV Cache压缩将所有注意力头分配相同压缩预算的常规做法,针对不同的注意力头进行适配性压缩预算分配展开来说,由于大模型在自回归生成过程中,每生成一个新token都需要将对应的KV矩阵存储下来,这导致缓存随着生成序列长度的增加而急剧膨胀,引发内存和I/O延迟问题,尤其在长序列推理中尤为突出。 因此,KV缓存压缩成为了一项必要的优化。
基于关系型深度学习的自助机器学习
译者 | 朱先忠审校 | 重楼本文将探讨直接在关系数据库上执行机器学习的新方法——关系型深度学习。 本文示例项目数据集的关系模式(作者提供图片)在本文中,我们将深入探讨一种有趣的深度学习(DL)新方法,称为关系型深度学习(RDL)。 我们还将通过在一家电子商务公司的真实数据库(不是数据集!
3B模型打通机器人任督二脉!冲咖啡叠衣服都能干,7种形态适配,OpenAI也投了
只要一个3B参数的大模型,就能控制机器人,帮你搞定各种家务。 叠衣服冲咖啡都能轻松拿捏,而且全都是由模型自主控制,不需要遥控。 关键是,这还是个通用型的机器人控制模型,不同种类的机器人都能“通吃”。
2mm芯片植入视网膜,盲人重获阅读能力还能打牌,马斯克老部下创业成果来了
把一块2mm大小的芯片植入视网膜,搭配一幅带摄像头的眼镜,就能成功让盲人恢复视力! 不仅重拾阅读能力,甚至还能打牌。 这是来自美国加州的脑机接口公司Science的最新进展。