AI资讯列表 - AI在线

Meta、斯坦福等：AI的下一个前沿，正是陶哲轩说的形式化数学推理

对 AI 研究者来说，数学既是一类难题，也是一个标杆，能够成为衡量 AI 技术的发展重要尺度。近段时间，随着 AI 推理能力的提升，使用 AI 来证明数学问题已经成为一个重要的研究探索方向。著名数学家陶哲轩就是这一方向的推动者，他曾表示：未来数学家可以通过向类似 GPT 的 AI 解释证明，AI 会将其形式化为 Lean 证明。

o3智商高达157？每13333人中才有一个这么高，网友：编码分数无意义

从韦氏智商测试来看，如果 o3 的 IQ 真这么高，则称得上非常优秀。 OpenAI o3 的智商（IQ）竟然已经这么高了吗今天，Reddit 上一则热帖宣称「OpenAI o3 的 IQ 估计为 157」，并放出了一张数据图。这意味着什么呢？

字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

行人、车辆、动物等ReID最新综述！武大等全面总结Transformer方法

目标重识别（Object Re-identification，简称Re-ID）旨在跨不同时间和场景识别特定对象。近年来，基于Transformer的Re-ID改变了该领域长期由卷积神经网络（CNN）主导的格局，不断刷新性能记录，取得重大突破。与以往基于CNN与有限目标类型的Re-ID综述不同，来自武汉大学、中山大学以及印第安纳大学的研究人员全面回顾了近年来关于Transformer在Re-ID中日益增长的应用研究，深入分析Transformer的优势所在，总结了Transformer在四个广泛研究的Re-ID方向上的应用，同时将动物加入Re-ID目标类型，揭示Transformer架构在动物Re-ID应用的巨大潜力。

o3曝智商高达157，比肩爱因斯坦碾压99%人类！陶哲轩水平AI或出现

o3智商竟有157，堪比爱因斯坦？今天，一张OpenAI模型智商图，在全网传遍了。基于编程竞赛Codeforces排名评分图中清晰可见，能够达到o3智商水平的人类大约占比仅有0.0075%。

推动智能决策，AutoML技术在腾讯广告推荐场景的探索与应用

广告推荐系统的表现直接影响用户体验和商业收益，如何在海量数据中精准捕捉用户需求并提供个性化推荐，成为广告推荐场景面临的重要挑战。为了解决该场景中的数据稀疏、冷启动等问题，腾讯机器学习平台部对 AutoML 相关技术进行了深入的研究，发表了一系列具有创新性的学术论文。一、AutoML 技术背景AutoML 自动化机器学习，是一个旨在简化和自动化机器学习模型开发过程的领域。

近1.4万星，腾讯混元大模型开源成绩单公布，多次登顶开源趋势热榜

记者获悉，腾讯云副总裁，腾讯混元大模型负责人刘煜宏在2024开放原子开发者大会暨首届开源技术学术大会上表示，腾讯将开源协同作为公司的核心技术战略，积极推动内外部技术开源共享。腾讯混元大模型语言大模型、文生图大模型、文生3D大模型以及文生视频大模型等多个模态模型均已开源，未来大模型各版本也将进一步开源，与社区开发者一起共同推动技术生态繁荣发展。（腾讯云副总裁，腾讯混元大模型负责人刘煜宏）腾讯混元大模型的开源模型已经全面覆盖文生文、文生图、文生3D以及文生视频多个模态，是开源系列模型中较全的，其模型性能也得到了开源社区的高度认可，总GitHub Star（星星）数量近1.4万颗，并且多次登顶趋势榜。

12天12大突破！OpenAI的创新狂潮，彻底改变未来科技

过去的12天里，OpenAI发布了12个令人震撼的创新产品，涵盖了从全新AI模型到极致的开发者工具、语音视频集成等多个领域。这些产品不仅提升了生成式AI的能力，更打破了行业壁垒，为开发者、专业人士以及普通用户带来了前所未有的体验。无论是更强大的ChatGPT Pro，还是革命性的AI视频生成工具Sora，这一切都标志着科技将进入一个崭新的时代！

马斯克旗下 xAI 宣布完成 60 亿美元 C 轮融资，英伟达和 AMD 等参投

埃隆・马斯克创立的生成式人工智能公司 xAI 宣布完成 60 亿美元的 C 轮融资。本轮融资吸引了众多知名投资机构和科技巨头的参与，包括 A16Z、贝莱德、富达管理与研究公司、王国控股、光速创投、MGX、摩根士丹利、OIA、卡塔尔投资局（QIA）、红杉资本、Valor Equity Partners 以及 Vy Capital 等。值得注意的是，GPU 巨头英伟达和 AMD 也参与了本轮投资。

Occ预测最新SOTA！清华团队提出基于高斯世界模型的GaussianWorld算法~

写在前面&笔者的个人理解以视觉信息作为输入的3D占用预测任务最近因其在自动驾驶中的关键应用而受到来自工业界和学术界的广泛关注。 3D占用预测任务旨在根据视觉输入估计 3D 环境中每个体素的占用状态和语义标签。该任务提供了更细粒度的场景语义和结构描述，这对于开发安全且强大的自动驾驶系统非常重要。

3D世界的新视角：以Object为中心的占用补全技术（港中文&小米）

写在前面 && 笔者理解传统的感知主要采用3D对象边界框（bboxes）来表征感知，但是这样的表示其实是有局限性的，它无法捕捉物体形状的精确细节，特别是对于具有不规则几何形状的物体，因为它本质上是一个包含物体的长方体。比如下图1(a)所示，起重机被一个3D边界框完美包围。但是，其相对于驾驶室的长突出部分在3D边界框内产生了大量未占用的空间。

消息称微软寻求 365 Copilot AI 模型多元化，降低成本并减少对 OpenAI 的依赖

据路透社报道，知情人士透露，微软正致力于在其旗舰 AI 产品 Microsoft 365 Copilot 中引入内部及第三方人工智能模型，以期摆脱目前对 OpenAI 技术的依赖，并降低运营成本。

颠覆GPT！Meta推出大型概念模型LCM: 从“猜词”到“理解”

今天要跟大家分享一个来自Meta AI的重磅消息：他们开发了一种全新的语言模型——大型概念模型（LCM），它有可能会彻底改变我们对语言模型的理解！现在市面上的语言模型，比如大家熟悉的GPT，虽然能写诗、写代码、聊天，但它们本质上还是一个字一个字地“猜”出来的。想象一下，就像一个只会背诵但不懂意思的鹦鹉，虽然能流利地说话，但缺乏真正的理解。

OpenAI o3 AI 模型突破推理极限背后：成本飙升，没“钞能力”用不起

科技媒体 TechCrunch 昨日（12 月 23 日）发布博文，认为 OpenAI 的 o3 模型虽然在 ARC-AGI 等测试中取得了亮眼成绩，但背后的高计算成本，让其短期内很难在实际应用中普及。

使用LLaMA 3.1、Firebase和Node.js，构建一个音控的智能厨房应用程序

译者 | 布加迪审校 | 重楼这篇指南逐步介绍了创建一个自动化的厨房助理的过程，附有语音命令、实时购物清单管理以及食谱建议。我在本教程中将介绍创建一个智能厨房应用程序（Chent），它可以根据个性化偏好简化杂货清单管理。该应用程序通过语音命令操作，简化了人机交互和添加商品。

使用 MediaPipe 检测面部五官

面部识别和检测已成为许多现代应用中不可或缺的组成部分，包括用于设备解锁和社交媒体应用中实时效果的添加。然而，准确高效地检测面部特征，包括鼻子、嘴巴、眼睛甚至虹膜，可能是一个挑战性的过程。幸运的是，由Google开发的开源框架MediaPipe提供了一个解决方案，它提供了强大的预训练机器学习模型，允许开发者以高精度跟踪和分析面部标志点。

消息称 Meta 将推出带屏幕的智能眼镜，最早明年下半年发布

据英国《金融时报》今日报道，市值1.5万亿美元（当前约 10.94 万亿元人民币）的Meta正与眼镜集团EssilorLuxottica合作，计划在其售价300美元（当前约 2188 元人民币）的太阳镜中加入显示屏。

资讯列表