AI资讯列表 - AI在线

出手即王炸？照片级真实度生成式世界模型，还获得皮克斯和Jeff Dean投资

世界模型正在爆发！近段时间，世界模型的相关研究成果正如雨后春笋版不断涌现，光是我们报道过的就已有南大周志华团队的世界模型 Whale、Yann LeCun 团队的世界模型研究、李飞飞 World Labs 的空间智能研究、谷歌的强大世界模型 Genie 2 以及刚刚开源的像是能模拟万物的生成式物理引擎 Genesis。事实上，在 Genesis 开源发布的差不多时间，一家名为 Odyssey 的创业公司也向世界介绍了他们的世界模型 Explorer。

智源发布FlagEval「百模」评测结果，丈量模型生态变局

2024 年 12 月 19 日，智源研究院发布并解读国内外 100 余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。相较于今年 5 月的模型能力全方位评估，本次智源评测扩展、丰富、细化了任务解决能力内涵，新增了数据处理、高级编程和工具调用的相关能力与任务；首次增加了面向真实金融量化交易场景的应用能力评估，测量大模型的收益优化和性能优化等能力；首次探索基于模型辩论的对比评估方式，对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。智源评测发现，2024 年下半年大模型发展更聚焦综合能力提升与实际应用。

AI 的“心智理论”难题：Meta ExploreToM 探索突破之路

Meta 公司携手华盛顿大学和卡内基梅隆大学，组建科研团队，合作开发了 ExploreToM 框架，旨在更有效地评估和训练大语言模型（LLM）的心智理论（Theory of Mind，ToM）能力。

Meta斯坦福全新多模态Apollo，60分钟视频轻松理解！7B性能超越30B

虽然语言和图像语言建模进展迅速，但视频多模态大模型（LMM）却难以望其项背。近日，Meta和斯坦福大学的团队联手，从评估基准、模型设计到开源模型, 做出了全方位的探索，创建ApolloBench用于解决视频理解领域评估效率低下的问题, 提出了模型设计的拓展一致性，发现了驱动LMM性能的关键因素，开源了Apollo模型。值得注意的是，Apollo-3B超越了几乎所有的7B模型，而Apollo-7B变体则是7B模型中目前最佳的。

刚刚，OpenAI元老级研究员Alec Radford离职，他主导了GPT-1、GPT-2的研发

OpenAI 连续 12 天发布会还剩最后一天，期待中的「重磅」迟迟没来，反而失去了一位核心研究人员。 OpenAI 人事方面的变动还在继续。今日，据外媒 The Information 报道，OpenAI 元老级人物 Alec Radford 即将离职，离职后进行独立研究。

发现高能钠离子电池成分，机器学习简化最佳材料搜索过程

编辑 | KX锂离子电池广泛用于电动汽车、笔记本电脑、智能手机等电子产品。尽管锂离子电池在市场中占据着主导地位，但锂元素相对稀缺且昂贵。钠离子电池以钠离子作为能量载体，由于钠资源丰富、安全性高、成本低，有望成为 LIB 的替代品。

释放数字金融向新力，奇富科技金融AI大模型成果落地上海金融科技国际论坛特展周活动

12 月 19 日，在第六届上海金融科技国际论坛之“2024年度人工智能大模型金融领域示范场景及创新应用案例成果特展”活动周上，由上海金融科技产业联盟创新监管联合实验室指导，奇富科技主办的“攻坚金融科技创新与大模型应用、释放数字金融向新力” 主题成果展在沪举办，全面展示了奇富科技在金融科技领域的创新实践。同时，上海金融科技产业联盟创新监管实验室与奇富科技现场达成创新伙伴合作，双方将共同探索金融科技创新的路径，推动新技术在金融领域高效、安全的应用，助力上海全球金融科技中心建设。奇富科技CEO吴海生在特展现场强调，科技是驱动金融创新的关键，能打破传统边界，以智能化、个性化方案满足多元化金融需求。

突发！GPT论文一作Alec Radford离职，前两代GPT作者全部离开OpenAI

OpenAI又跑了一名大神！ The Information消息，初代GPT论文第一作者Alec Radford也要离开OpenAI，转向独立研究。据了解， Alec于2016年加入OpenAI，从初代GPT到GPT-4o的论文中全都有他的名字，其中前两代还是第一作者。

2025英伟达奖学金名单公布，6位华人入选！中科大浙大校友在列，人均6万美元

刚刚，备受期待的英伟达2025-2026年度博士奖学金出炉了！该奖学金计划已经累计开展了二十多年，一直支持着从事与英伟达技术相关杰出工作的研究生。前几年还是每人5万美元，而今年随着风生水起的英伟达市值节节攀高，博士奖学金计划也跟涨20%，每位获选者都可以拿走6万美元！

一键生成万字专利！中科院发布多智能体框架AutoPatent，含1933个「草稿-专利」数据对

在科技日新月异的今天，专利作为保护创新成果的重要法律工具，其撰写过程却往往繁琐且耗时，传统的专利撰写工作通常由熟悉专利法律和技术领域的专利代理人完成，这一过程耗时费力，且效率较低。因此，开发一种能够自动化生成高质量专利文档的方法，对于提高专利撰写的效率和准确性具有重要意义。最近，来自中科院深圳先进院和大连理工大学的研究团队联合开发了一个名为AutoPatent的自动化的多智能体专利生成框架，能够在十分钟左右的时间依据发明人的专利技术底稿生成一篇完整的专利文档。

美国哥伦比亚大学研究：大语言模型正在变得越来越像人类大脑

哥伦比亚大学和费因斯坦医学研究所的研究团队近期进行了一项研究，探索了LLM与大脑神经反应的相似性。研究表明，随着LLM技术的进步，这些模型不仅在性能上有所提升，而且结构上也越来越接近人类大脑。

六大数据集全部SOTA！最新DriveMM：自动驾驶一体化多模态大模型（美团&中山大学）

写在前面 & 笔者的个人理解近年来，视觉-语言数据和模型在自动驾驶领域引起了广泛关注。许多精心设计和标注的数据集用于微调多模态大模型，使模型不仅能理解视觉输入并生成文本回答，更能适用于自动驾驶多种应用场景。由于驾驶场景的复杂多变以及驾驶行为的多样性，现有的自动驾驶模型和数据往往专注于单一场景和任务。

突破自动驾驶视频生成极限：港中文&港科大&华为联手推出MagicDriveDiT

可控视频生成，对于自动驾驶技术而言，同样非常重要。比如，生成高质量、长时间且可控的高质量街景视频，可以满足开发自动驾驶应用的数据缺口。现在，香港中文大学、香港科技大学和华为联手向这一长期挑战发起了冲锋：推出MagicDriveDiT，重新定义自动驾驶视频生成的标准。

不会代码的独立开发者，除了学Cursor，还该会些什么？

“十多年前有本书叫《人人都是产品经理》，但现在可能才真正到了「人人都是产品经理」的时刻。 ”苹果商店付费榜Top1，这是一个不会代码的独立开发者用Cursor开发App的最佳战绩。背后独立开发者用1.5个小时，开发并上架了包括「小猫补光灯」在内的2款iOS App，这个初代版本最高冲到了苹果商店“摄影与录像分类”免费排行榜前20。

计算机视觉开发者必备：十大顶尖工具深度解析

在科技日新月异的今天，计算机视觉领域正以前所未有的速度发展，其应用已经渗透到医疗健康、自动驾驶、安全监控以及零售等多个行业。对于计算机视觉开发者而言，掌握一系列高效、强大的工具是提升技能、加速项目开发的关键。本文将深入介绍十款无论是初学者还是高级用户都应熟练掌握的计算机视觉开发工具，帮助开发者在这一领域取得更大的突破。

金山办公将在武汉打造 AI 及鸿蒙研发总部

2017 年，金山办公首次牵手光谷，目前已有 2000 余人的研发团队，成为该公司全国最大研发中心。2020 年，金山办公再次重仓光谷，建设面积 120 亩的武汉总部研发基地，目前已达到预交付投产标准，2025 年 1 月启动入驻。

Mac版ChatGPT接入大量应用，但终极大招在明天

今天是 ChatGPT 产品发布会第11天。现场的 OpenAI 产品负责人 Kevin Wheel 和他两位同事为我们揭晓 ChatGPT 在MAC端的最新进展，主要涉及编程和写作1. ChatGPT 桌面版的诞生Kevin 一上来就提到，过去半年，OpenAI 对桌面端应用下了大功夫。

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

提速8倍！速度更快、效果更好的混元视频模型——FastHunyuan来了！新模型仅用1分钟就能生成5秒长的视频，比之前提速8倍，步骤也从50步减少到了6步，甚至画面细节也更逼真了。