理论 - AI在线

从2019年到现在，是时候重新审视Tokenization了

2019 年问世的 GPT-2，其 tokenizer 使用了 BPE 算法，这种算法至今仍很常见，但这种方式是最优的吗？来自 HuggingFace 的一篇文章给出了解释。「9.9 和 9.11 到底哪个大？

从DeepSeek-V3发布谈大模型的技术突破与未来机遇

在AI技术日新月异的今天，大型语言模型已成为推动AI发展的重要力量。 2024年12月26日，DeepSeek AI正式发布了其最新的大型语言模型——DeepSeek-V3。这款开源模型采用了高达6710亿参数的混合专家（MoE）架构，每秒能够处理60个token，比V2快了3倍。

Gartner：目前仅8%的中国企业将生成式人工智能部署在生产环境中

1月3日消息，Gartner最新调研结果显示，中国企业在采用生成式人工智能(GenAI)方面雄心勃勃，但进展缓慢，目前只有8%的中国企业将生成式人工智能部署在生产环境中。 Gartner研究总监闫斌表示：“虽然小规模落地已在多种场景下出现，但大规模企业落地仍然较为少见。企业生成式人工智能的发展尚未到达关键里程碑节点。

OpenAI再招华人研究员！高中入围美国“少年诺贝尔奖”，还在哈佛教书

就在刚刚，哈佛华人研究员Jeffrey Wang正式官宣加入OpenAI——将作为基础团队研究员，负责模型预训练和推理。消息公布后，OpenAI联创&总裁Greg Brockman也在第一时间带队欢迎。在这之前，Jeffrey Wang在哈佛一边教课一边研究机器学习。

你的专属“钢铁侠”助手OS Agents来了！浙大联手OPPO、零一万物等10个机构推出全新综述

电影《钢铁侠》中，托尼·斯塔克的助手贾维斯（J.A.R.V.I.S.）能帮他控制各种系统并自动完成任务，曾让无数观众羡慕不已。现在，这样的超级智能助手，终于变成现实了！随着多模态大语言模型的爆发式进化，OS Agents横空出世，它们能无缝操控电脑和手机，为你自动搞定繁琐任务。

刚拿下NeurIPS优秀论文，字节就开源VAR文生图版本，拿下SOTA击败扩散模型

自回归文生图，迎来新王者——新开源模型Infinity，字节商业化技术团队出品，超越Diffusion Model。值得一提的是，这其实是从前段时间斩获NeurIPS最佳论文VAR衍生而来的文生图版本。在预测下一级分辨率的基础上，Infinity用更加细粒度的bitwise tokenizer建模图像空间。

2025智能世界50震撼预测！AI海啸来袭，5维度看清AGI与潜在可能

一直坚持的新年预测大多得到印证，尤其去年命中率90%以上。 2025继续。《2024年的16个可能》，讲到我们同时处在四个周期的起点。

华为终端BG李小龙曝出业界翻车难题：手机拍摄的模糊文字，用AI增强很容易翻车

编辑 | 言征近日，华为终端BG李小龙发博展示了Mate70 Pro 的AI照片增强的功能，并热心询问大家对于AI云增强效果是否满意。图片为了方便大家查看效果，大家可以点击下面的大图来查看AI增强效果。左侧是原图，右侧是AI增强图左侧是原图，右侧是AI增强图不过一位好奇的网友在评论区问了一个让李小龙非常关注的问题：小龙总，高倍率看不清楚的字能AI（增强）吗，最好要自然点，不能弄成假的。

马斯克又又又跳票了！说好年底推出的“重大飞跃”的Grok 3，迟迟未现身！AI大厂集体哑火的“下一代模型”，再度验证AI撞墙论！

编辑 | 伊风有没有人发现——马斯克又又又又跳票了？？你说好“年底”发的Grok 3呢？

动物版谷歌翻译来了？Nature：用AI解码野性的呼唤！

每一种动物都有其独特的历史。来自加拿大Carleton University的鲸鱼生物学家Shane Gero，花了20年时间试图了解鲸鱼是如何交流的。比如，同一个家族的鲸鱼会发出特定的声音，而不同区域的抹香鲸（Physeter macrocephalus）有自己的「方言」。

Science子刊 | GPT4、Llama等LLM可以调节粒子加速器？仅50%性能优化，未来可期

编辑 | 萝卜皮粒子加速器的自主调节是一个活跃且具有挑战性的研究领域，其目标是实现先进的加速器技术和尖端的高影响力应用，例如物理发现、癌症研究和材料科学。但是，自主加速器调节仍然严重依赖经验丰富的熟练操作员的手动操作。德国亥姆霍兹协会旗下 DESY（Deutsches Elektronen Synchrotron）的研究人员建议使用大型语言模型（LLM）来调整粒子加速器。

北大、港理工革新性LiNo框架：线性与非线性模式有效分离，性能全面超越Transformer

本文的通讯作者为北京大学计算机学院长聘副教授杨仝和香港理工大学助理教授王淑君。第一作者为香港理工大学 24 级博士生余国齐，以及联合作者北京大学 21 级软微学院博士生、每因智能创始人郭潇宇等。研究工作在北京大学计算机学院数据结构实验室和每因智能发起的研究课题中完成。

多模态大语言模型空间智能新探索：仅需单张图片或一句话，就可以精准生成3D建模代码啦！

计算机辅助设计（CAD）已经成为许多行业设计、绘图和建模的标准方法。如今，几乎每一个制造出来的物体都是从参数化 CAD 建模开始的。 CAD 构造序列是 CAD 模型表示的一种类型，不同于 Mesh 类型的三角网格、B-rep 格式的点、线、面表示，它被描述为一系列建模操作，包括确定草图 3D 起点和 3D 草图平面方向、绘制 2D 草图、将草图拉伸成 3D 实体形状的完整参数和过程，以 JSON 代码格式储存和表示。

DeepMind天才科学家疑自杀！41岁SuperGLUE之父英年早逝，AI圈悲痛不已

就在刚刚，一个令人悲伤的消息传来。谷歌DeepMind研究科学家Felix Hill，于2024年12月5日英年早逝，年仅41岁。自2023年初以来，他一直在与严重的精神疾病作斗争。

揭示LLaMA 3对话能力的奥秘

过去的一年中，大模型技术得到了广泛认可，全行业对大模型的投入也在不断增加。开源社区涌现了许多优秀的模型和框架，推动了大模型技术的普及和应用。在这一年的时间里，LLaMA 系列模型也经历了快速的发展，从 LLaMA 2 到 LLaMA 3，我们看到了性能和应用上的显著提升。

OpenAI发布新年目标，Agent智能体或将迎来百模大战

2025年1月1日，OpenAI CEO 奥特曼公布了公司的新年目标，涵盖AGI、智能体、4o升级、模型更好记忆、更长上下文等等。图片关于智能体，有网友爆料，OpenAI 可能在 1 月份发布一个名为 “operator” 的 Agent，这个 Agent 将具备直接控制电脑的能力。图片其实24年10月份的时候，Claude 就已经发布了基于 Claude 3.5 Sonnet 多模态大模型，可操作电脑的智能体。

斯坦福AI科研神器开源，一键成文GPT-4o mini加持！科研写作彻底解放双手

AI写作神器，竟被斯坦福开源了！在OpenAI与Perplexity绞尽脑汁去动谷歌搜索的蛋糕时，斯坦福研究团队却「于无声处响惊雷」，一鸣惊人推出了支持避开信息盲点、全面整合可靠信息、从头写出维基长文的STORM&Co-STORM系统。图片背后模型是由必应搜索，以及GPT-4o mini加持。

港大&Adobe提出通用生成框架UniReal：通过学习真实世界动态实现通用图像生成和编辑。

本文经AIGC Studio公众号授权转载，转载请联系出处。今天给大家介绍由香港大学，Adobe提出的统一图像生产与编辑方法UniReal，将多种图像任务统一成视频生成的范式，并且在大规模视频中学习真实的动态与变化，在指令编辑、图像定制化、图像组合等多种任务达到最佳水准。上图为UniReal多功能性的展示。