工程

探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

ICLR 2025|浙大、千问发布预训练数据管理器DataMan,53页细节满满

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

无编码器架构潜力或被低估,首个无编码器3D多模态LLM大模型来了

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

MLSys’25 | 极低内存消耗:用SGD的内存成本实现AdamW的优化性能

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

千帧长视频时代到来!MIT全新扩散算法让任意模型突破时长极限

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

何恺明带队新作「分形生成模型」:逐像素建模高分辨率图像、效率提升4000倍

这才过几天,大神何恺明又放出一篇新论文! 这次构建了一种全新的生成模型。 类似于数学中的分形,研究者推出了一种被称为分形生成模型(Fractal Generative Models)的自相似分形架构。

从零开始自主「起身站立」,上海AI Lab发布最新控制算法,机器人:起猛了

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

仅靠逻辑题,AI数学竞赛能力飙升!微软、九坤投资:7B小模型也能逼近o3-mini

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

稀疏注意力再添一员,华为诺亚推出高效选择注意力架构ESA

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

模型安全武装,复旦新研究实现SOTA扩散模型风险概念擦除效果,入选AAAI 2025

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

扩散模型新突破!无需微调,就能高效稳定移除目标物体

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

Bengio参与,扩散模型+蒙特卡洛树搜索实现System 2规划

把扩散模型的生成能力与 MCTS 的自适应搜索能力相结合,会是什么结果? 扩散模型(Diffusion Model)通过利用大规模离线数据对轨迹分布进行建模,能够生成复杂的轨迹。 与传统的自回归规划方法不同,基于扩散的规划器通过一系列去噪步骤可以整体生成完整轨迹,无需依赖前向动力学模型,有效解决了前向模型的关键局限性,特别适用于具有长周期或稀疏奖励的规划任务。

一次推理解决复合问题:基于MoE的大语言模型知识模块可扩展融合推理架构MeteoRA

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

预测所有物种DNA、RNA、蛋白质的形式和功能,Arc、斯坦福、NVIDIA发布最大AI生物模型Evo2

编辑 | 萝卜皮所有生命都用 DNA 编码信息。 虽然测序、合成和编辑基因组代码的工具已经改变了生物学研究,但智能地编写新的生物系统还需要深入了解基因组编码的巨大复杂性。 科学家们今天发布了他们所称的有史以来最大的生物学人工智能(AI)模型——Evo-2。

大模型强化学习新发现:删减84%数据反提升效果

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

撞车DeepSeek NSA,Kimi杨植麟署名的新注意力架构MoBA发布,代码也公开

昨天下午,DeepSeek 发布了一篇新论文,提出了一种改进版的注意力机制 NSA;加上还有创始人兼 CEO 梁文锋亲自参与,一时之间吸引眼球无数,参阅报道《刚刚! DeepSeek 梁文锋亲自挂名,公开新注意力架构 NSA》。 但其实就在同一天,月之暗面也发布了一篇主题类似的论文,并且同样巧合的是,月之暗面创始人兼 CEO 杨植麟也是该论文的署名作者之一。

清华团队构建大型社会模拟器AgentSociety,推动智能社会治理与研究范式变革

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

ICLR 2025 Spotlight | 让城市「动」起来!DynamicCity突破4D大场景生成技术边界

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。