算法

简单示例提升DeepSeek-R1美国数学邀请赛AIME分数:以步骤为粒度对齐上下文学习与推理

仅需简单提示,满血版DeepSeek-R1美国数学邀请赛AIME分数再提高。 上海交大、港中文、上海AI实验室等带来最新成果BoostStep对齐推理和上下文学习粒度,大幅提升上下文学习性能,突破少样本学习上限。 图片大语言模型使用多步推理解决复杂数学问题,即先将复杂问题分解为多个步骤并逐步进行推理。

老友记搬沙发难题终结,60年数学谜题破解!119页论文惊人证明:有最优解

臭名昭著的「搬沙发」难题,已经困扰了数学家们60年。 《老友记》经典的一幕,就是Ross找人帮忙搬新沙发时,无论如何也无法使沙发顺利通过拐角。 Ross大喊「Pivot!

免手术AI读心术新突破!Meta脑机接口研究惊呆网友:能边睡边玩手机发帖了??

新年伊始,Meta脑机接口研究传来新进展——语言模型加持下,无需动脑部手术,脑机接口实现了当前非侵入式方式(MEG)最准确的结果。 简单来说,仅利用AI模型Brain2Qwerty,他们实现了对脑电图(EEG)或脑磁图(MEG)电信号的高度解析。 具体效果如何呢?

本科生推翻姚期智40年前猜想!CS顶会论文刷新哈希表传统认知

因为证明了弱化版的「孪生素数猜想」,当年58岁的张益唐一鸣惊人,蜚声全球。 据说,在证明发表之前,相关领域的顶尖数学家,召开了研讨会,讨论后失望的认为:目前的技术无法进一步推动「孪生素数猜想」取得实质性进展。 而当时,几乎在学术界「透明」的张益唐,甚至都不知道研讨会何时何地召开过。

不蒸馏R1也能超越DeepSeek,上海 AI Lab 用RL突破数学推理极限

仅通过强化学习,就能超越DeepSeek! 上海AI Lab提出了基于结果奖励的强化学习新范式——从Qwen2.5-32B-Base模型出发,仅通过微调和基于结果反馈的强化学习,在不蒸馏超大模型如DeepSeek-R1的情况下,就能超越DeepSeek-R1-Distill-Qwen32B和OpenAI-O1系列的超强数学推理性能。 团队发现,当前大模型数学推理任务面临”三重门”困局:稀疏奖励困境:最终答案对错的二元反馈,使复杂推理的优化变得困难局部正确陷阱:长思维链中部分正确步骤反而可能误导模型学习规模依赖魔咒:传统蒸馏方法迫使研究者陷入”参数规模军备竞赛”因此,研究团队重新审视了当前基于结果奖励的强化学习算法,经过严格的理论推导与证明,重新设计了一个新的结果奖励强化学习算法,并在这个过程中得出了三点重要结论:对于正样本:在二元反馈环境下,通过最佳轨迹采样(BoN)的行为克隆即可学习最优策略对于负样本:需要使用奖励重塑来维护策略优化目标的一致性对于长序列:不同的序列部分对结果的贡献不同,因此需要更细粒度的奖励分配函数,这个函数可以通过结果奖励习得通俗来说,就是通过对正确样本模仿学习,错误样本偏好学习,关键步骤重点学习,无需依赖超大规模的模型(例如DeepSeek-R1)进行蒸馏,仅通过强化学习即可达到惊人的效果。

英伟达黑科技登场!RTX神经纹理压缩,显存用量狂减96%

在显卡技术不断迭代的当下,NVIDIA再次凭借其前沿创新,吸引了全球科技爱好者的目光。 RTX神经纹理压缩(NTC)技术在beta测试演示中的表现,堪称惊艳。 它成功地将3D应用中的内存纹理占用大幅降低,最高降幅可达96%,为图形处理领域带来了全新的变革可能。

近端策略优化(PPO)算法的理论基础与PyTorch代码详解

近端策略优化(Proximal Policy Optimization, PPO)算法作为一种高效的策略优化方法,在深度强化学习领域获得了广泛应用。 特别是在大语言模型(LLM)的人类反馈强化学习(RLHF)过程中,PPO扮演着核心角色。 本文将深入探讨PPO的基本原理和实现细节。

CoAT: 基于蒙特卡洛树搜索和关联记忆的大模型推理能力优化框架

研究者提出了一种新的关联思维链(Chain-of-Associated-Thoughts, CoAT)方法,该方法通过整合蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)和关联记忆机制来提升大语言模型(LLMs)的推理能力。 区别于传统的单步推理方法,CoAT致力于增强LLM的结构化推理能力和自适应优化能力,实现动态知识整合。

检测&OCC双SOTA!Doracamom实现首个LV多模态融合的统一多任务感知算法框架~

写在前面&笔者的个人理解自动驾驶技术是现代交通革命的前沿,备受关注。 自动驾驶系统通常包括环境感知、轨迹预测和规划控制等组件,以实现自动驾驶功能。 准确的 3D 感知是自动驾驶系统的基础,主要侧重于 3D目标检测和语义占用预测任务。

知乎互动反作弊实践

一、知乎反作弊简介知乎是中文互联网知名的可信赖的问答社区,为用户提供了丰富的内容创作与消费功能,致力于让人们更好的分享知识、经验和见解,找到自己的解答。 作为UGC(用户生成内容)社区,知乎面临一系列风险,反作弊团队目前针对垃圾信息、刷粉、刷赞、账户盗用以及流量攻击等问题进行识别与治理,覆盖业务场景多,面临诸多挑战。 二、互动反作弊的意义与挑战今天主要分享的是我们在刷粉、刷赞等互动反作弊方面的实战经验。

如何优化测试时计算?解决「元强化学习」问题

优化大模型的测试时计算是提升模型部署效率和节省计算资源的关键一环。 前段时间,黄仁勋在 CES 2025 的演讲中把测试时 Scaling 形容为大模型发展的三条曲线之一。 如何优化测试时计算成为业界关注的重要课题。

天才解法震惊人类!谷歌AI破天荒摘得奥数金牌,横扫IMO 42道几何难题

时隔6个多月,AlphaGeometry 2直接攻下IMO金牌! 刚刚,谷歌DeepMind一篇28页技术报告,公布了AG2最新突破——在2000-2024年IMO几何题上,解题率从54%飙升至84%。 论文地址:(50道),AG2横扫了42道。

一拖一拽小猫“活了”,Netflix 等噪声扭曲算法让运动控制更简单

本文提出了一种全新的噪声扭曲算法,利用光流推导出的结构化噪声来替代传统随机噪声,成功实现了对视频运动的强大控制能力。

小红书为何让歪果仁上头?推荐算法超牛,2篇核心论文揭秘

最近歪果朋友疯狂涌入「Xiaohongshu」,网友直呼,一夜之间与国际接轨。 这场史称「美洲大迁徙」的互联网奇象,也离不开小红书本身过硬的内容推荐算法技术。 而歪果网友也毫不吝啬对于「Xiaohongshu」推荐算法的赞美。

北大、港理工革新性LiNo框架:线性与非线性模式有效分离,性能全面超越Transformer

本文的通讯作者为北京大学计算机学院长聘副教授杨仝和香港理工大学助理教授王淑君。 第一作者为香港理工大学 24 级博士生余国齐,以及联合作者北京大学 21 级软微学院博士生、每因智能创始人郭潇宇等。 研究工作在北京大学计算机学院数据结构实验室和每因智能发起的研究课题中完成。

当人工智能遇上市政债券市场:聊聊算法交易与AI预测

算法交易时至今日,“算法交易”一词已经被广泛使用。 但其真实含义却往往众说纷纭。 没关系,下面咱们就来捋捋这个概念的具体细节。

比人类神经元快10亿倍!港中文、中科院「超级大脑」:1秒识图3479万张

人工神经元,比人类大脑快10亿倍,将会是怎样的景象? 如今,这一科幻般的场景,早已成为了现实。 来自香港中文大学、中国科学院物理研究所等机构科学家,成功开发出了一种基于「激光」的人工神经元。

迈向Z级计算:Cloud4Science范式加速科学发现进程

编辑 | X_X传统超级计算机作为科学计算的核心支柱,在推动技术进步方面发挥了不可替代的作用,但随着科学智能时代下需求的多样化和复杂化,其扩展性和能效的局限逐渐显现。 针对这一挑战,微软亚洲研究院的研究员提出了 Cloud4Science 的新范式,以云计算、人工智能和高性能计算技术的深度融合为核心,重新定义科学计算的架构,加速科学智能的研究进展。 在此框架下,研究员们已对关键科学计算算法如 Stencil、FFT、SpMV 等进行了优化,并成功开发了一系列创新算法,为科学家利用云计算及人工智能平台进行科学计算和研究开辟了新的途径。