资讯列表

国产推理大模型决战2025考研数学,看看谁第一个上岸?

随着上个月 2025 研究生考试的结束,最新的考研数学真题成为大语言模型尤其是推理模型的「试炼场」,将考验它们的深度思考能力。 业内曾有着这样一种共识:大语言模型在文字水平上的表现令人印象深刻,但说到数学就不甚令人满意了。 去年一度火出圈的「9.9 与 9.11」比大小的问题,包括 GPT-4o 在内的很多大模型都翻车了,直到深度推理模型出现后才从根本上改善了这一状况。

使用 CNN 进行时间序列预测!!

1D 卷积层(One-Dimensional Convolutional Layer)是卷积神经网络(CNN)的基本组成部分,广泛应用于处理一维序列数据,如时间序列分析、自然语言处理、语音识别等。 1D 卷积层是深度学习中用于处理序列数据的重要工具。 它通过滑动窗口方式提取局部特征,并在多个通道间整合信息。

微软华人团队最新研究:从LLM到LAM,让大模型真正具有「行动力」!

LLM只能针对问题进行回答与分析?这种「隔靴搔痒」的体验也许就要被终结了! 最近,微软推出了一项名为「大型行动模型」(Large Aciton Model,LAM)的创新技术,标志着大模型从语言理解向实际执行任务的转变。 与传统的LLM不同,LAM不仅能理解用户的自然语言指令,还能将这些指令转化为具体的行动步骤,在软件环境中自主执行文档编辑、表格处理等任务。

物理学家发现新型量子粒子!表现介于玻色子费米子之间 | Nature

新型量子粒子出现了,相关论文已经登上Nature。 事情是这样的,美国布朗大学物理学家发现了一类既不属于玻色子,也不属于费米子的新粒子,这种粒子的表现介于两种基本粒子之间,被称为“分数激子”。 研究人员表示,这种新粒子不携带整数电荷,却遵循独特的量子统计规律。

抢先OpenAI“虚拟员工”!清华复旦斯坦福联手,让Agent接管电脑帮你工作

抢先OpenAI的“Operator”,清华、复旦、斯坦福等研究者联合起来整了个大活~他们提出了一个名为“Eko”的Agent开发框架,开发者只需用简洁的代码和自然语言,就能快速构建可用于生产的“虚拟员工”:Agent可以接管用户的电脑和浏览器,代替人类完成各种任务。 而这个操作,正是之前OpenAI被爆出的“Operator”所能实现的。 爆料称OpenAI将会这个月发布“Operator”,现在直接被截胡了。

最强代码模型刷新:Mistral新品上线即登顶,上下文窗口增至256k

“欧洲版 OpenAI” Mistral 的代码模型 CodeStral,又上新了! 而且与 DeepSeek V2.5 和 Claude 3.5 平起平坐,共同位列 Copilot 竞技场第一名。 上下文窗口也增长到了之前的 8 倍,达到了 256k。

AI生物学家:当「基础模型」撞上「生物学混沌」,谁才是解谜高手?

编辑丨toileter在如今的 AI for Biology 社区里,当今的词汇是基础模型。 每个人都希望将更多事物的更大的数据放入更大的模型中进行计算测试。 虚拟细胞模型将使研究者们能够预测细胞状态如何响应化学扰动而产生变化。

AMD与约翰霍普金斯大学联手:AI实验室copilot自动化科研,成本节约84%!

编辑 | 2049科学研究,尤其是机器学习领域的研究,往往需要大量的时间和资源投入,从最初的构思到最终的结果产出,每一步都充满了挑战。 近年来,大型语言模型(Large Language Models,LLMs)在自然语言处理和代码生成方面取得了显著进展,这为自动化科学研究提供了新的可能性。 然而,现有的自动化研究工具通常只能处理单个环节,如文献综述或实验设计,无法实现全流程的自动化。

微软新专利探索游戏设计:AI 定制剧情、玩法等

根据美国商标和专利局(USPTO)最新公示的清单,微软获得了一项专利技术,利用生成式人工智能(AI)设计游戏,赋予设计者和玩家通过指令定制游戏体验的能力。

性能爆拉30%!英伟达DreamDrive:时空一致下的生成重建大一统新方案~

写在前面 & 笔者的个人理解从自车的驾驶轨迹中生成真实的视觉图像是实现自动驾驶模型可扩展训练的关键一步。 基于重建的方法从log中生成3D场景,并通过神经渲染合成几何一致的驾驶视频,但它们对昂贵标注的依赖限制了它们在野外驾驶场景中的泛化能力。 另一方面,生成模型可以以更通用的方式合成动作条件驾驶视频,但往往难以保持3D视觉的一致性。

Torchtune:重塑大语言模型微调的新篇章

在当今的深度学习领域,大语言模型(LLMs)的微调已成为实现定制化模型功能的关键步骤。 为了满足这一需求,Torchtune应运而生,它是一个专为PyTorch设计的库,旨在简化LLMs的编写、微调及实验过程。 本文将详细介绍Torchtune的功能、特性、使用方法及其社区支持。

2025年的AI与数据创新:影响企业成功的五大预测

打开电视或流式播放最新的新闻广播,你很可能会以某种方式听到AI被提及,显然,与过去几年一样,AI如今仍然盛行。 对于一些消费者和企业而言,公司可能夸大了这项新兴技术的重要性。 AI这个,AI那个……但现实是,AI已成为不可逆转的趋势,并将在全球技术的未来、消费者与技术的互动方式以及企业的运营方式中发挥巨大作用。

3D虚拟试穿来了,上大、腾讯等提出ClotheDreamer,数字人也能实现穿,脱衣自由!

今天,给大家介绍上大、腾讯等提出的3D服装合成新方法ClotheDreamer,它以其革命性的能力,从简单的文本提示直接生成高保真、可穿戴的3D服装资产,正在重塑电商与空间计算领域的未来。 数字人也能实现穿、脱衣自由了!相关链接论文阅读::(即将开源)项目地址: 3D 服装对于数字化身创建来说既是理想的也是具有挑战性的。 最近基于扩散的分数蒸馏采样 (SDS) 方法已经实现了新的可能性,但要么与人体错综复杂地耦合,要么难以重复使用。

刚刚,美国首个全球AI禁令颁布!英伟达AMD禁运,各国分三级上限5万块

果然,美国芯片限制新规,正式上线了! 上周曾有消息曝出,拜登政府欲在交接之际放出最后一搏。 而就在1月13日,拜登政府发布全面规则,芯片禁令正式出台。

ETH&PICO开源MADPose:通过显式仿射校正单目深度预测的相对位姿估计方法

本文经3D视觉之心公众号授权转载,转载请联系出处。 单目深度估计的关键局限和挑战近年来,基于深度学习的单目深度估计(Monocular Depth Estimation, MDE)能够从单张二维图像中提取出日益准确的三维信息。 这些进展为利用三维先验丰富传统几何计算机视觉任务开辟了新的可能性。

面向语音控制前端应用程序的自然语言处理(NLP):架构、进展与未来方向

译者 | 李睿审校 | 重楼由于智能设备、虚拟助手和免提界面的日益普及,语音控制前端应用程序获得了更多的关注。 自然语言处理(NLP)是这些系统的核心,能够实现类似人类的理解和语音生成。 本白皮书介绍了语音控制前端应用程序的NLP方法的深入研究,阐述了语音识别、自然语言理解和生成技术的最新技术,以及它们在现代Web前端中的架构集成。

3D数字人生成来了!南洋理工提出StructLDM:高质量可控3D生成并支持编辑

三维数字人生成和编辑在数字孪生、元宇宙、游戏、全息通讯等领域有广泛应用。 传统三维数字人制作往往费时耗力,近年来研究者提出基于三维生成对抗网络(3D GAN)从 2D 图像中学习三维数字人,极大提高了数字人制作效率。 这些方法往往在一维隐向量空间建模数字人,而一维隐向量无法表征人体的几何结构和语义信息,因此限制了其生成质量和编辑能力。

美国顶尖名校抛弃计算机基础课,All in Python!前助教:计算机系末日来临

东北大学Khoury计算机学院,竟宣布淘汰「计算机科学基础」(Fundamentals of Computer Science)课程。 基础不教了,那教些什么呢? 答案是——Python。