AI

多步推理碾压GPT-4o，无需训练性能提升10%！斯坦福开源通用框架OctoTools

大型语言模型（LLMs）目前仍然很难处理需要多步骤推理、特定领域知识或外部工具集成的复杂任务，有研究工作探索了使用预先构建的外部工具来增强LLMs处理复杂任务的能力，但这些方法需要对模型进行微调或额外训练以实现工具的集成，在不同任务之间难以灵活适应。现有的方法要么依赖于静态的、预定义的工具集，要么缺乏高效的工具选择和规划机制，这种低效性会导致任务执行出错、计算成本增加，以及在应用于新领域时适应性受限。传统增强LLMs的方法包括少量样本提示（few-shot prompting）、思维链（chain-of-thought reasoning）以及与外部工具接口的功能调用API；有的框架如LangChain和AutoGen允许LLMs够使用外部资源，但通常智能用于指定应用场景或需要大量的预配置，没有提供一种统一的多步骤规划和执行方法，因此在处理复杂推理问题时效果不佳。

3/12/2025 10:38:05 AM

新智元

李飞飞全新「保姆」人形机器人，倒垃圾刷马桶家务全包！遥操只需Switch手柄

对人类来说轻而易举的事，对机器人来说很难。机器人能做家庭管家，照顾好一家人吗？要做「家庭管家」，机器人真正需要什么技能？

3/12/2025 8:54:46 AM

新智元

百度AI开源表格识别模型PP-TableMagic

3月11日，百度AI宣布开源新一代表格识别解决方案PP-TableMagic，为表格结构化信息提取领域带来重大突破。 PP-TableMagic旨在解决传统表格识别技术在复杂场景下的局限性，通过创新的多模型组网架构，实现了高精度的端到端表格识别，并支持全场景高定制化的模型微调。在当今数字化时代，大量重要表格数据仍以非结构化形式存在，如扫描文档中的统计表图片和PDF文件中的金融财报数据。

3/12/2025 8:27:00 AM

AI在线

浅谈 AI 对数据库生态带来哪些影响

近期，AI（主要是大模型）大火，很多人也都非常关注。自己在尝试使用同时，也在思考AI会对数据库有哪些影响？这些影响可能会是全方面的，包括对人、公司、行业等等。

3/12/2025 7:35:59 AM

韩锋

微软 Copilot 下一站：AI+3D 游戏，碰撞无限可能

微软通过Copilot AI平台的3D游戏功能拓展，展示了其在AI驱动游戏开发领域的雄心。从3D渲染引擎到生成式AI工具，微软正以创新的方式重塑游戏开发流程，为开发者提供更强大的工具，同时为玩家带来更沉浸式的游戏体验。这一战略不仅巩固了微软在AI领域的领先地位，也为游戏行业的未来开辟了新的可能性。

3/11/2025 2:38:01 PM

故渊

大模型全军覆没，中科院自动化所推出多图数学推理新基准 | CVPR 2025

挑战多图数学推理新基准，大模型直接全军覆没？事情是这样的。近日，中国科学院自动化研究所推出多图数学推理全新基准MV-MATH（该工作已被CVPR 2025录用），这是一个精心策划的多图数学推理数据集，旨在全面评估MLLM（多模态大语言模型）在多视觉场景中的数学推理能力。

3/11/2025 1:49:20 PM

量子位

轻松拿捏高等数学，LLM平均得分90+！GPT-4o、Mistral几乎没错

朋友会离开你，兄弟会背叛你。但数学不会，数学不会就是不会。相信学不好高等数学的人，对上面这个梗深有感悟。

3/11/2025 1:42:19 PM

新智元

OpenAI最强模型惨遭剖脑，CoT写下作弊自白书！不写代码耍心机被当场抓包

就在刚刚，OpenAI博客放出了一项新的研究。他们发现，前沿推理模型一旦有机会，就会试图钻漏洞！这种行为，被称为奖励欺骗。

3/11/2025 1:39:08 PM

新智元

从鹦鹉学舌到灵魂对话，AI的人话革命

2030年，一位老人对家庭机器人说：“我想念年轻时在西湖划船的日子。 ”AI不仅能调出当年的老照片，还能结合实时天气与老人健康数据，规划一场安全舒适的怀旧之旅，并同步预约无人游船。当机器对人类产生“主动关怀”，标志着AI从工具进化为“生活伴侣”。

3/11/2025 1:20:43 PM

佚名

使用DeepSeek的GRPO，7B模型只需强化学习就能拿下数独

没有任何冷启动数据，7B 参数模型能单纯通过强化学习学会玩数独吗？近日，技术博主 Hrishbh Dalal 的实践表明，这个问题的答案是肯定的。并且他在这个过程中用到了 DeepSeek 开发的 GRPO 算法，最终他「成功在一个小型数独数据集上实现了高奖励和解答」。

3/11/2025 1:07:58 PM

机器之心

降本增效：马斯克正尝试用 AI 取代美国公务员

大西洋月刊报道称，马斯克领导的政府效率部正在努力缩减和重组美国公务员队伍，这一努力已进入新阶段。其理念很简单：利用生成式人工智能来自动化以前由人完成的工作。

3/11/2025 11:21:57 AM

陈俊熹

腾讯混元-TurboS：首个混合Transformer-Mamba MoE超大模型来了

腾讯混元团队发布了他们最新的力作——Hunyuan-TurboS，首个混合Transformer-Mamba MoE架构的超大模型大家都知道，传统Transformer模型在处理长文本时一直面临挑战，O(N²)的复杂度以及KV-Cache问题让长文本训练和推理效率大打折扣。而这次，混元-TurboS巧妙地融合了Mamba和Transformer两种架构的优势：• Mamba的高效长序列处理能力• Transformer强大的上下文理解能力强强联合，效果自然惊艳！官方数据显示，Hunyuan-TurboS在多个关键benchmark上表现出色：• 数学、推理、对齐能力超越或持平 GPT-4o-0806、DeepSeek-V3 以及各类开源模型。

3/11/2025 9:42:00 AM

AI寒武纪

哥大本科生靠AI横扫硅谷大厂offer，学校震怒！预言码农两年内淘汰准备退学

硅谷大型科技公司FAANG的面试，对不少人来说都是一场噩梦。结果，哥大的一位大二学生Roy Lee，居然利用AI，顺利斩获了亚马逊、Meta和TikTok的offer，获得了直通梦中情厂的实习机会！这个消息一出，震惊了不少人。

3/11/2025 9:40:00 AM

新智元

面试官：AI 友好的整洁业务组件架构，到底解决了什么问题？

人工智能的发展速度已经快到让人难以跟上，但真正决定 AI 实用性的，已经不仅仅是最新的模型（如 GPT-5、Gemini 2 或 Claude 4），而是如何让 AI 连接真实世界，理解实时数据，并自主执行任务。这就是 Anthropic 的 Model Context Protocol（MCP）横空出世的原因——它不仅仅是一个升级，而是一场 AI 交互的革命！如果你还没听说过 MCP，那么接下来的内容会彻底改变你对 AI 的认知。

3/11/2025 9:19:53 AM

dev

LeCun最新访谈对DeepSeek一顿猛夸，还谈了AI发展需理解物理世界

LeCun最新访谈，对DeepSeek一顿猛夸。他表示，DeepSeek是一项很出色的成果，它的开源不只是成果创造者受益，全世界都能从中受益。不过LeCun也指出，金融市场对DeepSeek出现的反应，说什么“哦，现在我们可以更便宜地训练系统了，所以我们不再需要那么多计算机”，这种说法是错误的。

3/11/2025 9:15:00 AM

量子位

Manus被破解了？曝出系统提示词和背后大模型，CTO也回复了

最近几天，一个叫「Manus」的通用 AI Agent 产品刷屏网络。它能完成复杂的文件处理、数据分析、代码编写等多种任务。刚上线不久，大家纷纷在线求购邀请码，都想亲自上手一试这个突然火起来的智能体。

3/11/2025 8:42:04 AM

机器之心

人类学的 MCP 彻底颠覆 AI 交互！

3/11/2025 8:37:17 AM

dev

人加AI：重新定义协作智能时代的工作

人机协作中缺失的中间环节“有一种新兴的协作智能，是现在公司竞争和创新所需要的，”威尔逊在我们的对话中解释道，“这真的是关于深思熟虑且严谨地创造那种结合效应，即人类的聪明才智、人类的创新加上AI系统，能够超越任何一方单独所能做到的。 ”为了说明这一点，威尔逊分享了一个立陶宛研究人员的有趣故事，该研究人员巧妙地重新利用了AlphaFold(一个预测蛋白质结构的AI系统)来解决其创造者未曾设想的复杂蛋白质相互作用问题。结果呢?这是人类创造力与AI处理能力相结合的科学突破。

3/11/2025 8:30:00 AM

Bernard Marr

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 OPPO 小布助手网页版上线，接入满血版 DeepSeek 本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果人形机器人深度学习 AI视频模态 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型