AI在线 AI在线

AI

多步推理碾压GPT-4o,无需训练性能提升10%!斯坦福开源通用框架OctoTools

大型语言模型(LLMs)目前仍然很难处理需要多步骤推理、特定领域知识或外部工具集成的复杂任务,有研究工作探索了使用预先构建的外部工具来增强LLMs处理复杂任务的能力,但这些方法需要对模型进行微调或额外训练以实现工具的集成,在不同任务之间难以灵活适应。 现有的方法要么依赖于静态的、预定义的工具集,要么缺乏高效的工具选择和规划机制,这种低效性会导致任务执行出错、计算成本增加,以及在应用于新领域时适应性受限。 传统增强LLMs的方法包括少量样本提示(few-shot prompting)、思维链(chain-of-thought reasoning)以及与外部工具接口的功能调用API;有的框架如LangChain和AutoGen允许LLMs够使用外部资源,但通常智能用于指定应用场景或需要大量的预配置,没有提供一种统一的多步骤规划和执行方法,因此在处理复杂推理问题时效果不佳。
3/12/2025 10:38:05 AM
新智元

李飞飞全新「保姆」人形机器人,倒垃圾刷马桶家务全包!遥操只需Switch手柄

对人类来说轻而易举的事,对机器人来说很难。 机器人能做家庭管家,照顾好一家人吗? 要做「家庭管家」,机器人真正需要什么技能?
3/12/2025 8:54:46 AM
新智元

百度AI开源表格识别模型PP-TableMagic

3月11日,百度AI宣布开源新一代表格识别解决方案PP-TableMagic,为表格结构化信息提取领域带来重大突破。 PP-TableMagic旨在解决传统表格识别技术在复杂场景下的局限性,通过创新的多模型组网架构,实现了高精度的端到端表格识别,并支持全场景高定制化的模型微调。 在当今数字化时代,大量重要表格数据仍以非结构化形式存在,如扫描文档中的统计表图片和PDF文件中的金融财报数据。
3/12/2025 8:27:00 AM
AI在线

浅谈 AI 对数据库生态带来哪些影响

近期,AI(主要是大模型)大火,很多人也都非常关注。 自己在尝试使用同时,也在思考AI会对数据库有哪些影响? 这些影响可能会是全方面的,包括对人、公司、行业等等。
3/12/2025 7:35:59 AM
韩锋

微软 Copilot 下一站:AI+3D 游戏,碰撞无限可能

微软通过Copilot AI平台的3D游戏功能拓展,展示了其在AI驱动游戏开发领域的雄心。从3D渲染引擎到生成式AI工具,微软正以创新的方式重塑游戏开发流程,为开发者提供更强大的工具,同时为玩家带来更沉浸式的游戏体验。这一战略不仅巩固了微软在AI领域的领先地位,也为游戏行业的未来开辟了新的可能性。
3/11/2025 2:38:01 PM
故渊

大模型全军覆没,中科院自动化所推出多图数学推理新基准 | CVPR 2025

挑战多图数学推理新基准,大模型直接全军覆没? 事情是这样的。 近日,中国科学院自动化研究所推出多图数学推理全新基准MV-MATH(该工作已被CVPR 2025录用),这是一个精心策划的多图数学推理数据集,旨在全面评估MLLM(多模态大语言模型)在多视觉场景中的数学推理能力。
3/11/2025 1:49:20 PM
量子位

轻松拿捏高等数学,LLM平均得分90+!GPT-4o、Mistral几乎没错

朋友会离开你,兄弟会背叛你。 但数学不会,数学不会就是不会。 相信学不好高等数学的人,对上面这个梗深有感悟。
3/11/2025 1:42:19 PM
新智元

OpenAI最强模型惨遭剖脑,CoT写下作弊自白书!不写代码耍心机被当场抓包

就在刚刚,OpenAI博客放出了一项新的研究。 他们发现,前沿推理模型一旦有机会,就会试图钻漏洞! 这种行为,被称为奖励欺骗。
3/11/2025 1:39:08 PM
新智元

从鹦鹉学舌到灵魂对话,AI的人话革命

2030年,一位老人对家庭机器人说:“我想念年轻时在西湖划船的日子。 ”AI不仅能调出当年的老照片,还能结合实时天气与老人健康数据,规划一场安全舒适的怀旧之旅,并同步预约无人游船。 当机器对人类产生“主动关怀”,标志着AI从工具进化为“生活伴侣”。
3/11/2025 1:20:43 PM
佚名

使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独

没有任何冷启动数据,7B 参数模型能单纯通过强化学习学会玩数独吗? 近日,技术博主 Hrishbh Dalal 的实践表明,这个问题的答案是肯定的。 并且他在这个过程中用到了 DeepSeek 开发的 GRPO 算法,最终他「成功在一个小型数独数据集上实现了高奖励和解答」。
3/11/2025 1:07:58 PM
机器之心

降本增效:马斯克正尝试用 AI 取代美国公务员

大西洋月刊报道称,马斯克领导的政府效率部正在努力缩减和重组美国公务员队伍,这一努力已进入新阶段。其理念很简单:利用生成式人工智能来自动化以前由人完成的工作。
3/11/2025 11:21:57 AM
陈俊熹

腾讯混元-TurboS:首个混合Transformer-Mamba MoE超大模型来了

腾讯混元团队发布了他们最新的力作——Hunyuan-TurboS,首个混合Transformer-Mamba MoE架构的超大模型大家都知道,传统Transformer模型在处理长文本时一直面临挑战,O(N²)的复杂度以及KV-Cache问题让长文本训练和推理效率大打折扣。 而这次,混元-TurboS巧妙地融合了Mamba和Transformer两种架构的优势:• Mamba的高效长序列处理能力• Transformer强大的上下文理解能力强强联合,效果自然惊艳! 官方数据显示,Hunyuan-TurboS在多个关键benchmark上表现出色:• 数学、推理、对齐能力超越或持平 GPT-4o-0806、DeepSeek-V3 以及各类开源模型。
3/11/2025 9:42:00 AM
AI寒武纪

哥大本科生靠AI横扫硅谷大厂offer,学校震怒!预言码农两年内淘汰准备退学

硅谷大型科技公司FAANG的面试,对不少人来说都是一场噩梦。 结果,哥大的一位大二学生Roy Lee,居然利用AI,顺利斩获了亚马逊、Meta和TikTok的offer,获得了直通梦中情厂的实习机会! 这个消息一出,震惊了不少人。
3/11/2025 9:40:00 AM
新智元

面试官:AI 友好的整洁业务组件架构,到底解决了什么问题?

人工智能的发展速度已经快到让人难以跟上,但真正决定 AI 实用性的,已经不仅仅是最新的模型(如 GPT-5、Gemini 2 或 Claude 4),而是如何让 AI 连接真实世界,理解实时数据,并自主执行任务。 这就是 Anthropic 的 Model Context Protocol(MCP)横空出世的原因——它不仅仅是一个升级,而是一场 AI 交互的革命! 如果你还没听说过 MCP,那么接下来的内容会彻底改变你对 AI 的认知。
3/11/2025 9:19:53 AM
dev

LeCun最新访谈对DeepSeek一顿猛夸,还谈了AI发展需理解物理世界

LeCun最新访谈,对DeepSeek一顿猛夸。 他表示,DeepSeek是一项很出色的成果,它的开源不只是成果创造者受益,全世界都能从中受益。 不过LeCun也指出,金融市场对DeepSeek出现的反应,说什么“哦,现在我们可以更便宜地训练系统了,所以我们不再需要那么多计算机”,这种说法是错误的。
3/11/2025 9:15:00 AM
量子位

Manus被破解了?曝出系统提示词和背后大模型,CTO也回复了

最近几天,一个叫「Manus」的通用 AI Agent 产品刷屏网络。 它能完成复杂的文件处理、数据分析、代码编写等多种任务。 刚上线不久,大家纷纷在线求购邀请码,都想亲自上手一试这个突然火起来的智能体。
3/11/2025 8:42:04 AM
机器之心

人类学的 MCP 彻底颠覆 AI 交互!

人工智能的发展速度已经快到让人难以跟上,但真正决定 AI 实用性的,已经不仅仅是最新的模型(如 GPT-5、Gemini 2 或 Claude 4),而是如何让 AI 连接真实世界,理解实时数据,并自主执行任务。 这就是 Anthropic 的 Model Context Protocol(MCP)横空出世的原因——它不仅仅是一个升级,而是一场 AI 交互的革命! 如果你还没听说过 MCP,那么接下来的内容会彻底改变你对 AI 的认知。
3/11/2025 8:37:17 AM
dev

人加AI:重新定义协作智能时代的工作

人机协作中缺失的中间环节“有一种新兴的协作智能,是现在公司竞争和创新所需要的,”威尔逊在我们的对话中解释道,“这真的是关于深思熟虑且严谨地创造那种结合效应,即人类的聪明才智、人类的创新加上AI系统,能够超越任何一方单独所能做到的。 ”为了说明这一点,威尔逊分享了一个立陶宛研究人员的有趣故事,该研究人员巧妙地重新利用了AlphaFold(一个预测蛋白质结构的AI系统)来解决其创造者未曾设想的复杂蛋白质相互作用问题。 结果呢?这是人类创造力与AI处理能力相结合的科学突破。
3/11/2025 8:30:00 AM
Bernard Marr