理论 - AI在线

Claude 3.7狂飙物理引擎碾压Grok 3，高考数学题被秒成渣！疯狂融资35亿Transformer女神加盟

除了编程界，Claude 3.7 Sonnet的出世，好像并没有在AI圈掀起巨大的风浪。与DeepSeek R1、o3-mini推理模型不同的是，它是世界首个混合推理模型，即「原生」推理。正如Anthropic介绍，「一个模型，两种思考方式」。

由AI驱动的虚假信息攻击或成银行致命威胁

近日，一项英国研究揭示了AI虚假信息的潜在威胁，它可能轻松引发银行客户的恐慌，甚至导致银行挤兑事件。这一发现为金融机构敲响了警钟，提醒它们必须重视并防范这一新型风险。英国研究机构“对虚假信息说不”(Say No To Disinfo)与通信专家公司费尼莫尔·哈珀(Fenimore Harper)合作，模拟了一场由AI驱动的虚假信息宣传活动。

谷歌推出 Gemini Code Assist 个人版编程工具，免费可用

IT之家 2 月 26 日消息，当地时间 25 日，谷歌宣布推出面向个人开发者的免费版本的 Gemini Code Assist，旨在使学生、爱好者、自由职业者和初创公司更容易获得“具有最新 AI 能力”的编程助手。谷歌产品管理高级总监 Ryan J. Salva 表示，现在任何人都可以更方便地学习、创建代码片段、调试和修改现有应用程序，无需在不同窗口之间切换以获取帮助或从不相关的来源复制粘贴信息。

算法系列之搜索算法-深度优先搜索DFS

随着每年"金三银四"招聘季的到来，许多求职者开始积极备战面试。在众多面试环节中，机试往往是不可或缺的一环，而算法能力更是机试考核的重点。为此，我们特别推出算法系列文章，帮助大家系统复习算法知识。

惊艳！百度文心智能体平台，全面接入DeepSeek满血版！

起猛了！突然发现百度搜索也接入满血版 DeepSeek R1 的，直接就在搜索框下面就能看到了，这使用起来无比丝滑。图片我好奇了点进去看了看，界面还是很简洁的，上面是一些辅助提示，下面就是输入框，默认会勾选满血版 DeepSeek R1 ，同样也支持联网搜索。

DeepSeek高阶提示词编写思路-从原则到方法技能

Hello，大家好，我是人月聊IT。在前面文章我曾经谈到过。在我们使用GPT的时候的，当时有一个标准的提示词模版，即：角色：让GPT扮演什么角色技能：GPT需要具备哪些关键的技能目标：输出的目标是什么约束：有哪些工具约束，过程约束等在原有的这个提示词模版中，最难的往往是技能描述。

解决RAG与长上下文模型的困境，你学会了吗？

长文本模型非常适合减少某些需要更长上下文用例的幻觉，但并非所有情况都理想。译自Solving the RAG vs. Long Context Model Dilemma，作者 Kiran Matty。

360联合北大震撼发布！5%参数量逼近Deepseek-R1满血性能

2025年2月24日，由360与北京大学联合研发的中等量级推理模型Tiny-R1-32B-Preview正式亮相，仅以5%参数，逼近DeepSeek-R1-671B的性能。核心突破：小模型，大能量数学领域：以78.1分（AIME 2024评测）逼近原版R1模型（79.8分），远超DeepSeek-R1-Distill-Llama-70B（70.0分）；综合性能：在编程（LiveCodeBench 61.6分）、科学（GPQA-Diamond 65.0分）领域全面领先最佳开源70B模型DeepSeek-R1-Distill-Llama-70B；效率跃迁：仅需5%参数量，性能达原版R1的95%以上，推理成本大幅降低。技术革新：领域专精模型融合研究团队使用「分治-融合」策略：基于DeepSeek-R1生成海量领域数据，分别训练数学、编程、科学三大垂直模型；通过Arcee团队Mergekit工具智能融合，突破单一模型性能上限，实现多任务均衡优化。

科学发现速度提高10倍？统计原则+智能体，斯坦福&哈佛提出自动化假设验证框架POPPER

编辑丨coisini假设验证在科学发现、决策制定和信息获取中具有基础作用。无论是在生物学、经济学还是政策制定中，研究者往往依赖于检验假设来指导其结论。传统上，这一过程涉及设计实验、收集数据并分析结果以确定假设的有效性。

怎么实现一个神经网络？神经网络的组成结构

对学习神经网络技术的人来说，自己设计一个神经网络模型是很多人都想做的事情；也是神经网络技术学习过程中必不可少的一个环节；但是很多人又不知道应该怎么下手。所以今天就介绍一下怎么设计一个神经网络模型。实现一个神经网络很多人认为神经网络复杂的原因是因为没有了解过神经网络的组成结构；因此，就很难弄清楚神经网络模型中每个环节的作用，所以我们就先从神经网络的结构入手。

只给一张图，AI找到对应合适BGM，央音清华等构建全球化音乐信息检索新范式

给AI看一眼图，它就能找到对应音乐。比如一艘海上航行的海盗船，啪一下，就检索到了加勒比海盗经典配乐。音乐信息检索（Music Information Retrieval, MIR）一直面临着多模态数据的复杂性和多语言文本理解的挑战。

AI蛋白质设计前沿教程，AAAI'25三大机构携手4小时全面剖析

精准预测和设计蛋白质的序列、结构及模拟其动态变化，一直是科学界的重大挑战。在即将举行的AAAI 2025会议上，加拿大魁北克省人工智能研究所Mila、美国东北大学和MIT的学者将组织一场主题为“人工智能在蛋白质设计中的应用”的教程。（文末附教程直通车）综观当下，AI与生命科学深度融合背景下，蛋白质研究正经历前所未有的AI驱动变革。

实测Claude 3.7：3200行代码一口气输出，物理规律手拿把掐，弱智吧已失守

Claude 3.7新鲜出炉全网热议，到底有多强？第一波实测来了！简单粗暴总结，它在编程、现实世界任务上，能力爆表。

微软急刹车，被曝撤掉大波数据中心租赁！DeepSeek冲击，算力泡沫要破？

一个月内，微软市值已暴跌了3171亿美元，时间点正好是从DeepSeek在华尔街掀起风暴开始。而就在刚刚，根据Bloomberg透露，作为OpenAI的最大支持者，微软已经取消了部分AI数据中心的租赁。具体来说，微软在美国至少与两家私人运营商取消了协议，总计取消了「数百兆瓦」的租赁，相当于大约两个数据中心。

吴泳铭预告的旗舰推理模型更了！阿里重磅推出QwQ-Max预览版，Agent或成正式版王炸；一手实测R1热门问题，各有千秋！

编辑 | 伊风出品 | 51CTO技术栈（微信号：blog51cto）吴泳铭亲自预告过的，阿里旗舰推理模型，新消息来了。刚刚，它的预览版正式发布和上线体验——就是这个QwQ-Max-Preview！一眼看去，我愿称之为最萌的推理模型，看blog主页的名称，感觉思维链中的模型正在很努力的思考中……图片Qwen Chat 中已经可以体验预览版模型：，发现这里有一个隐藏彩蛋，内容是由QwQ-Max-Preview自己写的，我们可以看到AI做自我介绍时的思维链：首先，该模型属于 Qwen 系列，是基于 Qwen2.5-Max 构建的。

业界首个“混合AI推理模型”！快OpenAI一步Anthropic跳版本发布：Claude3.7 Sonnet可自行决定思考时长

理论