模型

360联合北大震撼发布!5%参数量逼近Deepseek-R1满血性能

2025年2月24日,由360与北京大学联合研发的中等量级推理模型Tiny-R1-32B-Preview正式亮相,仅以5%参数,逼近DeepSeek-R1-671B的性能。 核心突破:小模型,大能量数学领域:以78.1分(AIME 2024评测)逼近原版R1模型(79.8分),远超DeepSeek-R1-Distill-Llama-70B(70.0分);综合性能:在编程(LiveCodeBench 61.6分)、科学(GPQA-Diamond 65.0分)领域全面领先最佳开源70B模型DeepSeek-R1-Distill-Llama-70B;效率跃迁:仅需5%参数量,性能达原版R1的95%以上,推理成本大幅降低。 技术革新:领域专精 模型融合研究团队使用「分治-融合」策略:基于DeepSeek-R1生成海量领域数据,分别训练数学、编程、科学三大垂直模型;通过Arcee团队Mergekit工具智能融合,突破单一模型性能上限,实现多任务均衡优化。

怎么实现一个神经网络?神经网络的组成结构

对学习神经网络技术的人来说,自己设计一个神经网络模型是很多人都想做的事情;也是神经网络技术学习过程中必不可少的一个环节;但是很多人又不知道应该怎么下手。 所以今天就介绍一下怎么设计一个神经网络模型。 实现一个神经网络很多人认为神经网络复杂的原因是因为没有了解过神经网络的组成结构;因此,就很难弄清楚神经网络模型中每个环节的作用,所以我们就先从神经网络的结构入手。

只给一张图,AI找到对应合适BGM,央音清华等构建全球化音乐信息检索新范式

给AI看一眼图,它就能找到对应音乐。 比如一艘海上航行的海盗船,啪一下,就检索到了加勒比海盗经典配乐。 音乐信息检索(Music Information Retrieval, MIR)一直面临着多模态数据的复杂性和多语言文本理解的挑战。

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

Claude 3.7新鲜出炉全网热议,到底有多强? 第一波实测来了! 简单粗暴总结,它在编程、现实世界任务上,能力爆表。

微软急刹车,被曝撤掉大波数据中心租赁!DeepSeek冲击,算力泡沫要破?

一个月内,微软市值已暴跌了3171亿美元,时间点正好是从DeepSeek在华尔街掀起风暴开始。 而就在刚刚,根据Bloomberg透露,作为OpenAI的最大支持者,微软已经取消了部分AI数据中心的租赁。 具体来说,微软在美国至少与两家私人运营商取消了协议,总计取消了「数百兆瓦」的租赁,相当于大约两个数据中心。

苹果计划将谷歌Gemini引入iOS:iOS 18.4测试版泄露第三方AI模型选项

最新消息显示,苹果公司正计划为其海外版iPhone和iPad引入谷歌Gemini模型,进一步扩展其人工智能生态布局。 据悉,苹果在2024年WWDC大会上宣布与OpenAI合作,将ChatGPT集成至iOS18系统,但这并非其为iPhone规划的唯一AI模型。 除了传闻中针对国行iPhone的阿里系模型外,谷歌Gemini也有望成为海外用户的新选择。

LuminaBrush 在图像上绘制照明效果的构建交互式工具

LuminaBrushLuminaBrush 是一个构建交互式工具以在图像上绘制照明效果的项目。 该框架采用两阶段方法:第一阶段将图像转换为“均匀照明”的外观,第二阶段利用用户涂鸦生成照明效果。 相关链接HF 演示:: 目前基于 Flux。

最新!Claude 3.7 Sonnet 即将揭秘:各种关键领域达到顶尖水平

最新消息:亚马逊云服务 (AWS) Bedrock 平台即将迎来 Anthropic 最新的 Claude 3.7 Sonnet 模型。 据可靠消息,这款升级版 Sonnet 3.7 极有可能在 2 月 26 日的亚马逊活动中正式发布。 目前,该模型已在 AWS Bedrock 后台准备就绪,但尚未在前台用户界面中公开显示,处于隐藏状态Claude 3.7 Sonnet 是 Anthropic 公司迄今为止推出的最智能模型。

深夜王炸!刚刚Anthropic发布全球首个混合推理模型与全新代码“神器”:双面王牌组合

刚刚Anthropic公司正式发布了他们最新的AI王牌组合—— Claude 3.7 Sonnet 和 Claude Code! 各种能力超群,只是数学能力还是不及DeepSeek等,感觉Claude所有重点都在代码能力 观看更多转载,深夜王炸! 刚刚Anthropic发布全球首个混合推理模型与全新代码“神器”:双面王牌组合AI寒武纪已关注分享点赞在看已同步到看一看写下你的评论 视频详情 第一时间(熬夜🤣)给大家划个重点Claude 3.7 Sonnet:混合推理架构登场,打造前所未有的智能巅峰!

DeepSeek-R1秘籍轻松迁移,最低只需原始数据0.3%

DeepSeek-R1背后关键——多头潜在注意力机制(MLA),现在也能轻松移植到其他模型了! 而且只需原始数据的0.3%~0.6%。 这项研究由复旦大学、华东师范大学、上海AI Lab等联合提出,复旦教授邱锡鹏(Moss大模型项目负责人)也在作者名单之列。

新型语言模型 Huginn:突破推理界限 无需语言即可“思考”

近日,来自图宾根埃利斯研究所、马里兰大学和劳伦斯利弗莫尔国家实验室的研究团队,开发出名为 Huginn 的新型语言模型,该模型采用递归架构,显著提升了推理能力。 与传统模型不同,Huginn 无需专门的“推理链”训练,便可在神经网络的“潜在空间”内自主推理,再输出结果。 研究团队开发出名为 Huginn 的新型语言模型,该模型采用递归架构,显著提升了推理能力。

官方承认系统「作弊」,世界首个「AI CUDA工程师」翻车?o3-mini 11秒发现bug

近日,获英伟达支持、已获数亿美元风投资金的Sakana AI爆出戏剧性反转。 此前,该公司宣称开发出「AI CUDA工程师」,能将特定模型训练速度提升最高达100倍,引发行业关注。 然而,网友却发现,这个系统根本不管用。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

憋了大半年,Anthropic终于放出大招——首款混合推理模型Claude 3.7 Sonnet重磅登场! 这是Claude系列中,迄今为止最智能的模型,几乎能够及时响应,并进行可扩展的、逐步的思考。 简言之,一个模型,两种思考方式。

全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手

就在昨晚,Anthropic 要发新模型的消息开始在 AI 社区广泛发酵,不过并不是期待中的 Claude 4.0,而是 3.7 Sonnet 版本。 图源:,Anthropic 的新旗舰模型如约而至,正式发布了其迄今为止最智能的模型以及市面上首款混合推理模型 —— Claude 3.7 Sonnet。 Claude 3.7 Sonnet 可以产生近乎即时的响应或者向用户展示扩展的、逐步的思考。

Claude 3.7 Sonnet正式登陆Perplexity Pro:代理工作流与代码生成显著提升

人工智能搜索平台Perplexity宣布,其Pro版本现已整合Anthropic公司最新发布的Claude3.7Sonnet模型。 根据Perplexity官方在X平台上的最新消息,该公司已对这一模型进行了数周的内部测试,结果显示其在代理工作流程和代码生成能力上取得了显著进步。 Perplexity发布推文表示:“Claude3.7Sonnet现已与Perplexity Pro一起提供。

AI编程工具Cursor已集成Claude 3.7 Sonnet推理模型

刚刚,Cursor AI宣布已集成Claude 3.7 Sonnet,并更新了用户界面,使其更加简洁易用。 此外,Cursor还引入了跨聊天对话功能,能够自动总结聊天摘要并继承到新开的聊天窗口中,进一步提升了用户体验。 早些时候,Anthropic公司正式发布其最新推理模型——Claude3.7Sonnet。

Anthropic推出混合推理模型Claude 3.7 Sonnet:能力超DeepSeek

今日,人工智能公司Anthropic宣布正式推出其最新的“混合推理模型”——Claude3.7Sonnet。 这款模型被Anthropic誉为有史以来“最智能”的AI模型,旨在解决更复杂的问题,并在数学和编码等领域展现出超越以往的性能。 据Anthropic公司介绍,Claude3.7Sonnet作为一款“混合型”模型,兼具“推理模式”(能够停下来思考复杂答案)与传统模式(实时生成答案)的能力。

受DeepSeek影响,印度启动重磅AI项目:计划投入2700万美元

在全球 AI 技术竞争愈演愈烈的背景下,印度政府启动了一项名为 BharatGen 的重大人工智能项目。 这一项目获得了科技部的支持,计划投入约235亿卢比(约合2700万美元),旨在构建国家自己的基础 AI 模型,以保障印度的科技自主性。 图源备注:图片由AI生成,图片授权服务商MidjourneyBharatGen 项目的推进并非偶然。