理论

自定义训练的 YOLOv8 模型进行邮票整理

还记得人们过去常常寄信和明信片的日子吗？明信片上通常描绘了你所访问的城市或国家的一些风景如画的景色，但对许多人来说，邮票才是主要的吸引力。它们被视为微型艺术品，被认为是非常值得收藏的。

2/7/2025 2:52:11 PM

二旺

架构创新×模型创新！清微智能全面适配DeepSeek模型推理和训练

随着大模型技术向多场景渗透，算力需求呈现「大规模、高弹性、低成本」三重挑战。清微智能基于全球领先的可重构计算架构（CGRA）推出可重构算力芯片RPU（Reconfigurable Processing Unit），实现单机高效运行千亿级参数模型推理和训练，以动态硬件重构、全栈优化及高能效比，重新定义国产AI芯片的性价比标杆。新年伊始，DeepSeek的惊艳亮相，不仅在科技圈掀起巨浪，其影响还涉及到经济、社会、政策等多个维度，相关企业迅速跟进。

2/7/2025 2:04:44 PM

新智元

英伟达联手MIT清北发布SANA 1.5！线性扩散Transformer再刷文生图新SOTA

近年来，文本生成图像的技术不断突破，但随着模型规模的扩大，计算成本也随之急剧上升。为此，英伟达联合MIT、清华、北大等机构的研究人员提出了一种高效可扩展的线性扩散Transformer——SANA，在大幅降低计算需求的情况下，还能保持有竞争力的性能。 SANA1.5在此基础上，聚焦了两个关键问题：线性扩散Transformer的可扩展性如何？

2/7/2025 2:01:20 PM

新智元

DeepSeek 用的 GRPO 占用大量内存？有人给出了些破解方法

自 DeepSeek-R1 发布以来，群组相对策略优化（GRPO）因其有效性和易于训练而成为大型语言模型强化学习的热门话题。 R1 论文展示了如何使用 GRPO 从遵循 LLM（DeepSeek-v3）的基本指令转变为推理模型（DeepSeek-R1）。 GRPO 是一种在线学习算法（online learning algorithm），它通过使用训练过程中由训练模型自身生成的数据来进行迭代改进。

2/7/2025 1:45:58 PM

机器之心

微软官宣All in智能体，SWE Agent首曝光！奥特曼预警2025编程巨变

奥特曼预言，2025年软件工程将迎来巨变。开年智能体大爆发，AI自动化软件工程已成为不争的事实。就在今天，纳德拉官宣，GitHub Copilot将all-in智能体，微软自主的SWE智能体首次亮相。

2/7/2025 1:26:13 PM

新智元

DeepSeek R1 集成难题完美解决：Deepseek4j 已开源

一、为什么需要 deepseek4j？ 1.1 现有框架的局限性思维链内容丢失：R1 最核心的推理过程完全被忽略响应模式不兼容：无法处理"思考在前、结论在后"的输出模式参数限制：temperature、top_p 等关键参数设置失效流式处理不完善：用户体验欠佳虽然笔者上篇博客介绍了如何使用 WebFlux 直接调用 DeepSeek API，但这种方式存在一些问题：开发成本高：直接调用 API 或改造现有框架需要处理大量细节，包括请求构建、响应解析、错误处理等。一不做二不休，为了彻底解决这些问题，笔者基于 OpenAI4J[1] 项目的优秀架构，打造了一个专门面向 DeepSeek 的开箱即用方案 DeepSeek4J[2]增强支持 DeepSeek 独有的思维链和账单特性增加 Project Reactor 的全面响应式支持提供集成 Spring Boot Starter，提供自动配置二、核心特性 ✨ 完整保留思维链能力、账单🚀 响应式流式处理🛠 简单优雅的 API 设计📦 开箱即用的 Spring Boot 集成，同时支持 2.x / 3.x💡 内置调试页面🔍 详细的请求响应日志🔧 灵活的代理配置⚡️ 响应式编程支持三、快速开始 3.1 添加依赖复制3.2 配置参数复制3.3 基础使用复制3.4 进阶配置复制

2/7/2025 1:10:06 PM

冷冷

未来教室的变革：大语言模型LLM会取代老师吗？揭秘教育新纪元

大语言模型（LLM）的发展是近年来人工智能领域的重要突破，其背后是深度学习、自然语言处理等技术的快速进步。从早期的简单问答系统到现在能够理解和生成复杂文本的智能模型，大语言模型已经广泛应用于各个领域，包括客服机器人、智能搜索引擎、自动化写作等。随着技术的进步，人们开始探讨这样一个问题：大语言模型是否将在未来取代老师的角色？

2/7/2025 12:54:57 PM

tune

突发！o3-mini思维链公开，却被曝光全是「作假」，奥特曼现身解释网友炸锅

OpenAI，真的被DeepSeek逼急了！活久见，就在刚刚，OpenAI把o3-mini的「思维链」公开了。比如问「怎么今天不是星期五啊😅」？

2/7/2025 11:20:50 AM

新智元

DeepSeek开源Janus-Pro-7B：多模态AI模型性能超越DALL-E 3 和 Stable Diffusion 3!

中国人工智能公司 DeepSeek 的 R1“推理”人工智能已经引起了广泛关注，位居应用商店排行榜首位并改变了股市。随后DeepSeek又宣布开源新一代多模态模型Janus-Pro-7B，该模型在图像生成、视觉问答等任务中全面超越 OpenAI 的 DALL-E 3 和 Stable Diffusion 3，并以“理解-生成双路径”架构和极简部署方案引发AI社区轰动。性能表现：小模型吊打行业巨头Janus-Pro-7B虽仅有70亿参数（约为GPT-4的1/25），却在关键测试中碾压对手：文生图质量：在GenEval测试中以80%准确率击败DALL-E 3（67%）和Stable Diffusion 3（74%）复杂指令理解：在DPG-Bench测试中达84.19%准确率，能精准生成如“山脚下有蓝色湖泊的雪山”等复杂场景多模态问答：视觉问答准确率超越GPT-4V，MMBench测试得分79.2分接近专业分析模型技术突破：像“双面神”分工协作传统模型让同一套视觉编码器既理解图片又生成图片，如同让厨师同时设计菜单和炒菜。

2/7/2025 11:00:00 AM

AIGC Studio

DeepSeek开源多模态模型Janus-Pro的ComfyUI使用教程，文中附模型和工作流下载

今天给大家介绍DeepSeek发布的Janus-Pro模型的ComfyUI实践教程，包含ComfyUI安装，模型下载，工作流下载等，欢迎大家一起交流学习，也欢迎添加公众号小助手加入读者交流群，一起探索AIGC好玩的应用。 Janus Pro 是 DeepSeek 于 2025年1月27日开源的多模态模型，同时具有图像理解和生成的能力。

2/7/2025 10:21:42 AM

AIGC Studio

轨迹预测新基准！清华开源Ultra-AV：统一自动驾驶纵向轨迹数据集

摘要自动驾驶车辆在交通运输领域展现出巨大潜力，而理解其纵向驾驶行为是实现安全高效自动驾驶的关键。现有的开源AV轨迹数据集在数据精炼、可靠性和完整性方面存在不足，从而限制了有效的性能度量分析和模型开发。本研究针对这些挑战，构建了一个（Ultra-AV），用于分析自动驾驶汽车的微观纵向驾驶行为。

2/7/2025 10:17:55 AM

Hang Zhou等

OpenAI联创Schulman闪电跳槽！从Anthropic转投Murati新公司

跑去隔壁Anthropic的OpenAI联创John Schulman，又又又跳槽了。《财富》爆料，Schulman新的去向，是加入原OpenAI首席技术官Mira Murati的新创业公司。此时距离他转投Anthropic，仅仅不到半年。

2/7/2025 10:13:16 AM

量子位

零样本 | MusicMagus：基于扩散模型的零样本文本驱动音乐编辑新方案

一眼概览MusicMagus 提出了一种基于扩散模型的零样本文本到音乐编辑方法，可在不额外训练的情况下，通过文本编辑修改音乐的风格、音色和乐器，同时保持其他属性不变。实验表明，该方法在风格转换和音色转换方面优于现有零样本方法，并在某些任务上超越监督学习方法。核心问题当前的文本到音乐生成模型已取得长足进展，但音乐创作往往需要反复修改，而如何在保持音乐整体结构的同时，精准编辑特定属性仍然是个挑战。

2/7/2025 10:10:05 AM

萍哥学AI

OpenAI突然公开o3思维链！网友：让我们谢谢DeepSeek

刚刚，OpenAI把o3-mini的推理思维链公开了。从今日起，免费用户和付费用户都可以看到模型的思维过程，OpenAI终于Open一回。图片评论区网友纷纷：让我们谢谢DeepSeek。

2/7/2025 9:05:36 AM

817样本激发7倍推理性能：上交大「少即是多」定律挑战RL Scaling范式

在追求人工智能极限的道路上，"更大即更强" 似乎已成为共识。特别是在数学推理这一被视为 AI 终极挑战的领域，业界普遍认为需要海量数据和复杂的强化学习才能获得突破。然而，来自上海交通大学的最新研究却给出了一个令人震惊的答案：仅需 817 条精心设计的样本，就能让模型在数学竞赛级别的题目上超越当前许多最先进模型。

2/7/2025 9:00:00 AM

机器之心

基于 Ray 的融合计算引擎在生命科学领域的应用

一、从 2024 年诺贝尔化学奖谈起2024 年诺贝尔化学奖得主都不是来自化学专业。其中 David Baker 从事多年蛋白质设计研究，包括一些模型和传统生物信息工具，类似于现在的生成式场景。另外两位得主来自谷歌旗下的 DeepMind 团队，该团队主要专注于蛋白质生成领域，其另一重要成就是之前在围棋比赛中战胜人类的 AlphaGo。

2/7/2025 8:50:47 AM

饶星