AI在线 AI在线

理论

自定义训练的 YOLOv8 模型进行邮票整理

还记得人们过去常常寄信和明信片的日子吗? 明信片上通常描绘了你所访问的城市或国家的一些风景如画的景色,但对许多人来说,邮票才是主要的吸引力。 它们被视为微型艺术品,被认为是非常值得收藏的。
2/7/2025 2:52:11 PM
二旺

架构创新×模型创新!清微智能全面适配DeepSeek模型推理和训练

随着大模型技术向多场景渗透,算力需求呈现「大规模、高弹性、低成本」三重挑战。 清微智能基于全球领先的可重构计算架构(CGRA)推出可重构算力芯片RPU(Reconfigurable Processing Unit),实现单机高效运行千亿级参数模型推理和训练,以动态硬件重构、全栈优化及高能效比,重新定义国产AI芯片的性价比标杆。 新年伊始,DeepSeek的惊艳亮相,不仅在科技圈掀起巨浪,其影响还涉及到经济、社会、政策等多个维度,相关企业迅速跟进。
2/7/2025 2:04:44 PM
新智元

英伟达联手MIT清北发布SANA 1.5!线性扩散Transformer再刷文生图新SOTA

近年来,文本生成图像的技术不断突破,但随着模型规模的扩大,计算成本也随之急剧上升。 为此,英伟达联合MIT、清华、北大等机构的研究人员提出了一种高效可扩展的线性扩散Transformer——SANA,在大幅降低计算需求的情况下,还能保持有竞争力的性能。 SANA1.5在此基础上,聚焦了两个关键问题:线性扩散Transformer的可扩展性如何?
2/7/2025 2:01:20 PM
新智元

DeepSeek 用的 GRPO 占用大量内存?有人给出了些破解方法

自 DeepSeek-R1 发布以来,群组相对策略优化(GRPO)因其有效性和易于训练而成为大型语言模型强化学习的热门话题。 R1 论文展示了如何使用 GRPO 从遵循 LLM(DeepSeek-v3)的基本指令转变为推理模型(DeepSeek-R1)。 GRPO 是一种在线学习算法(online learning algorithm),它通过使用训练过程中由训练模型自身生成的数据来进行迭代改进。
2/7/2025 1:45:58 PM
机器之心

微软官宣All in智能体,SWE Agent首曝光!奥特曼预警2025编程巨变

奥特曼预言,2025年软件工程将迎来巨变。 开年智能体大爆发,AI自动化软件工程已成为不争的事实。 就在今天,纳德拉官宣,GitHub Copilot将all-in智能体,微软自主的SWE智能体首次亮相。
2/7/2025 1:26:13 PM
新智元

DeepSeek R1 集成难题完美解决:Deepseek4j 已开源

一、为什么需要 deepseek4j? 1.1 现有框架的局限性思维链内容丢失:R1 最核心的推理过程完全被忽略响应模式不兼容:无法处理"思考在前、结论在后"的输出模式参数限制:temperature、top_p 等关键参数设置失效流式处理不完善:用户体验欠佳虽然笔者上篇博客介绍了如何使用 WebFlux 直接调用 DeepSeek API,但这种方式存在一些问题:开发成本高:直接调用 API 或改造现有框架需要处理大量细节,包括请求构建、响应解析、错误处理等。 一不做二不休,为了彻底解决这些问题,笔者基于 OpenAI4J[1] 项目的优秀架构,打造了一个专门面向 DeepSeek 的开箱即用方案 DeepSeek4J[2]增强支持 DeepSeek 独有的思维链和账单特性增加 Project Reactor 的全面响应式支持提供集成 Spring Boot Starter,提供自动配置 二、核心特性 ✨ 完整保留思维链能力、账单🚀 响应式流式处理🛠 简单优雅的 API 设计📦 开箱即用的 Spring Boot 集成,同时支持 2.x / 3.x💡 内置调试页面🔍 详细的请求响应日志🔧 灵活的代理配置⚡️ 响应式编程支持 三、快速开始 3.1 添加依赖复制3.2 配置参数复制3.3 基础使用复制3.4 进阶配置复制
2/7/2025 1:10:06 PM
冷冷

未来教室的变革:大语言模型LLM会取代老师吗?揭秘教育新纪元

大语言模型(LLM)的发展是近年来人工智能领域的重要突破,其背后是深度学习、自然语言处理等技术的快速进步。 从早期的简单问答系统到现在能够理解和生成复杂文本的智能模型,大语言模型已经广泛应用于各个领域,包括客服机器人、智能搜索引擎、自动化写作等。 随着技术的进步,人们开始探讨这样一个问题:大语言模型是否将在未来取代老师的角色?
2/7/2025 12:54:57 PM
tune

突发!o3-mini思维链公开,却被曝光全是「作假」,奥特曼现身解释网友炸锅

OpenAI,真的被DeepSeek逼急了! 活久见,就在刚刚,OpenAI把o3-mini的「思维链」公开了。 比如问「怎么今天不是星期五啊😅」?
2/7/2025 11:20:50 AM
新智元

DeepSeek开源Janus-Pro-7B:多模态AI模型性能超越DALL-E 3 和 Stable Diffusion 3!

中国人工智能公司 DeepSeek 的 R1“推理”人工智能已经引起了广泛关注,位居应用商店排行榜首位并改变了股市。 随后DeepSeek又宣布开源新一代多模态模型Janus-Pro-7B,该模型在图像生成、视觉问答等任务中全面超越 OpenAI 的 DALL-E 3 和 Stable Diffusion 3,并以“理解-生成双路径”架构和极简部署方案引发AI社区轰动。 性能表现:小模型吊打行业巨头Janus-Pro-7B虽仅有70亿参数(约为GPT-4的1/25),却在关键测试中碾压对手:文生图质量:在GenEval测试中以80%准确率击败DALL-E 3(67%)和Stable Diffusion 3(74%)复杂指令理解:在DPG-Bench测试中达84.19%准确率,能精准生成如“山脚下有蓝色湖泊的雪山”等复杂场景多模态问答:视觉问答准确率超越GPT-4V,MMBench测试得分79.2分接近专业分析模型技术突破:像“双面神”分工协作传统模型让同一套视觉编码器既理解图片又生成图片,如同让厨师同时设计菜单和炒菜。
2/7/2025 11:00:00 AM
AIGC Studio

DeepSeek开源多模态模型Janus-Pro的ComfyUI使用教程,文中附模型和工作流下载

今天给大家介绍DeepSeek发布的Janus-Pro模型的ComfyUI实践教程,包含ComfyUI安装,模型下载,工作流下载等,欢迎大家一起交流学习,也欢迎添加公众号小助手加入读者交流群,一起探索AIGC好玩的应用。 Janus Pro 是 DeepSeek 于 2025年1月27日开源的多模态模型,同时具有图像理解和生成的能力。
2/7/2025 10:21:42 AM
AIGC Studio

轨迹预测新基准!清华开源Ultra-AV:统一自动驾驶纵向轨迹数据集

摘要自动驾驶车辆在交通运输领域展现出巨大潜力,而理解其纵向驾驶行为是实现安全高效自动驾驶的关键。 现有的开源AV轨迹数据集在数据精炼、可靠性和完整性方面存在不足,从而限制了有效的性能度量分析和模型开发。 本研究针对这些挑战,构建了一个(Ultra-AV),用于分析自动驾驶汽车的微观纵向驾驶行为。
2/7/2025 10:17:55 AM
Hang Zhou等

OpenAI联创Schulman闪电跳槽!从Anthropic转投Murati新公司

跑去隔壁Anthropic的OpenAI联创John Schulman,又又又跳槽了。 《财富》爆料,Schulman新的去向,是加入原OpenAI首席技术官Mira Murati的新创业公司。 此时距离他转投Anthropic,仅仅不到半年。
2/7/2025 10:13:16 AM
量子位

零样本 | MusicMagus:基于扩散模型的零样本文本驱动音乐编辑新方案

一眼概览MusicMagus 提出了一种基于扩散模型的零样本文本到音乐编辑方法,可在不额外训练的情况下,通过文本编辑修改音乐的风格、音色和乐器,同时保持其他属性不变。 实验表明,该方法在风格转换和音色转换方面优于现有零样本方法,并在某些任务上超越监督学习方法。 核心问题当前的文本到音乐生成模型已取得长足进展,但音乐创作往往需要反复修改,而如何在保持音乐整体结构的同时,精准编辑特定属性仍然是个挑战。
2/7/2025 10:10:05 AM
萍哥学AI

OpenAI突然公开o3思维链!网友:让我们谢谢DeepSeek

刚刚,OpenAI把o3-mini的推理思维链公开了。 从今日起,免费用户和付费用户都可以看到模型的思维过程,OpenAI终于Open一回。 图片评论区网友纷纷:让我们谢谢DeepSeek。
2/7/2025 9:05:36 AM

817样本激发7倍推理性能:上交大「少即是多」定律挑战RL Scaling范式

在追求人工智能极限的道路上,"更大即更强" 似乎已成为共识。 特别是在数学推理这一被视为 AI 终极挑战的领域,业界普遍认为需要海量数据和复杂的强化学习才能获得突破。 然而,来自上海交通大学的最新研究却给出了一个令人震惊的答案:仅需 817 条精心设计的样本,就能让模型在数学竞赛级别的题目上超越当前许多最先进模型。
2/7/2025 9:00:00 AM
机器之心

基于 Ray 的融合计算引擎在生命科学领域的应用

一、从 2024 年诺贝尔化学奖谈起2024 年诺贝尔化学奖得主都不是来自化学专业。 其中 David Baker 从事多年蛋白质设计研究,包括一些模型和传统生物信息工具,类似于现在的生成式场景。 另外两位得主来自谷歌旗下的 DeepMind 团队,该团队主要专注于蛋白质生成领域,其另一重要成就是之前在围棋比赛中战胜人类的 AlphaGo。
2/7/2025 8:50:47 AM
饶星

基于Langbase Memory Agents将任意LLM转为 可对话式AI文档助手

译者 | 刘涛审校 | 重楼在 2025 年当下,大语言模型(LLM)依旧无法获取用户的私有数据。 当用户向其询问某些与个人相关的问题时,大语言模型要么凭借推测进行回应,要么给出错误的解答。 这体现了大语言模型存在的固有局限性——它们仅基于公开信息进行训练,无法获取用户的私有上下文信息。
2/7/2025 8:44:46 AM
刘涛

从某个角度看,Deepseek之于AI与当年Oracle之于信息化的意义是相同的

春节前这段时间里最热的莫过于DEEPSEEK,我因为家中老人住院,春节前后都泡在医院里。 无聊的时候只能看看头条消磨时光。 最近这段时间,我的头条推送几乎被DS占据了。
2/7/2025 8:32:56 AM
白鳝