理论
自定义训练的 YOLOv8 模型进行邮票整理
还记得人们过去常常寄信和明信片的日子吗? 明信片上通常描绘了你所访问的城市或国家的一些风景如画的景色,但对许多人来说,邮票才是主要的吸引力。 它们被视为微型艺术品,被认为是非常值得收藏的。
2/7/2025 2:52:11 PM
二旺
架构创新×模型创新!清微智能全面适配DeepSeek模型推理和训练
随着大模型技术向多场景渗透,算力需求呈现「大规模、高弹性、低成本」三重挑战。 清微智能基于全球领先的可重构计算架构(CGRA)推出可重构算力芯片RPU(Reconfigurable Processing Unit),实现单机高效运行千亿级参数模型推理和训练,以动态硬件重构、全栈优化及高能效比,重新定义国产AI芯片的性价比标杆。 新年伊始,DeepSeek的惊艳亮相,不仅在科技圈掀起巨浪,其影响还涉及到经济、社会、政策等多个维度,相关企业迅速跟进。
2/7/2025 2:04:44 PM
新智元
英伟达联手MIT清北发布SANA 1.5!线性扩散Transformer再刷文生图新SOTA
近年来,文本生成图像的技术不断突破,但随着模型规模的扩大,计算成本也随之急剧上升。 为此,英伟达联合MIT、清华、北大等机构的研究人员提出了一种高效可扩展的线性扩散Transformer——SANA,在大幅降低计算需求的情况下,还能保持有竞争力的性能。 SANA1.5在此基础上,聚焦了两个关键问题:线性扩散Transformer的可扩展性如何?
2/7/2025 2:01:20 PM
新智元
DeepSeek 用的 GRPO 占用大量内存?有人给出了些破解方法
自 DeepSeek-R1 发布以来,群组相对策略优化(GRPO)因其有效性和易于训练而成为大型语言模型强化学习的热门话题。 R1 论文展示了如何使用 GRPO 从遵循 LLM(DeepSeek-v3)的基本指令转变为推理模型(DeepSeek-R1)。 GRPO 是一种在线学习算法(online learning algorithm),它通过使用训练过程中由训练模型自身生成的数据来进行迭代改进。
2/7/2025 1:45:58 PM
机器之心
微软官宣All in智能体,SWE Agent首曝光!奥特曼预警2025编程巨变
奥特曼预言,2025年软件工程将迎来巨变。 开年智能体大爆发,AI自动化软件工程已成为不争的事实。 就在今天,纳德拉官宣,GitHub Copilot将all-in智能体,微软自主的SWE智能体首次亮相。
2/7/2025 1:26:13 PM
新智元
DeepSeek R1 集成难题完美解决:Deepseek4j 已开源
一、为什么需要 deepseek4j? 1.1 现有框架的局限性思维链内容丢失:R1 最核心的推理过程完全被忽略响应模式不兼容:无法处理"思考在前、结论在后"的输出模式参数限制:temperature、top_p 等关键参数设置失效流式处理不完善:用户体验欠佳虽然笔者上篇博客介绍了如何使用 WebFlux 直接调用 DeepSeek API,但这种方式存在一些问题:开发成本高:直接调用 API 或改造现有框架需要处理大量细节,包括请求构建、响应解析、错误处理等。 一不做二不休,为了彻底解决这些问题,笔者基于 OpenAI4J[1] 项目的优秀架构,打造了一个专门面向 DeepSeek 的开箱即用方案 DeepSeek4J[2]增强支持 DeepSeek 独有的思维链和账单特性增加 Project Reactor 的全面响应式支持提供集成 Spring Boot Starter,提供自动配置 二、核心特性 ✨ 完整保留思维链能力、账单🚀 响应式流式处理🛠 简单优雅的 API 设计📦 开箱即用的 Spring Boot 集成,同时支持 2.x / 3.x💡 内置调试页面🔍 详细的请求响应日志🔧 灵活的代理配置⚡️ 响应式编程支持 三、快速开始 3.1 添加依赖复制3.2 配置参数复制3.3 基础使用复制3.4 进阶配置复制
2/7/2025 1:10:06 PM
冷冷
未来教室的变革:大语言模型LLM会取代老师吗?揭秘教育新纪元
大语言模型(LLM)的发展是近年来人工智能领域的重要突破,其背后是深度学习、自然语言处理等技术的快速进步。 从早期的简单问答系统到现在能够理解和生成复杂文本的智能模型,大语言模型已经广泛应用于各个领域,包括客服机器人、智能搜索引擎、自动化写作等。 随着技术的进步,人们开始探讨这样一个问题:大语言模型是否将在未来取代老师的角色?
2/7/2025 12:54:57 PM
tune
突发!o3-mini思维链公开,却被曝光全是「作假」,奥特曼现身解释网友炸锅
OpenAI,真的被DeepSeek逼急了! 活久见,就在刚刚,OpenAI把o3-mini的「思维链」公开了。 比如问「怎么今天不是星期五啊😅」?
2/7/2025 11:20:50 AM
新智元
DeepSeek开源Janus-Pro-7B:多模态AI模型性能超越DALL-E 3 和 Stable Diffusion 3!
中国人工智能公司 DeepSeek 的 R1“推理”人工智能已经引起了广泛关注,位居应用商店排行榜首位并改变了股市。 随后DeepSeek又宣布开源新一代多模态模型Janus-Pro-7B,该模型在图像生成、视觉问答等任务中全面超越 OpenAI 的 DALL-E 3 和 Stable Diffusion 3,并以“理解-生成双路径”架构和极简部署方案引发AI社区轰动。 性能表现:小模型吊打行业巨头Janus-Pro-7B虽仅有70亿参数(约为GPT-4的1/25),却在关键测试中碾压对手:文生图质量:在GenEval测试中以80%准确率击败DALL-E 3(67%)和Stable Diffusion 3(74%)复杂指令理解:在DPG-Bench测试中达84.19%准确率,能精准生成如“山脚下有蓝色湖泊的雪山”等复杂场景多模态问答:视觉问答准确率超越GPT-4V,MMBench测试得分79.2分接近专业分析模型技术突破:像“双面神”分工协作传统模型让同一套视觉编码器既理解图片又生成图片,如同让厨师同时设计菜单和炒菜。
2/7/2025 11:00:00 AM
AIGC Studio
DeepSeek开源多模态模型Janus-Pro的ComfyUI使用教程,文中附模型和工作流下载
今天给大家介绍DeepSeek发布的Janus-Pro模型的ComfyUI实践教程,包含ComfyUI安装,模型下载,工作流下载等,欢迎大家一起交流学习,也欢迎添加公众号小助手加入读者交流群,一起探索AIGC好玩的应用。 Janus Pro 是 DeepSeek 于 2025年1月27日开源的多模态模型,同时具有图像理解和生成的能力。
2/7/2025 10:21:42 AM
AIGC Studio
轨迹预测新基准!清华开源Ultra-AV:统一自动驾驶纵向轨迹数据集
摘要自动驾驶车辆在交通运输领域展现出巨大潜力,而理解其纵向驾驶行为是实现安全高效自动驾驶的关键。 现有的开源AV轨迹数据集在数据精炼、可靠性和完整性方面存在不足,从而限制了有效的性能度量分析和模型开发。 本研究针对这些挑战,构建了一个(Ultra-AV),用于分析自动驾驶汽车的微观纵向驾驶行为。
2/7/2025 10:17:55 AM
Hang Zhou等
OpenAI联创Schulman闪电跳槽!从Anthropic转投Murati新公司
跑去隔壁Anthropic的OpenAI联创John Schulman,又又又跳槽了。 《财富》爆料,Schulman新的去向,是加入原OpenAI首席技术官Mira Murati的新创业公司。 此时距离他转投Anthropic,仅仅不到半年。
2/7/2025 10:13:16 AM
量子位
零样本 | MusicMagus:基于扩散模型的零样本文本驱动音乐编辑新方案
一眼概览MusicMagus 提出了一种基于扩散模型的零样本文本到音乐编辑方法,可在不额外训练的情况下,通过文本编辑修改音乐的风格、音色和乐器,同时保持其他属性不变。 实验表明,该方法在风格转换和音色转换方面优于现有零样本方法,并在某些任务上超越监督学习方法。 核心问题当前的文本到音乐生成模型已取得长足进展,但音乐创作往往需要反复修改,而如何在保持音乐整体结构的同时,精准编辑特定属性仍然是个挑战。
2/7/2025 10:10:05 AM
萍哥学AI
OpenAI突然公开o3思维链!网友:让我们谢谢DeepSeek
刚刚,OpenAI把o3-mini的推理思维链公开了。 从今日起,免费用户和付费用户都可以看到模型的思维过程,OpenAI终于Open一回。 图片评论区网友纷纷:让我们谢谢DeepSeek。
2/7/2025 9:05:36 AM
817样本激发7倍推理性能:上交大「少即是多」定律挑战RL Scaling范式
在追求人工智能极限的道路上,"更大即更强" 似乎已成为共识。 特别是在数学推理这一被视为 AI 终极挑战的领域,业界普遍认为需要海量数据和复杂的强化学习才能获得突破。 然而,来自上海交通大学的最新研究却给出了一个令人震惊的答案:仅需 817 条精心设计的样本,就能让模型在数学竞赛级别的题目上超越当前许多最先进模型。
2/7/2025 9:00:00 AM
机器之心
基于 Ray 的融合计算引擎在生命科学领域的应用
一、从 2024 年诺贝尔化学奖谈起2024 年诺贝尔化学奖得主都不是来自化学专业。 其中 David Baker 从事多年蛋白质设计研究,包括一些模型和传统生物信息工具,类似于现在的生成式场景。 另外两位得主来自谷歌旗下的 DeepMind 团队,该团队主要专注于蛋白质生成领域,其另一重要成就是之前在围棋比赛中战胜人类的 AlphaGo。
2/7/2025 8:50:47 AM
饶星
基于Langbase Memory Agents将任意LLM转为 可对话式AI文档助手
译者 | 刘涛审校 | 重楼在 2025 年当下,大语言模型(LLM)依旧无法获取用户的私有数据。 当用户向其询问某些与个人相关的问题时,大语言模型要么凭借推测进行回应,要么给出错误的解答。 这体现了大语言模型存在的固有局限性——它们仅基于公开信息进行训练,无法获取用户的私有上下文信息。
2/7/2025 8:44:46 AM
刘涛
从某个角度看,Deepseek之于AI与当年Oracle之于信息化的意义是相同的
春节前这段时间里最热的莫过于DEEPSEEK,我因为家中老人住院,春节前后都泡在医院里。 无聊的时候只能看看头条消磨时光。 最近这段时间,我的头条推送几乎被DS占据了。
2/7/2025 8:32:56 AM
白鳝
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
模态
字节跳动
Claude
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
科技
亚马逊
智能体
DeepMind
特斯拉