理论 - AI在线

AI时代的数据安全革命：企业智能转型的洁净数据法则

在采访中，Pangea的CEO Oliver Friedrichs深入剖析了企业AI化进程中数据卫生管理的关键作用。随着AI应用处理敏感数据规模呈指数级增长，陈旧的访问控制体系与过时的安全策略正衍生出前所未有的风险。问：数据卫生实践如何与整体网络安全战略协同?企业在整合内部数据与大语言模型(LLM)时，正面临全新的数据隐私挑战。

AI成本革命：DeepSeek-R1与OpenAI的颠覆性突破重构企业智能新范式

AI领域的发展日新月异，如果你跟不上步伐，就会落后。近期的两项进展正在重塑开发者和企业的格局：DeepSeek发布R1模型，以及OpenAI推出新的DeepResearch产品，它们共同重新定义了强大推理模型的成本和可及性，这一点已被广泛报道，然而，较少被讨论的是，它们将如何推动公司采用蒸馏、有监督微调(SFT)、强化学习(RL)和检索增强生成(RAG)等技术，来构建更智能、更专业的AI应用。在DeepSeek惊人成就的初步兴奋感逐渐平息后，开发者和企业决策者需要考虑这对他们意味着什么。

DeepSeek被禁！最高判刑20年，外交部回应！

过去几周，中国人工智能公司DeepSeek的崛起，在全球范围内引发了一场前所未有的争议。这款凭借“低成本、高性能”迅速抢占市场的AI工具，不仅一度超越ChatGPT登顶美国应用下载榜，还导致多国科技股震荡下跌。然而，其“高光时刻”很快被多国的禁令与限制措施打破——美国、意大利、澳大利亚、印度、韩国、日本等国相继以“国家安全”“数据隐私风险”为由，禁止或限制DeepSeek在政府及企业中的使用。

突破“数据再生产陷阱”：从“语言游戏”迈向超人智能

人类文明的演进始终离不开对信息流通方式的改造：从印刷术到电报，再到互联网，每一次交互门槛的下降都可能催生出新的社会与技术浪潮。在当前的人工智能（AI）领域，这种“门槛降低”也正在发生：近期，开源大语言模型 DeepSeek R1 借助强化学习技术，在多个关键指标上接近了商用顶尖模型 OpenAI O1，引发行业热议。为什么这一进展值得关注？

你的提示词根本只是在浪费算力，让deepseek达到最佳效果的三大原则

最近几周自学deepseek原理应用实践，一些成果，和大家分享。与deepseek这类AI对话，为了达到最佳效果，提示词应当遵循哪三大原则？清晰性；结构化；细节化；为什么？

被DeepSeek带火的知识蒸馏，开山之作曾被NeurIPS拒收，Hinton坐镇都没用

DeepSeek带火知识蒸馏，原作者现身爆料：原来一开始就不受待见。称得上是“蒸馏圣经”、由Hinton、Oriol Vinyals、Jeff Dean三位大佬合写的《Distilling the Knowledge in a Neural Network》，当年被NeurIPS 2014拒收。如何评价这篇论文的含金量？

自定义训练的 YOLOv8 模型进行邮票整理

还记得人们过去常常寄信和明信片的日子吗？明信片上通常描绘了你所访问的城市或国家的一些风景如画的景色，但对许多人来说，邮票才是主要的吸引力。它们被视为微型艺术品，被认为是非常值得收藏的。

架构创新×模型创新！清微智能全面适配DeepSeek模型推理和训练

随着大模型技术向多场景渗透，算力需求呈现「大规模、高弹性、低成本」三重挑战。清微智能基于全球领先的可重构计算架构（CGRA）推出可重构算力芯片RPU（Reconfigurable Processing Unit），实现单机高效运行千亿级参数模型推理和训练，以动态硬件重构、全栈优化及高能效比，重新定义国产AI芯片的性价比标杆。新年伊始，DeepSeek的惊艳亮相，不仅在科技圈掀起巨浪，其影响还涉及到经济、社会、政策等多个维度，相关企业迅速跟进。

英伟达联手MIT清北发布SANA 1.5！线性扩散Transformer再刷文生图新SOTA

近年来，文本生成图像的技术不断突破，但随着模型规模的扩大，计算成本也随之急剧上升。为此，英伟达联合MIT、清华、北大等机构的研究人员提出了一种高效可扩展的线性扩散Transformer——SANA，在大幅降低计算需求的情况下，还能保持有竞争力的性能。 SANA1.5在此基础上，聚焦了两个关键问题：线性扩散Transformer的可扩展性如何？

DeepSeek 用的 GRPO 占用大量内存？有人给出了些破解方法

自 DeepSeek-R1 发布以来，群组相对策略优化（GRPO）因其有效性和易于训练而成为大型语言模型强化学习的热门话题。 R1 论文展示了如何使用 GRPO 从遵循 LLM（DeepSeek-v3）的基本指令转变为推理模型（DeepSeek-R1）。 GRPO 是一种在线学习算法（online learning algorithm），它通过使用训练过程中由训练模型自身生成的数据来进行迭代改进。

微软官宣All in智能体，SWE Agent首曝光！奥特曼预警2025编程巨变

奥特曼预言，2025年软件工程将迎来巨变。开年智能体大爆发，AI自动化软件工程已成为不争的事实。就在今天，纳德拉官宣，GitHub Copilot将all-in智能体，微软自主的SWE智能体首次亮相。

DeepSeek R1 集成难题完美解决：Deepseek4j 已开源

一、为什么需要 deepseek4j？ 1.1 现有框架的局限性思维链内容丢失：R1 最核心的推理过程完全被忽略响应模式不兼容：无法处理"思考在前、结论在后"的输出模式参数限制：temperature、top_p 等关键参数设置失效流式处理不完善：用户体验欠佳虽然笔者上篇博客介绍了如何使用 WebFlux 直接调用 DeepSeek API，但这种方式存在一些问题：开发成本高：直接调用 API 或改造现有框架需要处理大量细节，包括请求构建、响应解析、错误处理等。一不做二不休，为了彻底解决这些问题，笔者基于 OpenAI4J[1] 项目的优秀架构，打造了一个专门面向 DeepSeek 的开箱即用方案 DeepSeek4J[2]增强支持 DeepSeek 独有的思维链和账单特性增加 Project Reactor 的全面响应式支持提供集成 Spring Boot Starter，提供自动配置二、核心特性 ✨ 完整保留思维链能力、账单🚀 响应式流式处理🛠 简单优雅的 API 设计📦 开箱即用的 Spring Boot 集成，同时支持 2.x / 3.x💡 内置调试页面🔍 详细的请求响应日志🔧 灵活的代理配置⚡️ 响应式编程支持三、快速开始 3.1 添加依赖复制3.2 配置参数复制3.3 基础使用复制3.4 进阶配置复制

未来教室的变革：大语言模型LLM会取代老师吗？揭秘教育新纪元

大语言模型（LLM）的发展是近年来人工智能领域的重要突破，其背后是深度学习、自然语言处理等技术的快速进步。从早期的简单问答系统到现在能够理解和生成复杂文本的智能模型，大语言模型已经广泛应用于各个领域，包括客服机器人、智能搜索引擎、自动化写作等。随着技术的进步，人们开始探讨这样一个问题：大语言模型是否将在未来取代老师的角色？

突发！o3-mini思维链公开，却被曝光全是「作假」，奥特曼现身解释网友炸锅

OpenAI，真的被DeepSeek逼急了！活久见，就在刚刚，OpenAI把o3-mini的「思维链」公开了。比如问「怎么今天不是星期五啊😅」？

DeepSeek开源Janus-Pro-7B：多模态AI模型性能超越DALL-E 3 和 Stable Diffusion 3!

中国人工智能公司 DeepSeek 的 R1“推理”人工智能已经引起了广泛关注，位居应用商店排行榜首位并改变了股市。随后DeepSeek又宣布开源新一代多模态模型Janus-Pro-7B，该模型在图像生成、视觉问答等任务中全面超越 OpenAI 的 DALL-E 3 和 Stable Diffusion 3，并以“理解-生成双路径”架构和极简部署方案引发AI社区轰动。性能表现：小模型吊打行业巨头Janus-Pro-7B虽仅有70亿参数（约为GPT-4的1/25），却在关键测试中碾压对手：文生图质量：在GenEval测试中以80%准确率击败DALL-E 3（67%）和Stable Diffusion 3（74%）复杂指令理解：在DPG-Bench测试中达84.19%准确率，能精准生成如“山脚下有蓝色湖泊的雪山”等复杂场景多模态问答：视觉问答准确率超越GPT-4V，MMBench测试得分79.2分接近专业分析模型技术突破：像“双面神”分工协作传统模型让同一套视觉编码器既理解图片又生成图片，如同让厨师同时设计菜单和炒菜。

DeepSeek开源多模态模型Janus-Pro的ComfyUI使用教程，文中附模型和工作流下载

理论