理论
LLM推理暴涨,数学逻辑开挂! DeepSeek等华人团队新大招,Ai2大牛狂点赞
如今,DeepSeek团队成员的一举一动,都颇受圈内关注。 近日,来自DeepSeek、上海交通大学、香港科技大学的研究人员推出的全新力作CODEI/O,就获得了Ai2大牛Nathan Lambert的力荐! 论文地址::,非常高兴能看到DeepSeek团队成员撰写的更多论文,而不仅仅是有趣的技术报告。
终于把深度学习中的模型压缩搞懂了!
今天给大家分享几种常见的模型压缩技术。 在深度学习中,模型压缩是减少模型大小、降低计算复杂度,同时尽可能保持模型性能的一类技术。 它在移动端、嵌入式设备和边缘计算等资源受限的环境中尤其重要。
零基础也能看懂的 ChatGPT 等大模型入门解析!
近两年,大语言模型LLM(Large Language Model)越来越受到各行各业的广泛应用及关注。 对于非相关领域研发人员,虽然不需要深入掌握每一个细节,但了解其基本运作原理是必备的技术素养。 本文笔者结合自己的理解,用通俗易懂的语言对复杂的概念进行了总结,与大家分享~一、什么是ChatGPT?
反超DeepSeek!新版GPT-4o登顶竞技场,奥特曼:还会更好
GPT-4o悄悄更新版本,在大模型竞技场超越DeepSeek-R1登上并列第一。 除了数学(第6),还在多个单项上拿下第一:创意写作;编程;指令遵循;长文本查询;多轮对话;先直观看下新版GPT-4o的能力如何,还是以之前DeepSeek-R1和o3-mini都挑战过的一个例子来看。 Prompt:编写一个Python程序,展示一个球在旋转的六边形内弹跳。
解锁IDEA新姿势:DeepSeek带你飞
一、引言在科技飞速发展的当下,人工智能(AI)已如潮水般涌入各个领域,编程界自然也不例外。 从早期简单的代码自动补全,到如今能根据自然语言描述生成复杂代码逻辑,AI 在编程领域的进化可谓日新月异。 它正逐步改变着开发者的工作方式,成为提升开发效率的强大助力。
打不过DeepSeek就加入,最新名单:腾讯文档、百度搜索
“已接入DeepSeek”,这句话的含金量还在持续上升。 微信前脚官宣接入DeepSeek,就在刚刚,腾讯文档也官宣了正式接入DeepSeek-R1满血版:图片除了腾讯系之外,百度搜索官方在昨晚也下场表态:为丰富更多元化的搜索体验,百度搜索将全面接入DeepSeek和文心大模型最新的深度搜索功能。 图片时隔仅11分钟,百度文心智能体平台也官宣了接入DeepSeek的消息:为服务广大开发者朋友们调用各类模型能力创建和调优智能体,文心智能体平台将全面接入DeepSeek。
麻省理工科技评论:2025年AI五大趋势
随着人工智能技术的迅猛发展,对其未来“走向”的准确预测变得尤为复杂。 尽管如此,鉴于人工智能正在深刻地改变着各行各业,持续关注并理解其发展趋势对于科技从业者、研究学者以及行业分析师来说至关重要。 2025年,预计人工智能将在众多领域扮演更加核心的角色,推动生产力提升和行业创新。
Meta首席AI科学家认为当前GenAI和LLM将很快过时
Meta首席人工智能科学家Yann LeCun表示,目前的生成式人工智能(GenAI)和大型语言模型(LLM)范式可能很快就会过时。 他认为,这些系统需要新的突破来理解物理世界并与之互动。 LeCun在达沃斯世界经济论坛上谈到GenAI系统时表示:“没有人会再使用它们,至少不会将其作为人工智能系统的核心组件。
AI大地震!微信百度同日接入DeepSeek,“技术洗牌”后是“流量大迁徙”?
2025年2月16日,中国互联网圈迎来了一场“AI大地震”——微信和百度先后宣布接入DeepSeek。 这可不是普通的“技术升级”,而是AI技术普惠化的一次“超级加速跑”,行业影响重大而深远。 AI从“奢侈品”到“日用品”DeepSeek的低成本 开源特性,简直就是AI界的“共享经济”。
大模型前缀缓存技术,有望将服务成本降低90%
译者 | 核子可乐审校 | 重楼是不是总感觉ChatGPT响应缓慢? 大家可能没有留意,大模型应用程序的提示词重复率高达70%,问天气、问翻译和问节日安排的内容大量出现,且每次都要消耗算力进行处理。 这样的情况在分布式集群的各节点上被无数次放大,白白烧掉宝贵的能源和金钱。
用DeepSeek+Xmind, 3分钟实现万字报告秒变思维导图!
前言你是不是也经常遇到这样的崩溃瞬间? 👉 收到客户发来的万字行业报告,密密麻麻的文字看得眼冒金星。 👉 领导突然甩来一篇调研文档,要求两小时内提炼核心观点。
DeepSeek 背后的技术:GRPO,基于群组采样的高效大语言模型强化学习训练方法详解
强化学习(Reinforcement Learning, RL)已成为提升大型语言模型(Large Language Models, LLMs)推理能力的重要技术手段,特别是在需要复杂推理的任务中。 DeepSeek 团队在 DeepSeek-Math [2] 和 DeepSeek-R1 [3] 模型中的突破性成果,充分展示了强化学习在增强语言模型数学推理和问题解决能力方面的巨大潜力。 这些成果的取得源于一种创新性的强化学习方法——群组相对策略优化(Group Relative Policy Optimization, GRPO)。
DeepSeek-R1下载量超1000万次,成最受欢迎开源大模型!
全球最大开源平台Hugging Face联合创始人Clément Delangue宣布——DeepSeek R1 在发布仅仅几周后,就成为了Hugging Face 平台上有史以来最受欢迎的模型。 现在已有数千个魔改变体模型,下载量超过了1000万次! 开源地址: Face上的数据显示,上个月的下载量是370万次。
微软开源创新框架:可将DeepSeek,变成AI Agent
微软在官网发布了视觉Agent解析框架OmniParser最新版本V2.0,可将DeepSeek-R1、GPT-4o、Qwen-2.5VL等模型,变成可在计算机使用的AI Agent。 与V1版本相比,V2在检测较小的可交互UI元素时准确率更高、推理速度更快,延迟降低了60%。 在高分辨率Agent基准测试ScreenSpot Pro中,V2 GPT-4o的准确率达到了惊人的39.6%,而GPT-4o原始准确率只有0.8%,整体提升非常大。
服务器总是繁忙?DeepSeek-R1本地部署图文版教程来啦
最近一段时间,国产大模型DeepSeek-R1在市场上迅速崛起,成为了众多用户的新宠。 然而,伴随其热度与用户量的急剧攀升,由此导致服务器繁忙的状况频繁出现。 为了摆脱服务器繁忙的困扰,本地部署DeepSeek-R1成为了一个绝佳的解决方案,这不仅减少了对网络连接的依赖,还能增强数据安全性。
Nature:全球博士生数量锐减,钱少、事多、前途迷茫
过去几年,一些国家的博士项目申请人数出现下滑,有专家警告称,这是一个令人担忧的趋势。 从澳大利亚、日本到巴西和英国,高昂的生活成本、微薄的助学金以及毕业后有限的就业前景,正在阻碍人们攻读博士学位。 据经合组织(OECD)巴黎总部项目负责人斯拉里科表示,这些下降的数据应该「敲响警钟」。
微信与百度相继接入DeepSeek,AI技术普惠开启超级加速度
2月16日,腾讯微信和百度相继宣布接入DeepSeek,这一事件标志着中国互联网行业在AI领域的又一次重大突破。 微信作为拥有近14亿月活用户的超级应用,百度作为国内领先的搜索引擎,两者的接入不仅为用户带来了更智能的交互体验,更对整个行业产生了深远影响。 推动AI技术普惠化与应用落地DeepSeek的开源特性使其成为AI技术普惠化的关键力量。
大语言模型的解码策略与关键优化总结
本文系统性地阐述了大型语言模型(Large Language Models, LLMs)中的解码策略技术原理及其实践应用。 通过深入分析各类解码算法的工作机制、性能特征和优化方法,为研究者和工程师提供了全面的技术参考。 主要涵盖贪婪解码、束搜索、采样技术等核心解码方法,以及温度参数、惩罚机制等关键优化手段。