模型

1行代码改进大模型训练，Llama训练速度提升至1.47倍，全华人团队出品
只要改一行代码，就能让大模型训练效率提升至1.47倍。拥有得州大学奥斯汀分校背景四名华人学者，提出了大模型训练优化器Cautious Optimizers。在提速的同时，Cautious能够保证训练效果不出现损失，而且语言和视觉模型都适用。
理论
- 977
- 0
量子位11月27日
遗憾不？原来百度2017年就研究过Scaling Law，连Anthropic CEO灵感都来自百度
在追求 AGI 的道路上，Scaling Law 是绕不开的一环。如果 Scaling Law 撞到了天花板，扩大模型规模，增加算力不能大幅提升模型的能力，那么就需要探索新的架构创新、算法优化或跨领域的技术突破。作为一个学术概念，Scaling Law 为人所熟知，通常归功于 OpenAI 在 2020 年发的这篇论文：论文标题：Scaling Laws for Neural Language…
理论
- 982
- 0
机器之心11月27日
Anthropic 公布 Model Context Protocol 开源协议，利用统一接口“一统 AI 数据库”
Claude AI 开发商 Anthropic 于 11 月 25 日宣布了一项名为 Model Context Protocol 的开源协议，该协议号称是为业界 AI 助理与模型数据库提供一套标准化接口，允许各大助理通过单一协议访问各种数据源，从而加速模型响应速度与生成质量。
应用
- 984
- 0
漾仔11月26日
超越GPT-4o！开源科研神器登场，4500万篇论文检索增强生成靠谱回答
只需几秒钟，开源模型检索4500篇论文，比GPT-4o还靠谱！这就是由华盛顿大学和艾伦人工智能研究所（Ai2）打造的最新模型OpenScholar。它还是首个从论文到数据集、模型检查点都完全开源的科研助手模型。
理论
- 975
- 0
量子位11月26日
吴恩达开源大模型套件：11个模型平台一种方式调用，已获星标超1.2K
吴恩达发布的开源大模型套件aisuite，不到半天就斩获了1200 星标。它把11家知名大模型平台集中到了一起，统一了接口，可以用相同的方式调用不同模型。切换模型时，只需要改动一个字符串，不用在不同的API之间摸不着头脑了。
理论
- 976
- 0
量子位11月26日
UC伯克利：给大模型测MBTI，Llama更敢说但GPT-4像理工男
如果你经常在不同大模型之间来回切换，或许会发现不同模型的回复语气有细微差异，如同有不同的性格。那么，LLM究竟有没有「性格」这种维度的特征？最近加州大学伯克利分校发表的新研究VibeCheck就证实了这种推测。
理论
- 980
- 0
新智元11月26日
AI视频两巨头开战！Runway秒生现实大片，Luma动嘴创作电影
几乎同一时间，AI视频再迎来两大重磅更新，这一领域果然是卷到冒烟了。 Runway刚放出图像生成基础模型Frames，让AI生图的质量又提升了一大截。紧接着还不到半小时，另一巨头Luma也出手了！
理论
- 972
- 0
新智元11月26日
炸裂！Anthropic 重磅开源「模型上下文协议」MCP，LLM 应用要变天, AGI真的近了
各位大佬，激动人心的时刻到啦！ Anthropic 开源了一个革命性的新协议——MCP（模型上下文协议），有望彻底解决 LLM 应用连接数据难的痛点！它的目标是让前沿模型生成更好、更相关的响应。
理论
- 980
- 0
AI寒武纪11月26日
机器学习|从0开始大模型之模型DPO训练
1、为什么需要DPO Rafailov等人在2023年发表了一篇论文《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》，该论文提出了一种新的训练方法，称为直接偏好优化（DPO），该论文介绍：复制由此可见，DPO 主要解决RLHF不稳定的问题，直接使用人类偏好数据训练模型。 2、DPO的训练…
理论
- 997
- 0
周末程序猿11月26日
扩散模型=进化算法！生物学大佬用数学揭示本质
扩散模型居然就是生物的进化算法！这个结论来自「新常春藤」塔夫茨大学（Tufts University）于近日发表的一项研究：论文地址： Levin，博士毕业于哈佛大学，目前担任塔夫茨大学Allen Discovery Center主任。 Michael Levin长期从事生物电、人工生命和许多其他生物学相关主题的研究，曾在NeurIPS 2018上发表了题为「What Bodies Think …
理论
- 971
- 0
新智元11月26日
解读GraphRAG
RAG 结合了大型语言模型和信息检索模型的力量，允许它们用从大量文本数据中提取的相关事实和细节来补充生成的响应。事实证明，这种方法在提高模型输出的实际准确性和总体质量方面是有效的。图片然而，随着 RAG 系统得到更广泛的采用，它们的局限性开始浮出水面，具体而言：平面检索: RAG 将每个文档作为一个独立的信息。
理论
- 982
- 0
曹洪伟11月26日
高精度预测蛋白构象变化，中国科大、上科大通用深度学习模型
编辑 | KX预测蛋白质构象变化是计算生物学和人工智能领域的一大挑战。主流的 AlphaFold 等算法可以高通量预测蛋白质的静态结构，但对蛋白质构象变化预测却束手无策。为了解决这个问题，中国科学技术大学和上海科技大学的研究人员，提出了一种新颖的深度学习策略，即利用高通量生物物理采样来规避与蛋白质构象转变相关的数据匮乏。
理论
- 977
- 0
ScienceAI11月25日
DeepSeek首发国产类o1模型！人人可以免费使用！
20日晚8点，DeepSeek在自己官方公众号上放出了一个大杀器：全新自研的DeepSeek-R1-Lite 预览版正式上线。据介绍，DeepSeek R1 系列模型使用强化学习训练，推理过程包含大量反思和验证，思维链长度可达数万字。该系列模型在数学、代码以及各种复杂逻辑推理任务上，取得了媲美 o1-preview 的推理效果，并为用户展现了 o1 没有公开的完整思考过程。
理论
- 979
- 0
admin11月25日
如何为深度学习选择优秀 GPU ？
Hello folks，我是 Luga，今天我们继续来聊一下人工智能生态相关技术 - 用于加速构建 AI 核心算力的 GPU 硬件技术。众所周知，对于绝大多数的深度学习模型的训练，尤其是参数规模较为庞大的模型，其往往是整个开发流程中最耗时、资源消耗最大的环节。在传统的 CPU .
理论
- 977
- 0
架构驿站11月25日
OpenAI怒斥Scaling撞墙论！o1已产生推理直觉潜力巨大
最近，OpenAI高级研究副总裁Mark Chen在炉边谈话中，正式否认「Scaling Law撞墙论」。他表示，并没有看到Scaling Law撞墙，甚至OpenAI还有两个范例——o系列和GPT系列，来保持这种Scaling。用他的话说，「我们准确地掌握了需要解决的技术挑战」。
理论
- 976
- 0
新智元11月25日
文本、图像、点云任意模态输入，AI能够一键生成高质量CAD模型了
本文第一作者为上海科技大学信息学院硕士生徐京伟和忆生科技的王晨宇，指导老师为香港大学的马毅教授和高盛华教授。王晨宇毕业于上海科技大学并获得工学硕士学位。其所在的忆生科技由马毅教授于 23 年底创立，致力于打造完整、自主、自洽的机器智能系统。
理论
- 974
- 0
机器之心11月25日
小学二年级数学水平，跟着这篇博客也能理解LLM运行原理
「小白学 AI 该从哪里下手？」去互联网上搜索一圈，最高赞的回复往往是高数起手，概率论也要学一学吧，再推荐一本大名鼎鼎的「西瓜书」。但入门的门槛足以劝退一大波人了。
理论
- 971
- 0
机器之心11月25日
AI推演OpenAI内斗结果：奥特曼仅有20%胜率，马斯克也有机会接盘？？？
奥特曼“熹妃回宫”已一周年，具体内情还是不清楚，咋办？搞几个Agent模拟OpenAI董事会各个成员，把这出热闹模拟推演了一遍（doge）。结果你还别说，在20场模拟宫斗大戏中，奥特曼仅有4次顺利回宫。
理论
- 969
- 0
量子位11月25日
陶哲轩宣布“等式理论计划”成功，人类AI协作，57天完成2200万+数学关系证明
57天，人类和AI合作搞定了4694个等式之间22028942个蕴含关系！大神陶哲轩激动宣布：等式理论计划，成功。 “等式理论计划”，由陶哲轩本人在2024年9月25日发起，目的是探索按蕴含关系排序的原群（magma）等式理论空间。
理论
- 975
- 0
量子位11月25日
腾讯混元大模型核心论文曝光：Scaling law、MoE、合成数据以及更多
随着 ChatGPT 的横空出世，大语言模型能力开始在各项领域（传统 NLP、数学、代码等）得到广泛验证，目前已经深刻影响到腾讯混元团队日常生活的方方面面。腾讯混元团队长期致力于大语言模型的探索之路，大模型生产的各个环节开展研究创新以提升其基础能力，并将混元大模型的能力跟业务做深度结合，让生成式 AI 成为业务增长的放大器。大语言模型的设计、训练和优化是一项复杂的系统工程，涉及到模型结构创新、…
应用
- 976
- 0
新闻助手11月22日
首个可保留情感的音频LLM！Meta重磅开源7B-Spirit LM，一网打尽「音频+文本」多模态任务
在纯文本大模型取得进展的同时，其他模态数据，如语音与文本结合的语言模型（SpeechLMs）也成为了一个热门的研究领域，但现有的模型要么在仅包含语音的数据上进行训练，要么是关注特定任务，如文本转语音（TTS）、自动语音识别（ASR）或翻译，在其他模态数据和任务上的泛化能力十分有限。在大型语言模型（LLM）性能不断提升的情况下，一个常用的方法是先用ASR模型将语音转录成文本，然后用文本模型来生成新…
理论
- 973
- 0
新智元11月22日
DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成
在多模态AI领域，基于预训练视觉编码器与MLLM的方法（如LLaVA系列）在视觉理解任务上展现出卓越性能。而基于Rectified Flow的模型（如Stable Diffusion 3及其衍生版本）则在视觉生成方面取得重大突破。能否将这两种简单的技术范式统一到单一模型中？
理论
- 976
- 0
量子位11月22日
上交大o1复现新突破：蒸馏超越原版，警示AI研发”捷径陷阱”
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。
工程
- 972
- 0
机器之心11月22日
谷歌Gemini突发试验版模型，重回竞技榜第一！新版GPT-4o只领先了1天
谷歌和OpenAI又杠上了。在新版GPT-4o刚登顶竞技榜后1天，立马发布最新试验版模型Gemini-Exp-1121夺回冠军宝座。图片要知道，一周前上一版模型Gemini-Exp-1114才发布。
理论
- 977
- 0
admin11月22日