模型

OpenAI 发布 o1 及开发者新工具：模型升级、实时 API 优化、偏好微调等重磅更新
OpenAI 12天发布会Day9，今日宣布推出一系列针对开发者的强大模型、全新定制工具以及性能、灵活性和成本效益的升级，旨在助力开发者构建更智能、更强大的 AI 应用。本次更新涵盖以下关键内容：1. API 中的 OpenAI o1：OpenAI o1 模型正式在 API 中向 5 级使用用户开放。
理论
- 983
- 0
AI寒武纪12月18日
万物皆可高斯！清华最新GaussianAD：以高斯为中心的端到端自动驾驶，完爆当前SOTA！
写在前面 & 笔者的个人理解基于视觉的自动驾驶因其令人满意的性能和低成本而显示出巨大的潜力。大多数现有方法采用密集表示（如鸟瞰图）或稀疏表示（如实例框）进行决策，这会在全面性和效率之间进行权衡。本文探索了一个以高斯为中心的端到端自动驾驶（GaussianAD）框架，并利用3D语义高斯来广泛而稀疏地描述场景。
理论
- 990
- 0
Wenzhao Zheng等12月18日
Omni-Scene：Gaussian统一表征下的自动驾驶多模态生成新SOTA！
写在前面 & 笔者的个人理解西湖大学和浙大的工作，利用3DGS的统一表征，结合扩散模型打通自动驾驶场景的多模态生成。近期生成重建的算法越来越多，这说明单重建或者单生成可能都没有办法很好的cover闭环仿真，所以现在的工作尝试两者结合，这块应该也是后面闭环仿真落地的方向。先前采用基于像素的高斯表示的工作已经证明了前馈稀疏视图重建的有效性。
理论
- 982
- 0
Dongxu Wei等12月18日
开源Llama版o1来了，3B小模型反超80B，逆向工程复现OpenAI新Scaling Law
o1完整版公开仅10天，Scaling Law新范式就被逆向工程复现了！ Hugging Face官方发文，开源了扩展测试时计算的方法。用在小小小模型Llama 1B上，数学分数直接超过8倍大的模型，也超过了计算机科学博士生的平均分数（40%）。
理论
- 976
- 0
量子位12月17日
Kimi版o1实装上线，这里是我们的一手测试↑
Kimi新模型来袭，且发布即上线可用！就在数学模型k0-math刚发布后没几天，视觉思考模型k1就来了，多项思考推理测试超越Open AI o1。官方表示，基于强化学习，k1原生支持端到端图像理解和思维链技术。
理论
- 977
- 0
量子位12月17日
Ilya错了，预训练没结束！LeCun等反击，「小模型时代」让奥特曼预言成真
最近，Ilya在NeurIPS 2024中宣布：预训练结束了！在他看来，数据如同化石燃料般难以再生，因此训练模型需要的海量数据即将枯竭。作为前OpenAI首席科学家，Ilya的这番话，有可能影响之后数十年的AI发展方向。
理论
- 985
- 0
新智元12月16日
世界模型进入4D时代！单视角视频构建的自由视角4D世界来了
人工智能技术正以前所未有的速度改变着我们对世界的认知与构建方式。近期，李飞飞教授团队通过单张图片生成三维物理世界的研究，再次向世界展示了空间智能技术的巨大潜力。单图生成三维世界，不仅让人们能以交互方式探索静态图像，更标志着 AI 在重建与理解物理场景方面迈入全新阶段。
理论
- 978
- 0
机器之心12月16日
无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni，小巧全能，极速推理
12月16日，无问芯穹宣布正式开源其“端模型端软件端IP”端上智能一体化解决方案中的小模型——全球首个端侧全模态理解开源模型Megrez-3B-Omni，并同步开源了纯语言版本模型Megrez-3B-Instruct。据介绍，Megrez-3B-Omni是一个为端而生的全模态理解模型，选择了最适合手机、平板等端侧设备的30亿参数黄金尺寸，结构规整，推理速度最大领先同精度模型300%。作为一…
应用
- 975
- 0
新闻助手12月16日
Bengio参与的首个《AI安全指数报告》出炉，最高分仅C、国内一家公司上榜
图片安全话题，在人工智能（AI）行业一向备受关注。尤其是诸如 GPT-4 这样的大语言模型（LLM）出现后，有不少业内专家呼吁「立即暂停训练比 GPT-4 更强大的人工智能模型」，包括马斯克在内的数千人纷纷起身支持，联名签署了一封公开信。这封公开信便来自生命未来研究所（Future of Life Institute），该机构由麻省理工学院教授、物理学家、人工智能科学家、《生命 3.0》作者 …
理论
- 974
- 0
机器之心12月16日
实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！
编辑 | 言征出品 | 51CTO技术栈（微信号：blog51cto）Kimi最近太猛了！所有的教育产品感觉都要被颠覆了。今天，Kimi上线发布一款相当炸裂的AI功能——视觉思考模型k1。
理论
- 994
- 0
言征12月16日
26岁OpenAI举报人疑自杀！死前揭ChatGPT训练黑幕
就在刚刚，消息曝出：OpenAI吹哨人，在家中离世。曾在OpenAI工作四年，指控公司侵犯版权的Suchir Balaji，上月底在旧金山公寓中被发现死亡，年仅26岁。旧金山警方表示，11月26日下午1时许，他们接到了一通要求查看Balaji安危的电话，但在到达后却发现他已经死亡。
理论
- 973
- 0
新智元12月16日
NeurIPS神仙打架：李飞飞180页PPT谈视觉智能，Bengio同OpenAI员工吵架，何恺明谈AI宿命论
李飞飞最新采访来了，继续延伸她在NeurIPS有关视觉智能的话题。她表示，解决空间智能问题是迈向全面智能化的基础和关键一步。不过从现场传出的NeurIPS演讲PPT中竟然有写：AI将取代人类？
理论
- 974
- 0
量子位12月13日
微软出招！新模型数学超GPT-4o编程胜Llama3.3，训练新范式引热议：midtraining
OpenAI谷歌天天刷流量，微软也坐不住了，推出最新小模型Phi-4。参数量仅14B，MMLU性能就和Llama 3.3/ Qwen2.5等70B级别大模型坐一桌。数学能力上，Phi-4在美国数学竞赛AMC 10/12上超过了GPT-4o等一众大模型，分数冲上90。
理论
- 979
- 0
量子位12月13日
中国工商银行软件开发中心多模非标准贸易影像智能识别方案
为提升信贷领域业务办理过程中合同影像信息提取效率，中国工商银行软件开发中心利用业界前沿技术多模态识别技术对图片、视频等文件内容进行智能提取和解读，逐步覆盖传统技术无法解决的影像识别场景，包括不规则表格、目标信息描述模糊、打包影像等，大幅提升了合同处理效率。工商银行软件开发中心先前引入了基于光学字符识别（OCR）与规则或自然语言处理（NLP）模型的自动化识别技术；然而，该技术对合同元素位置、上下文…
理论
- 976
- 0
admin12月13日
小模型界o1来了：微软推出Phi-4，数学推理能力太逆天！14B模型击败GPT-4o！还印证了AI墙的一个重要推断
编辑 | 伊风出品 | 51CTO技术栈（微信号：blog51cto）家人们，微软Phi-4的数学能力太逆天了。谁看了不感慨一句：小模型才是未来！ 8个月前，微软发布了Phi-3，性能超过庞然大物Llama-3，狠狠惊艳了我们一把。
理论
- 981
- 0
伊风12月13日
再也不怕显存爆炸了！高效重建「几何精准」的大规模复杂三维场景，中科院提出CityGaussianV2
三维场景重建旨在基于围绕目标场景拍摄的一组图像恢复出场景的三维结构，其核心追求是精准的几何结构以及逼真的图像渲染。随着近两年的发展，3D Gaussian Splatting（3DGS）因其训练和渲染效率上的优势逐渐成为该领域的主流算法。这一技术使用一组离散的高斯椭球来表示场景，并使用高度优化的光栅器进行渲染。
理论
- 981
- 0
新智元12月13日
扩散模型=流匹配？谷歌DeepMind博客深度详解这种惊人的等价性
扩散模型和流匹配实际上是同一个概念的两种不同表达方式吗？从表面上看，这两种方法似乎各有侧重：扩散模型专注于通过迭代的方式逐步去除噪声，将数据还原成清晰的样本。而流匹配则侧重于构建可逆变换系统，目标是学习如何将简单的基础分布精确地映射到真实数据分布。
理论
- 974
- 0
机器之心12月13日
谷歌成功狙击 OpenAI：ChatGPT Vision 深夜紧急上线，OpenAI 还能守住江山吗
昨天谷歌放大招发布Gemini 2并提供免费服务后，OpenAI 今天（12天发布会Day6）紧随其后，推出了鸽了很久的 ChatGPT Vision 功能，为用户带来更丰富的多模态交互体验。除了原有的高级语音模式外，现在你可以与 ChatGPT 进行视频通话、共享屏幕，也可以与圣诞老人实时互动！ 11分钟发布会乏善可陈，感觉有点拉先说重点：ChatGPT Vision 有哪些新功能？
理论
- 979
- 0
opencat12月13日
计算机视觉项目实战：提升简历，精进技能
在计算机视觉领域，实践是检验理论、提升技能的试金石。无论是初学者还是希望进一步提升自己的专业人士，通过参与实际项目都是至关重要的。本文将引导您探索一系列计算机视觉项目，这些项目按照难度分类，旨在帮助您构建并展示您的专业技能。
理论
- 974
- 0
AGI12月13日
ChatGPT崩溃4小时！DDL打工人、期末大学生全慌了
今天上午8点左右，ChatGPT突然崩了。与此同时，Sora也未能幸免。简单的两行字，诛杀了多少赶DDL人的心还未修复好时候的红温状态来自故障跟踪网站DownDetector.com今天下午1点左右的时候，已经官宣完全恢复正常了！
理论
- 977
- 0
新智元12月13日
准确率达95%，混合深度学习搜索纳米生物材料，登Nature子刊
编辑 | 萝卜皮超分子肽基材料具有革新纳米技术和医学等领域的巨大潜力。然而，破译其实际应用所必需的复杂序列到组装途径仍然是一项艰巨的任务。它们的发现主要依赖于需要大量资金的经验方法，这阻碍了它们的颠覆性潜力。
理论
- 975
- 0
ScienceAI12月12日
NeurIPS 2024 | 可信大模型新挑战：噪声思维链提示下的鲁棒推理，准确率直降40%
当前，大语言模型（Large Language Model, LLM）借助上下文学习（In-context Learning）和思维链提示（Chain of Thoughts Prompting），在许多复杂推理任务上展现出了强大的能力。然而，现有研究表明，LLM 在应对噪声输入时存在明显不足：当输入的问题包含无关内容，或者遭到轻微修改时，模型极容易受到干扰，进而偏离正确的推理方向。如图 1 …
理论
- 981
- 0
机器之心12月12日
Sora之后，苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务
Apple MM1Team 再发新作，这次是苹果视频生成大模型，关于模型架构、训练和数据的全面报告，87 亿参数、支持多模态条件、VBench 超 PIKA，KLING，GEN-3。论文地址: Face link: 的 Sora 公布了一天之后，在一篇由多位作者署名的论文《STIV: Scalable Text and Image Conditioned Video Generation》中，苹…
理论
- 975
- 0
机器之心12月12日
反转！Claude 3.5超大杯没有训练失败，最新爆料：内部自留，用于合成数据和RL训练
传闻反转了，Claude 3.5 Opus没有训练失败。只是Anthropic训练好了，暗中压住不公开。 semianalysis分析师爆料，Claude 3.5超大杯被藏起来，只用于内部数据合成以及强化学习奖励建模。
理论
- 973
- 0
量子位12月12日