模型

清华团队破解具身智能Scaling Law，GPT时刻在即！宁德时代联创终于出手
最近，我们意外发现，具身智能领域的明星初创公司千寻智能，悄悄完成了工商变更。根据工商信息显示，本轮融资由柏睿资本独家投资。至此，千寻智已经在半年多时间里获得了三次大额融资，一跃成为具身智能领域明星公司之一。
理论
- 968
- 0
新智元11月11日
GPT-5被曝不及预期，OpenAI员工：没什么科学突破了，接下来只需要工程
猛料来了，OpenAI下一代旗舰模型被曝提升不如预期。消息来自The Information，具体指代号“猎户座”（Orion）的模型相对GPT-4的提升幅度，小于GPT-4相对GPT-3，已进入收益递减阶段。或许这也是奥特曼曾说，可能不会把新模型命名为GPT-5的原因之一。
理论
- 968
- 0
量子位11月11日
专家模型不要专家并行！微软开源MoE新路径
继Phi家族之后，微软又开源了新的混合专家大模型——GRIN MoE。与Phi-3.5同样的个头（16 * 3.8B），却采用了截然不同的训练方法。这个「不走寻常路」如果写个太长不看版，那就是两句话：1.
理论
- 969
- 0
新智元11月11日
字节豆包通用图像编辑模型SeedEdit开启测试用户可一句话轻松改图
11月11日，字节在豆包大模型团队官网上公布最新通用图像编辑模型SeedEdit。 SeedEdit支持一句话轻松改图，包括修图、换装、美化、转化风格、在指定区域添加删除元素等各类编辑操作，通过简单的自然语言即可驱动模型编辑任意图像。目前，该模型已经在豆包PC端及即梦网页端开启测试。
应用
- 4
- 0
新闻助手11月11日
哈佛推出全新类ChatGPT癌症诊断AI，登上Nature！准确率高达96%
近日，来自哈佛医学院等机构的科学家们开发了一种名为CHIEF（Clinical Histopathology Imaging Evaluation Foundation，临床组织病理学成像评估基础）的多功能AI癌症诊断模型。并于9月4日登上「Nature」。论文地址：，尽管最近出现了其他用于医学诊断的病理图像基础AI模型，但CHIEF是第一个能够预测患者预后并在多个国际患者群体中验证的模型。
理论
- 970
- 0
新智元11月11日
谷歌苹果曝出LLM惊人内幕，自主识别错误却装糊涂！AI幻觉背后藏着更大秘密
到现在为止，我们仍旧对大模型「幻觉」如何、为何产生，知之甚少。最近，来自Technion、谷歌和苹果的研究人员发现，LLM「真实性」的信息集中在特定的token，而且并得均匀分布。正如论文标题所示，「LLM知道的往往要比表现出来的更多」。
理论
- 968
- 0
新智元11月11日
多模态模型免微调接入互联网，即插即用新框架，效果超闭源商用方案
一个5月份完成训练的大模型，无法对《黑神话·悟空》游戏内容相关问题给出准确回答。这是大模型的老毛病了。因为《黑神话》8月才上市，训练数据里没有它的相关知识。
理论
- 969
- 0
量子位11月11日
我为什么离开OpenAI？六年元老发离职长文：AGI将至，我们远没准备好
OpenAI的「员工叛逃」还没有结束。近日，OpenAI又有一位6年元老、研究主管Miles Brundage发表长文官宣离职，并详细解释了自己为何「出走」。作为一家年轻的AI独角兽，成立于2015年的OpenAI如今刚刚9岁，因此在公司待了6年之久的Brundage足以被称为「元老」，见证了OpenAI如何一路起伏、筚路蓝缕地走到今天。
理论
- 968
- 0
新智元11月11日
空间智能版ImageNet来了！李飞飞吴佳俊团队出品
空间智能版ImageNet来了，来自斯坦福李飞飞吴佳俊团队！ HourVideo，一个用于评估多模态模型对长达一小时视频理解能力的基准数据集，包含多种任务。通过与现有模型对比，揭示当前模型在长视频理解上与人类水平的差距。
理论
- 968
- 0
量子位11月11日
$清华厦大等提出“无限长上下文”技术，100万大海捞针全绿，Llama\Qwen\MiniCPM都能上分$
清华厦大等提出“无限长上下文”技术，100万大海捞针全绿，Llama\Qwen\MiniCPM都能上分
大模型的记忆限制被打破了，变相实现“无限长”上下文。最新成果，来自清华、厦大等联合提出的LLMxMapReduce长本文分帧处理技术。 LLMxMapReduce技术通过将长上下文切分为多个片段，可以让模型并行处理多个片段，并从不同片段中提取关键信息，然后汇总成为最终的答案。
理论
- 968
- 0
量子位11月11日
即梦AI首发，字节自研视频生成模型Seaweed开放使用
11月8日，字节跳动旗下的AI内容平台即梦AI宣布，即日起，由字节跳动自研的视频生成模型Seaweed面向平台用户正式开放。用户登陆后，在“视频生成”功能下，视频模型选择“视频S2.0”即可体验。图说：即梦AI PC端和App端模型使用入口9月底，字节跳动正式宣布向AI视频领域进军，发布豆包模型家族的两款视频生成模型Seaweed和Pixeldance，并通过即梦AI、火山引擎分别面向创作者和…
应用
- 3
- 0
新闻助手11月8日
50s完成7B模型量化，4bit达到新SOTA，大模型低比特量化有新招了 | NeurIPS 2024 Oral
消除激活值(outliers)，大语言模型低比特量化有新招了——自动化所、清华、港城大团队最近有一篇论文入选了NeurIPS 2024（Oral Presentation），他们针对LLM权重激活量化提出了两种正交变换，有效降低了outliers现象，达到了4-bit的新SOTA。简单理解，在大语言模型（LLM）中，有一些中间层输出的数值（激活值 Activation）会变得非常大，它们被称为“…
理论
- 968
- 0
量子位11月8日
免训练加速DiT！Meta提出自适应缓存新方法，视频生成快2.6倍
现在，视频生成模型无需训练即可加速了？！ Meta提出了一种新方法AdaCache，能够加速DiT模型，而且是无需额外训练的那种（即插即用）。
理论
- 970
- 0
量子位11月8日
类Sora模型到底懂不懂物理？字节完成系统性实验，图灵奖得主杨立昆赞转!
Sora爆火以来，“视频生成模型到底懂不懂物理规律”受到热议，但业界一直未有研究证实。近日，字节跳动豆包大模型团队公布最新论文，研究历时8个月，围绕“视频生成模型距离世界模型有多远”首次在业界完成系统性实验并给出明确结论：视频生成模型可以记忆训练案例，但暂时还无法真正理解物理规律，做到“举一反三”。图灵奖得主、Meta首席AI科学家杨立昆点赞并转发了该研究，表示“结论不令人意外，但很高兴终于有…
应用
- 4
- 0
新闻助手11月8日
字节推出单图视频驱动模型 X-Portrait 2：一键生成相同表情神态，简化创作流程
单图视频驱动技术，即只需一张静态照片和一段驱动视频，即可生成高质量、电影级的视频。
应用
- 968
- 0
沛霖（实习）11月6日
GPT-4o加钱能变快！新功能7秒完成原先23秒的任务
OpenAI出了个新功能，直接让ChatGPT输出的速度原地起飞！这个功能叫做“预测输出”（Predicted Outputs），在它的加持之下，GPT-4o可以比原先快至多5倍。以编程为例，来感受一下这个feel：为啥会这么快？
理论
- 969
- 0
量子位11月6日
nuPlan又一SOTA！赵行团队新作STR2：运动规划的重新出发，仿真闭环的强大泛化！
本文经自动驾驶之心公众号授权转载，转载请联系出处。论文链接：：：：大型实际驾驶数据集推动了有关自动驾驶数据驱动运动规划器的各个方面的研究，包括数据增强、模型架构、奖励设计、训练策略和规划器架构。在处理复杂和少样本情况下，这些方法有较好的表现。
理论
- 968
- 0
Qiao Sun等11月6日
OpenAI离不开微软，但Anthropic正在成为新宠
编辑 | 言征出品 | 51CTO技术栈（微信号：blog51cto）不久前，OpenAI 和 Microsoft 似乎是不可战胜的。然而，现在，他们的竞争对手正在迎头赶上。巨头支持方面，Anthropic 的 Claude 模型一点都不弱，甚至隐隐有了超越ChatGPT的趋势。
理论
- 968
- 0
言征11月5日
腾讯混元开源 Hunyuan3D-1.0：首个同时支持文生和图生的 3D 开源大模型
腾讯混元今日开源了 Hunyuan3D-1.0 大模型，官方称这是首个同时支持文生和图生的 3D 开源大模型。 ▲ 文生模型▲ 图生模型模型采用两阶段生成方法，官方表示在保证质量和可控的基础上，10 秒即可生成 3D 资产：第一阶段，团队采用了一种多视角扩散模型，轻量版模型能够在大约 4 秒内生成多视角图像。这些多视角图像从不同的视角捕捉了 3D 资产的丰富的纹理和几何先验，将任务从单视角重建松…
应用
- 9
- 0
沛霖（实习）11月5日
腾讯推出 Hunyuan-Large 大模型：389B 总参数，业界已开源基于 Transformer 的最大 MoE 模型
腾讯今日宣布推出 Hunyuan-Large 大模型，官方表示这是目前业界已经开源的基于 Transformer 的最大 MoE 模型，拥有 3890 亿总参数（389B）和 520 亿激活参数（52B）。腾讯今日在 Hugging Face 开源了 Hunyuan-A52B-Pretrain 、 Hunyuan-A52B-Instruct 和 Hunyuan-A52B-Instruct-FP8…
应用
- 7
- 0
沛霖（实习）11月5日
无需参数访问！CMU用大模型自动优化视觉语言提示词 | CVPR’24
视觉语言模型（如 GPT-4o、DALL-E 3）通常拥有数十亿参数，且模型权重不公开，使得传统的白盒优化方法（如反向传播）难以实施。那么，有没有更轻松的优化方法呢？就在最近，卡内基梅隆大学（CMU）的研究团队对于这个问题提出了一种创新的“黑盒优化”策略——通过大语言模型自动调整自然语言提示词，使视觉语言模型在文生图、视觉识别等多个下游任务中获得更好的表现。
理论
- 968
- 0
量子位11月5日
Llama版o1来了，来自上海AI Lab，强化学习代码已开源，基于AlphaGo Zero范式
复刻OpenAI o1推理大模型，开源界传来最新进展：LLaMA版o1项目刚刚发布，来自上海AI Lab团队。简介中明确：使用了蒙特卡洛树搜索，Self-Play强化学习，PPO，以及AlphaGo Zero的双重策略范式（先验策略价值评估）。在2024年6月，o1发布之前，团队就开始探索蒙特卡洛树搜索提高大模型数学能力，积累了一些关注。
理论
- 968
- 0
量子位11月5日
AI开源项目 | FastGPT- 深入解析 FastGPT 的知识库逻辑与检索机制：让 AI 更聪明的秘密
如何让 AI 更加智能化、精准化，成为了研究者和开发者们关注的焦点。 FastGPT 作为一款前沿的 AI 模型，其知识库逻辑与检索机制无疑是其成功的关键所在。本文将为您详细解析 FastGPT 的知识库逻辑与检索机制，并结合知识库的特性，提供实用的教学意义，帮助您更好地理解这一技术背后的原理与应用。
理论
- 968
- 0
hpstream11月5日
携程弱网识别技术探索
网络优化一直是移动互联网时代的热议话题，弱网识别作为弱网优化的第一步，受到的关注和讨论也是最多的。本文从设计、开发、落地详尽的分享了携程在弱网识别方面的实践经验，如果你也有类似需求，这篇文章会是一个不错的实操指南。一、背景二、技术方案2.1 数据采集2.2 数据处理2.3 结果输出三、落地效果四、未来展望一、背景自从2010年携程推出”无线战略“，并发布移动端APP以来，无线研发团队对于客户端…
理论
- 968
- 0
Aaron11月5日