模型
首篇AI自写论文通过ICLR 2025同行评审!6.25高分碾压人类,AI独挑科研大梁
首篇完全由AI生成的论文,竟通过了ICLR 2025同行评审! 刚刚,Sakana AI正式亮相AI Scientist-v2版本,直接踢破了AI顶会的大门。 从提出科学假设、设计实验、到编写代码、运行实验、分析数据、绘制图表,再到撰写完整论文,所有环节均由AI完成。
3/13/2025 9:16:25 AM
新智元
谷歌Gemma 3上线!单GPU最强多模态手机可跑,27B完胜o3-mini
谷歌Gemma 3全家桶来了! 刚刚,在巴黎开发者日上,开源Gemma系模型正式迭代到第三代,原生支持多模态,128k上下文。 此次,Gemma 3一共开源了四种参数,1B、4B、12B和27B。
3/13/2025 9:12:35 AM
新智元
字节首次公开图像生成基模技术细节!数据处理到RLHF全流程披露
就在今天,字节豆包大模型团队在 arxiv 上发布了一篇技术报告,完整公开了文生图模型技术细节,涵盖数据处理、预训练、RLHF 在内的后训练等全流程模型构建方法,也详细披露了此前大火的文字精准渲染能力如何炼成。 报告将豆包文生图模型称为 Seedream 2.0,并明确提到,该模型于去年 12 月初上线到豆包 APP 和即梦平台。 从模型能力看,Seedream 2.0 是原生的中英双语图像生成基础模型,拥有很强的美感和文本渲染效果,与目前即梦上的文生图主力模型特性匹配。
3/12/2025 2:40:53 PM
机器之心
32B IOI奥赛击败DeepSeek-R1!Open R1开源复刻第三弹,下一步R1-Zero
Hugging Face的Open R1再度升级! Hugging Face的Open R1是一个社区驱动的项目,目标是创建一个完全开源的DeepSeek-R1版本。 目前,已有模型如OlympicCoder-32B和数据集如codeforces发布,显示了项目的进展。
3/12/2025 1:55:05 PM
新智元
10秒生成4分钟音乐,8GB显存就能跑!已登Hugging Face趋势榜
音乐创作,尤其是完整歌曲的生成,一直是人工智能领域的一大挑战。 Suno、Udio等商用音乐生成大模型展现出惊人的音乐生成能力。 但现有开源的音乐生成模型要么只能生成人声或伴奏,要么依赖复杂的多阶段架构,难以扩展到长音频生成。
3/12/2025 10:41:34 AM
新智元
快慢双系统!清华&博世最新Chameleon:无需训练即可解决复杂道路拓扑(ICRA'25)
在自动驾驶技术中,车道拓扑提取是实现无地图导航的核心任务之一。 它要求系统不仅能检测出车道和交通元素(如交通灯、标志),还要理解它们之间的复杂关系。 例如,判断车辆是否可以左转进入某条车道,就需要综合考虑交通规则、车道布局和信号灯状态等多种因素。
3/12/2025 10:07:06 AM
自动驾驶之心
OpenAI深夜发布全新Agent工具:两大杀器登场,感觉可以手搓Manus了
可以自己动手手搓Manus了? 刚刚OpenAI举行了一个19分钟的线上发布会,推出全新Agent工具,OpenAI直接祭出自研Agent SDK和Responses API两大杀器! 旨在彻底简化agent开发流程,让开发者和企业都能轻松构建实用又可靠的智能体!
3/12/2025 10:00:44 AM
AI寒武纪
揭示显式CoT训练机制:思维链如何增强推理泛化能力
基于逐步生成解决方案的大语言模型(LLMs)训练范式在人工智能领域获得了广泛关注,并已发展成为行业内的主流方法之一。 例如,OpenAI 在其「12 Days of OpenAI」直播系列的第二日推出了针对 O1 模型的强化微调(Reinforcement Fine-Tuning,RFT),进一步推动了 AI 定制化的发展[1]。 RFT/ReFT[2] 的一个关键组成部分是使用思维链(Chain-of-Thought,CoT)注释[3] 进行监督微调(Supervised Fine-Tuning,SFT)。
3/12/2025 9:48:19 AM
机器之心
18项任务200万视频编辑对,云天励飞联合多高校打造出大规模编辑数据集
目前的视频编辑算法主要分为两种:一种是利用 DDIM-Inversion 完成视频编辑,另一种是利用训练好的编辑模型。 然而,前者在视频的一致性和文本对齐方面存在较大缺陷;后者由于缺乏高质量的视频编辑对,难以获得理想的编辑模型。 为了解决视频编辑模型缺乏训练数据的问题,本文作者(来自香港中文大学、香港理工大学、清华大学等高校和云天励飞)提出了一个名为 Señorita-2M 的数据集。
3/12/2025 9:40:28 AM
机器之心
大模型全军覆没,中科院自动化所推出多图数学推理新基准 | CVPR 2025
挑战多图数学推理新基准,大模型直接全军覆没? 事情是这样的。 近日,中国科学院自动化研究所推出多图数学推理全新基准MV-MATH(该工作已被CVPR 2025录用),这是一个精心策划的多图数学推理数据集,旨在全面评估MLLM(多模态大语言模型)在多视觉场景中的数学推理能力。
3/11/2025 1:49:20 PM
量子位
阿里开源R1-Omni,DeepSeek同款RLVR首度结合全模态情感识别,网友:可解释性+多模态学习=下一代AI
首次将DeepSeek同款RLVR应用于全模态LLM,含视频的那种! 眼睛一闭一睁,阿里通义实验室薄列峰团队又开卷了,哦是开源,R1-Omni来了。 同样在杭州,这是在搞什么「开源双feng」(狗头保命)?
3/11/2025 1:47:10 PM
量子位
武大等发布大视觉模型最新安全综述:全面分类攻击策略、防御机制和评估方法
随着GPT-4o与Qwen-VL等模型的视觉理解和多模态生成能力逐渐打破众人认知,大型视觉语言模型(LVLMs)正以前所未有的速度重塑AI世界,这些能够理解视觉信息并生成自然语言响应的智能系统,已在医疗诊断、自动驾驶、金融风控等关键领域崭露头角。 然而,当研究者仅用几百美元就能突破顶级模型的安全防线、简单的对抗噪声图片就能让模型输出危险内容,我们是否该感到担心? 近期,武汉大学、中国科学技术大学和南洋理工大学的研究团队发布了一篇综述,系统性总结了LVLMs在安全性上的挑战,并提出了全面而系统的安全分类框架。
3/11/2025 1:44:24 PM
新智元
轻松拿捏高等数学,LLM平均得分90+!GPT-4o、Mistral几乎没错
朋友会离开你,兄弟会背叛你。 但数学不会,数学不会就是不会。 相信学不好高等数学的人,对上面这个梗深有感悟。
3/11/2025 1:42:19 PM
新智元
OpenAI最强模型惨遭剖脑,CoT写下作弊自白书!不写代码耍心机被当场抓包
就在刚刚,OpenAI博客放出了一项新的研究。 他们发现,前沿推理模型一旦有机会,就会试图钻漏洞! 这种行为,被称为奖励欺骗。
3/11/2025 1:39:08 PM
新智元
使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独
没有任何冷启动数据,7B 参数模型能单纯通过强化学习学会玩数独吗? 近日,技术博主 Hrishbh Dalal 的实践表明,这个问题的答案是肯定的。 并且他在这个过程中用到了 DeepSeek 开发的 GRPO 算法,最终他「成功在一个小型数独数据集上实现了高奖励和解答」。
3/11/2025 1:07:58 PM
机器之心
Magic Mirror:可从单个参考图像生成电影级质量身份一致性和自然运动视频
Magic Mirror 可以生成合成身份配对的视频数据。 该框架利用视频扩散模型,能够在保持身份一致性的同时,生成具有电影级质量和动态运动的视频。 Magic Mirror 根据 ID 参考图像生成文本转视频结果。
3/11/2025 10:15:00 AM
AIGC Sdudio
DPG-Bench榜首!智谱开源文生图模型CogView4:支持中英文输入和生成,免费商用授权!
在图像生成技术的浪潮中,智谱开源再次引领潮流,推出了全新的文生图模型——CogView4。 这款模型不仅支持中英双语提示词输入,更擅长理解和遵循中文指令,让创意表达无界限。 尤为值得一提的是,CogView4开创了先河,成为首个能在画面中直接生成汉字的开源文生图模型,让文字与图像的融合更加自然流畅。
3/11/2025 10:00:00 AM
AIGC Studio
腾讯混元-TurboS:首个混合Transformer-Mamba MoE超大模型来了
腾讯混元团队发布了他们最新的力作——Hunyuan-TurboS,首个混合Transformer-Mamba MoE架构的超大模型大家都知道,传统Transformer模型在处理长文本时一直面临挑战,O(N²)的复杂度以及KV-Cache问题让长文本训练和推理效率大打折扣。 而这次,混元-TurboS巧妙地融合了Mamba和Transformer两种架构的优势:• Mamba的高效长序列处理能力• Transformer强大的上下文理解能力强强联合,效果自然惊艳! 官方数据显示,Hunyuan-TurboS在多个关键benchmark上表现出色:• 数学、推理、对齐能力超越或持平 GPT-4o-0806、DeepSeek-V3 以及各类开源模型。
3/11/2025 9:42:00 AM
AI寒武纪
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
机器人
模型
谷歌
大模型
Midjourney
智能
开源
用户
学习
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
腾讯
神经网络
计算
研究
Anthropic
Sora
3D
AI for Science
AI设计
机器学习
GPU
AI视频
开发者
场景
华为
预测
人形机器人
百度
伟达
苹果
Transformer
深度学习
模态
xAI
大语言模型
字节跳动
Claude
搜索
驾驶
文本
具身智能
神器推荐
Copilot
LLaMA
算力
视频生成
安全
干货合集
视觉
应用
大型语言模型
科技
亚马逊
训练
特斯拉
AGI
2024