模型
不到4小时,谷歌Gemini写完10万字商业战略书籍!人类全程没碰一个字
「文章本天成,妙手偶得之。 」本来充满创意与想象的写作,LLM已经可以上手了。 这次更是直接,LLM不光可以写文章了,大部头的书籍也要被拿下了?
1/21/2025 8:30:00 AM
新智元
追平满血版o1的国产多模态模型终于来了!训练细节全部公开
春节前最后一周,能媲美 Open AI 满血版 o1(Full Version,而非 preview)的模型终于出现了! 刚刚,月之暗面公布了他们的 Kimi k 系列模型最新版本 ——k1.5 多模态思考模型。 新模型在数学、代码、多模态推理能力等方面全面对标 Open AI 满血版 o1,而且是 OpenAI 之外首个多模态 o1。
1/21/2025 8:00:00 AM
机器之心
给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料
近期关于 scaling law 的讨论甚嚣尘上,很多观点认为 scale law is dead. 然而,我们认为,高质量的 “无监督” 数据才是 scaling law 的关键,尤其是教科书级别的高质量的知识语料。 此外,尽管传统的语料快枯竭了,但是互联网上还有海量的视频并没有被利用起来,它们囊括了丰富的多种模态的知识,可以帮助 VLMs 更好好地理解世界。
1/20/2025 4:17:58 PM
机器之心
小红书AI翻译加急上线,网友评论区玩起Prompt,背后大模型被扒出
网友盛赞“最有用的大模型应用”,小红书AI翻译功能上线了! (Doge)一整个实测发现,实在是太好用了。 翻译软件做到的它能做,翻译软件不能做的它也能做。
1/20/2025 3:50:00 PM
量子位
OpenAI博士级「超级智能体」即将登场?与ChatGPT深度集成,可操控计算机
就在刚刚,一则消息曝出,OpenAI已经在内部开始测试Operator,并将很快在ChatGPT macOS中推出。 这意味着,AI即将迎来一个「全新版本」的应用范式。 它不再仅仅是和你进行对话,被动式的给出参考答案来辅助你解决问题。
1/20/2025 3:32:41 PM
新智元
o1推理框架最新成果:斯坦福&伯克利提出元链式思维,升级模型推理能力
o1背后的推理原理,斯坦福和伯克利帮我们总结好了! 在最新的一篇长达100页的论文中,他们将o1模型背后的推理机制提炼成了一个通用的框架——元链式思维(Meta-CoT)。 这个元链式思维(Meta-CoT)到底是什么意思呢?
1/20/2025 1:08:25 PM
量子位
阿里发布新ID保持项目EcomID, 可从单个ID参考图像生成定制的保ID图像,ComfyUI可使用
阿里妈妈发布了一个新的ID保持项目EcomID,旨在从单个ID参考图像生成定制的保ID图像,优势在于很强的语义一致性,同时受人脸关键点控制。 EcomID 方法结合了 PuLID 和 InstantID 的优点,以获得更好的背景一致性、面部关键点控制、更真实的面部以及更高的相似度。 目前,EcomID 的 Comfyui 原生实现官方插件也已经发布,大家可以从文章中的链接获取。
1/20/2025 11:00:00 AM
AIGC Studio
东京大学 | Adobe 提出InstructMove,可通过观察视频中的动作来实现基于指令的图像编辑
InstructMove是一种基于指令的图像编辑模型,使用多模态 LLM 生成的指令对视频中的帧对进行训练。 该模型擅长非刚性编辑,例如调整主体姿势、表情和改变视点,同时保持内容一致性。 此外,该方法通过集成蒙版、人体姿势和其他控制机制来支持精确的局部编辑。
1/20/2025 10:36:00 AM
AIGC Studio
LineArt:无需训练的高质量设计绘图生成方法,可保留结构准确性并生成高保真外观
本文经AIGC Studio公众号授权转载,转载请联系出处。 今天给大家介绍一种无需训练的基于扩散模型的高质量设计绘图外观迁移方法LineArt,该方法可以将复杂外观转移到详细设计图上的框架,可促进设计和艺术创作。 现有的图像生成技术在细节保留和风格样式一致性方面存在局限,尤其是在处理专业设计图时。
1/20/2025 10:23:00 AM
AIGC Studio
多活十年!OpenAI为研究长寿推出GPT-4b,联手清华大牛丁胜搞“细胞重编程”,奥特曼本人投资
OpenAI要研究人类长寿问题了? ? 推出新模型GPT-4b micro。
1/20/2025 9:38:00 AM
量子位
o1不是聊天模型!前SpaceX工程师:这样用o1才能解决复杂问题
「我是如何从讨厌o1到每天用它来解决我最重要的问题的? 我学会了如何正确使用它。 」Ben Hylak曾是SpaceX软件工程师、苹果VisionOS人机交互设计师,后来离职创立了Dawn Analytics。
1/20/2025 9:28:00 AM
新智元
扩散模型低位量化突破!有效扩散量化的极限推向2-4位,W2A4位宽下FID降低58%,超越SOTA方法
降低扩散模型生成的计算成本,性能还保持在高水平! 最新研究提出一种用于极低位差分量化的混合精度量化方法。 △图1 W2A6位宽下基线和MPQ-DM生成的样本可视化目前,扩散模型在生成任务中受到了广泛关注。
1/20/2025 9:20:00 AM
量子位
Search版o1:推理过程会主动查资料,整体性能优于人类专家,清华人大出品
一个新框架,让Qwen版o1成绩暴涨:在博士级别的科学问答、数学、代码能力的11项评测中,能力显著提升,拿下10个第一! 这就是人大、清华联手推出的最新「Agentic搜索增强推理模型框架」Search-o1的特别之处。 项目团队成员发现,o1和o1类模型在推理过程中表现突出,但却存在“知识不足”的明显缺陷——推理步骤太长/模型知识不足时,推理过程就很容易卡壳,导致推理链中的错误传递。
1/20/2025 9:05:00 AM
量子位
DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键
DeepSeek版o1,有消息了。 还未正式发布,已在代码基准测试LiveCodeBench霸榜前三,表现与OpenAI o1的中档推理设置相当。 注意了,这不是在DeepSeek官方App已经能试玩的DeepSeek-R1-Lite-Preview(轻量预览版)。
1/20/2025 8:46:00 AM
量子位
OpenAI员工疯狂暗示,内部已成功开发ASI?被曝训出GPT-5但雪藏
种种迹象表明,最近OpenAI似乎发生了什么大事。 AI研究员Gwern Branwen发布了一篇关于OpenAI o3、o4、o5的文章。 根据他的说法,OpenAI已经跨越了临界点,达到了「递归自我改进」的门槛——o4或o5能自动化AI研发,完成剩下的工作!
1/20/2025 7:30:00 AM
新智元
5090跑《黑神话》飙到200+帧,英伟达DLSS也用上Transformer了
现在,打个游戏都用上Transformer了? 老黄的DLSS进行了一波大升级,换上了基于Transformer的新大脑。 用上新模型之后,光线重建和超分辨率,效果都变得更细腻了。
1/20/2025 7:00:00 AM
量子位
资讯热榜
上海AI实验室开源InternVL3系列多模态大型语言模型
Haisnap横空出世,小白用户也能轻松打造AI应用
「交交」媲美GPT-4o!上海交大推出口语对话情感大模型,首个纯学术界自研!
5分钟直出46页论文!谷歌Deep Research完爆OpenAI,最强Gemini 2.5加持
kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking,多项基准超越 GPT-4o
击败DeepSeek-R1!豆包新推理模型仅用前者参数量1/3!还将开源两个基准,瞄准通用推理能力!
ChatGPT重大更新,能翻出所有历史对话,网友被AI聊破防了
谷歌 Gemini AI 新功能 Circle Screen 曝光:圈选截屏特定区域,实现精准搜索
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
神经网络
腾讯
计算
研究
Sora
AI for Science
3D
Anthropic
AI设计
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
深度学习
苹果
AI视频
模态
驾驶
文本
人形机器人
xAI
搜索
大语言模型
Copilot
Claude
字节跳动
具身智能
神器推荐
LLaMA
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
DeepMind
训练