模型

不到4小时，谷歌Gemini写完10万字商业战略书籍！人类全程没碰一个字

「文章本天成，妙手偶得之。」本来充满创意与想象的写作，LLM已经可以上手了。这次更是直接，LLM不光可以写文章了，大部头的书籍也要被拿下了？

1/21/2025 8:30:00 AM

新智元

追平满血版o1的国产多模态模型终于来了！训练细节全部公开

春节前最后一周，能媲美 Open AI 满血版 o1（Full Version，而非 preview）的模型终于出现了！刚刚，月之暗面公布了他们的 Kimi k 系列模型最新版本 ——k1.5 多模态思考模型。新模型在数学、代码、多模态推理能力等方面全面对标 Open AI 满血版 o1，而且是 OpenAI 之外首个多模态 o1。

1/21/2025 8:00:00 AM

机器之心

给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料

近期关于 scaling law 的讨论甚嚣尘上，很多观点认为 scale law is dead. 然而，我们认为，高质量的 “无监督” 数据才是 scaling law 的关键，尤其是教科书级别的高质量的知识语料。此外，尽管传统的语料快枯竭了，但是互联网上还有海量的视频并没有被利用起来，它们囊括了丰富的多种模态的知识，可以帮助 VLMs 更好好地理解世界。

1/20/2025 4:17:58 PM

机器之心

小红书AI翻译加急上线，网友评论区玩起Prompt，背后大模型被扒出

网友盛赞“最有用的大模型应用”，小红书AI翻译功能上线了！（Doge）一整个实测发现，实在是太好用了。翻译软件做到的它能做，翻译软件不能做的它也能做。

1/20/2025 3:50:00 PM

量子位

OpenAI博士级「超级智能体」即将登场？与ChatGPT深度集成，可操控计算机

就在刚刚，一则消息曝出，OpenAI已经在内部开始测试Operator，并将很快在ChatGPT macOS中推出。这意味着，AI即将迎来一个「全新版本」的应用范式。它不再仅仅是和你进行对话，被动式的给出参考答案来辅助你解决问题。

1/20/2025 3:32:41 PM

新智元

o1推理框架最新成果：斯坦福&伯克利提出元链式思维，升级模型推理能力

o1背后的推理原理，斯坦福和伯克利帮我们总结好了！在最新的一篇长达100页的论文中，他们将o1模型背后的推理机制提炼成了一个通用的框架——元链式思维（Meta-CoT）。这个元链式思维（Meta-CoT）到底是什么意思呢？

1/20/2025 1:08:25 PM

量子位

阿里发布新ID保持项目EcomID, 可从单个ID参考图像生成定制的保ID图像，ComfyUI可使用

阿里妈妈发布了一个新的ID保持项目EcomID，旨在从单个ID参考图像生成定制的保ID图像，优势在于很强的语义一致性，同时受人脸关键点控制。 EcomID 方法结合了 PuLID 和 InstantID 的优点，以获得更好的背景一致性、面部关键点控制、更真实的面部以及更高的相似度。目前，EcomID 的 Comfyui 原生实现官方插件也已经发布，大家可以从文章中的链接获取。

1/20/2025 11:00:00 AM

AIGC Studio

东京大学 | Adobe 提出InstructMove，可通过观察视频中的动作来实现基于指令的图像编辑

InstructMove是一种基于指令的图像编辑模型，使用多模态 LLM 生成的指令对视频中的帧对进行训练。该模型擅长非刚性编辑，例如调整主体姿势、表情和改变视点，同时保持内容一致性。此外，该方法通过集成蒙版、人体姿势和其他控制机制来支持精确的局部编辑。

1/20/2025 10:36:00 AM

AIGC Studio

LineArt：无需训练的高质量设计绘图生成方法，可保留结构准确性并生成高保真外观

本文经AIGC Studio公众号授权转载，转载请联系出处。今天给大家介绍一种无需训练的基于扩散模型的高质量设计绘图外观迁移方法LineArt，该方法可以将复杂外观转移到详细设计图上的框架，可促进设计和艺术创作。现有的图像生成技术在细节保留和风格样式一致性方面存在局限，尤其是在处理专业设计图时。

1/20/2025 10:23:00 AM

AIGC Studio

多活十年！OpenAI为研究长寿推出GPT-4b，联手清华大牛丁胜搞“细胞重编程”，奥特曼本人投资

OpenAI要研究人类长寿问题了？？推出新模型GPT-4b micro。

1/20/2025 9:38:00 AM

量子位

o1不是聊天模型！前SpaceX工程师：这样用o1才能解决复杂问题

「我是如何从讨厌o1到每天用它来解决我最重要的问题的？我学会了如何正确使用它。」Ben Hylak曾是SpaceX软件工程师、苹果VisionOS人机交互设计师，后来离职创立了Dawn Analytics。

1/20/2025 9:28:00 AM

新智元

扩散模型低位量化突破！有效扩散量化的极限推向2-4位，W2A4位宽下FID降低58%，超越SOTA方法

降低扩散模型生成的计算成本，性能还保持在高水平！最新研究提出一种用于极低位差分量化的混合精度量化方法。 △图1 W2A6位宽下基线和MPQ-DM生成的样本可视化目前，扩散模型在生成任务中受到了广泛关注。

1/20/2025 9:20:00 AM

量子位

Search版o1：推理过程会主动查资料，整体性能优于人类专家，清华人大出品

一个新框架，让Qwen版o1成绩暴涨：在博士级别的科学问答、数学、代码能力的11项评测中，能力显著提升，拿下10个第一！这就是人大、清华联手推出的最新「Agentic搜索增强推理模型框架」Search-o1的特别之处。项目团队成员发现，o1和o1类模型在推理过程中表现突出，但却存在“知识不足”的明显缺陷——推理步骤太长/模型知识不足时，推理过程就很容易卡壳，导致推理链中的错误传递。

1/20/2025 9:05:00 AM

量子位