理论

微软开源Markdown工具爆了：支持Office文档，可接多模态LLM直出报告

微软官方开源了一款文件格式转换工具——MarkItDown！它不仅可以将常见的Office文档（Word、PowerPoint、Excel）、PDF、图像、音频等转换为对大模型更友好的Markdown格式。而且还支持集成像GPT-4o这样的多模态LLM，可以直接对图片、音频文件进行更高级的处理，比如快速输出商业报告。

1/20/2025 1:10:22 PM

量子位

o1推理框架最新成果：斯坦福&伯克利提出元链式思维，升级模型推理能力

o1背后的推理原理，斯坦福和伯克利帮我们总结好了！在最新的一篇长达100页的论文中，他们将o1模型背后的推理机制提炼成了一个通用的框架——元链式思维（Meta-CoT）。这个元链式思维（Meta-CoT）到底是什么意思呢？

1/20/2025 1:08:25 PM

量子位

o3被曝成绩「造假」，60多位数学泰斗集体被耍！OpenAI暗中操控，考卷提前看光

不久前，OpenAI在「圣诞12连更」中发布的最强推理模型「o3」，毫无疑问地惊艳了所有人。尤其是对于新近发布的数学基准FrontierMath，其准确率相比o1直接翻了12倍。图片要知道FrontierMath可是Epoch AI联合六十余位全世界的数学家，其中包括教授、IMO命题人、菲尔兹奖获得者，共同推出的。

1/20/2025 12:09:18 PM

新智元

AI红队：构建安全AI只是梦想

负责微软100多个GenAI产品红队测试的团队得出结论，构建安全可靠的AI系统的工作永远不会完成。本周发表的一篇论文中，包括微软Azure首席技术官Mark Russinovich在内的作者们描述了团队的一些工作，并提出了八项建议，旨在“使红队测试工作与现实世界的风险相一致”。论文的主要作者、微软AI红队(AIRT)研究员Blake Bullwinkel和他的25位合著者在论文中写道：“随着GenAI系统在越来越多领域的应用，AI红队测试已成为评估这些技术安全性和可靠性的核心实践。

1/20/2025 11:24:56 AM

Paul Barker

港大&Adobe提出通用生成框架UniReal：通过学习真实世界动态实现通用图像生成和编辑

本文经AIGC Studio公众号授权转载，转载请联系出处。今天给大家介绍的文章来自公众号粉丝投稿，由香港大学，Adobe提出的统一图像生产与编辑方法UniReal，将多种图像任务统一成视频生成的范式，并且在大规模视频中学习真实的动态与变化，在指令编辑、图像定制化、图像组合等多种任务达到最佳水准。上图为UniReal多功能性的展示。

1/20/2025 11:15:00 AM

AIGC Studio

阿里发布新ID保持项目EcomID, 可从单个ID参考图像生成定制的保ID图像，ComfyUI可使用

阿里妈妈发布了一个新的ID保持项目EcomID，旨在从单个ID参考图像生成定制的保ID图像，优势在于很强的语义一致性，同时受人脸关键点控制。 EcomID 方法结合了 PuLID 和 InstantID 的优点，以获得更好的背景一致性、面部关键点控制、更真实的面部以及更高的相似度。目前，EcomID 的 Comfyui 原生实现官方插件也已经发布，大家可以从文章中的链接获取。

1/20/2025 11:00:00 AM

AIGC Studio

知乎直答：AI 搜索产品从 0 到 1 实践探索

一、知乎直答产品介绍知乎直答是具有强社区属性的通用 AI 搜索产品，但并非社区版 AI 搜索。知乎直答具有以下几大优势：认真专业：与知乎专注专业内容生产的调性相符，严格把控参考来源与质量，确保回答认真且专业。连接创作者：可在使用中关注、与创作者交流互动获取专业见解。

1/20/2025 10:40:08 AM

王界武

东京大学 | Adobe 提出InstructMove，可通过观察视频中的动作来实现基于指令的图像编辑

InstructMove是一种基于指令的图像编辑模型，使用多模态 LLM 生成的指令对视频中的帧对进行训练。该模型擅长非刚性编辑，例如调整主体姿势、表情和改变视点，同时保持内容一致性。此外，该方法通过集成蒙版、人体姿势和其他控制机制来支持精确的局部编辑。

1/20/2025 10:36:00 AM

AIGC Studio

LineArt：无需训练的高质量设计绘图生成方法，可保留结构准确性并生成高保真外观

本文经AIGC Studio公众号授权转载，转载请联系出处。今天给大家介绍一种无需训练的基于扩散模型的高质量设计绘图外观迁移方法LineArt，该方法可以将复杂外观转移到详细设计图上的框架，可促进设计和艺术创作。现有的图像生成技术在细节保留和风格样式一致性方面存在局限，尤其是在处理专业设计图时。

1/20/2025 10:23:00 AM

AIGC Studio

Github热门机器学习笔记:「从零构建大型语言模型」

本文经AIGC Studio公众号授权转载，转载请联系出处。今天给大家推荐一份GitHub上很火的机器学习学习笔记《从零构建大型语言模型》，目前已经收获1.4K stars，，这份笔记完美展示了从零构建LLM的技术路线图，既有理论深度，又包含实践要点。每个核心概念都配有清晰的示意图，便于理解和实践。

1/20/2025 9:41:29 AM

AIGC Studio

多活十年！OpenAI为研究长寿推出GPT-4b，联手清华大牛丁胜搞“细胞重编程”，奥特曼本人投资

OpenAI要研究人类长寿问题了？？推出新模型GPT-4b micro。

1/20/2025 9:38:00 AM

量子位

o1不是聊天模型！前SpaceX工程师：这样用o1才能解决复杂问题

「我是如何从讨厌o1到每天用它来解决我最重要的问题的？我学会了如何正确使用它。」Ben Hylak曾是SpaceX软件工程师、苹果VisionOS人机交互设计师，后来离职创立了Dawn Analytics。

1/20/2025 9:28:00 AM

新智元

终于把机器学习中的特征选择搞懂了！！

特征选择是机器学习中的一个重要过程，通过选择与目标变量最相关的特征，剔除冗余或无关的特征，从而提高模型的性能、减少训练时间，并降低过拟合的风险。常见的特征选择方法有：过滤方法、包装方法和嵌入方法过滤方法过滤方法是一种基于统计特性和独立于模型的特征选择技术。它通过计算特征与目标变量之间的相关性或其他统计指标来评估特征的重要性。

1/20/2025 9:21:00 AM

程序员小寒

扩散模型低位量化突破！有效扩散量化的极限推向2-4位，W2A4位宽下FID降低58%，超越SOTA方法

降低扩散模型生成的计算成本，性能还保持在高水平！最新研究提出一种用于极低位差分量化的混合精度量化方法。 △图1 W2A6位宽下基线和MPQ-DM生成的样本可视化目前，扩散模型在生成任务中受到了广泛关注。

1/20/2025 9:20:00 AM

量子位

返老还童，OpenAI做到了？首个逆龄AI将登场，人类寿命可延长10年

超级智能要来了？人类「长生不老」有希望了？外媒称，OpenAI开发出了首款用于「长寿」的AI模型 ——GPT-4b micro，预计将人类寿命延长10年。

1/20/2025 9:13:00 AM

新智元

Search版o1：推理过程会主动查资料，整体性能优于人类专家，清华人大出品

一个新框架，让Qwen版o1成绩暴涨：在博士级别的科学问答、数学、代码能力的11项评测中，能力显著提升，拿下10个第一！这就是人大、清华联手推出的最新「Agentic搜索增强推理模型框架」Search-o1的特别之处。项目团队成员发现，o1和o1类模型在推理过程中表现突出，但却存在“知识不足”的明显缺陷——推理步骤太长/模型知识不足时，推理过程就很容易卡壳，导致推理链中的错误传递。

1/20/2025 9:05:00 AM

量子位