理论

AI未来之路:五大发展预测

AI创新持续加速,重塑我们的工作方式、生活方式和互动方式。 从变革性的商业策略到日常技术,AI的影响无处不在。 尽管有些宣传可能过于夸张,但AI的采用速度仍然是前所未有的。

在北京,英伟达透露了人形机器人的未来:50年发展路缩至5年,靠“三台计算机”

2025,人形机器人量产元年。 CES上老黄带着14台机器人亮相这一幕刚过去不久,SemiAnalysis分析师的一条预测再次引起热议。 英伟达最终将成为一家机器人公司,而不仅仅是半导体公司。

给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料

近期关于 scaling law 的讨论甚嚣尘上,很多观点认为 scale law is dead. 然而,我们认为,高质量的 “无监督” 数据才是 scaling law 的关键,尤其是教科书级别的高质量的知识语料。 此外,尽管传统的语料快枯竭了,但是互联网上还有海量的视频并没有被利用起来,它们囊括了丰富的多种模态的知识,可以帮助 VLMs 更好好地理解世界。

小红书AI翻译加急上线,网友评论区玩起Prompt,背后大模型被扒出

网友盛赞“最有用的大模型应用”,小红书AI翻译功能上线了! (Doge)一整个实测发现,实在是太好用了。 翻译软件做到的它能做,翻译软件不能做的它也能做。

CIO面临抉择:AI投资的快速回报与创新目标

一些企业已经开始看到早期AI投资的回报,而另一些企业则在着眼长远。 专家表示,最佳路径应兼顾二者。 当今CIO的AI战略是一个相互竞争的议程故事:一方面是快速见效的生产力提升,另一方面是改变游戏规则的长期创新。

OpenAI博士级「超级智能体」即将登场?与ChatGPT深度集成,可操控计算机

就在刚刚,一则消息曝出,OpenAI已经在内部开始测试Operator,并将很快在ChatGPT macOS中推出。 这意味着,AI即将迎来一个「全新版本」的应用范式。 它不再仅仅是和你进行对话,被动式的给出参考答案来辅助你解决问题。

小红书翻译紧急上线,见证历史:大模型翻译首次上线C端应用!AI竟自称是GPT-4?网友变身“测试狂魔”,疯狂套话,效果拉满了!

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)程序员键盘敲冒烟,小红书翻译功能这不是就来了吗! 之前大家各种吐槽美国人用的翻译机器不准确,导致大家交流起来“人机感很重”,一些美网友还需要额外用ChatGPT才能实现无缝交流。 这翻译功能一出来,语言障碍什么的都不存在了。

惊掉下巴!o3像是一个弥天大谎!基准构建者Epoch AI发长文认错曝猛料:OpenAI竟独家访问数据集,问题和答案可用来训练!

出品 | 51CTO技术栈(微信号:blog51cto)惊天大瓜来了! 去年年底OpenAI 推出o3推理,在数学、编码、通用AGI方面都取得了令人的难以置信的类人甚至超人的进展。 但就在昨天,大洋彼岸的一众人工智能专家开始对“o3”的这些数据表示严重的怀疑,甚至将之比作“Theranos”时刻(一家建立在巨大谎言之上的公司,项目参与人员被迫保密,外界却被蒙在鼓里)。

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

OpenAI o3还没上线,就被曝数学成绩是靠作弊得来? Benchmark发布机构内部人员爆料称,OpenAI给了他们经费赞助。 就连包括陶哲轩在内参与出题的60余名数学家,在消息曝光之前也都和普通公众一样蒙在鼓里。

微软开源Markdown工具爆了:支持Office文档,可接多模态LLM直出报告

微软官方开源了一款文件格式转换工具——MarkItDown! 它不仅可以将常见的Office文档(Word、PowerPoint、Excel)、PDF、图像、音频等转换为对大模型更友好的Markdown格式。 而且还支持集成像GPT-4o这样的多模态LLM,可以直接对图片、音频文件进行更高级的处理,比如快速输出商业报告。

o1推理框架最新成果:斯坦福&伯克利提出元链式思维,升级模型推理能力

o1背后的推理原理,斯坦福和伯克利帮我们总结好了! 在最新的一篇长达100页的论文中,他们将o1模型背后的推理机制提炼成了一个通用的框架——元链式思维(Meta-CoT)。 这个元链式思维(Meta-CoT)到底是什么意思呢?

o3被曝成绩「造假」,60多位数学泰斗集体被耍!OpenAI暗中操控,考卷提前看光

不久前,OpenAI在「圣诞12连更」中发布的最强推理模型「o3」,毫无疑问地惊艳了所有人。 尤其是对于新近发布的数学基准FrontierMath,其准确率相比o1直接翻了12倍。 图片要知道FrontierMath可是Epoch AI联合六十余位全世界的数学家,其中包括教授、IMO命题人、菲尔兹奖获得者,共同推出的。

AI红队:构建安全AI只是梦想

负责微软100多个GenAI产品红队测试的团队得出结论,构建安全可靠的AI系统的工作永远不会完成。 本周发表的一篇论文中,包括微软Azure首席技术官Mark Russinovich在内的作者们描述了团队的一些工作,并提出了八项建议,旨在“使红队测试工作与现实世界的风险相一致”。 论文的主要作者、微软AI红队(AIRT)研究员Blake Bullwinkel和他的25位合著者在论文中写道:“随着GenAI系统在越来越多领域的应用,AI红队测试已成为评估这些技术安全性和可靠性的核心实践。

港大&Adobe提出通用生成框架UniReal:通过学习真实世界动态实现通用图像生成和编辑

本文经AIGC Studio公众号授权转载,转载请联系出处。 今天给大家介绍的文章来自公众号粉丝投稿,由香港大学,Adobe提出的统一图像生产与编辑方法UniReal,将多种图像任务统一成视频生成的范式,并且在大规模视频中学习真实的动态与变化,在指令编辑、图像定制化、图像组合等多种任务达到最佳水准。 上图为UniReal多功能性的展示。

阿里发布新ID保持项目EcomID, 可从单个ID参考图像生成定制的保ID图像,ComfyUI可使用

阿里妈妈发布了一个新的ID保持项目EcomID,旨在从单个ID参考图像生成定制的保ID图像,优势在于很强的语义一致性,同时受人脸关键点控制。 EcomID 方法结合了 PuLID 和 InstantID 的优点,以获得更好的背景一致性、面部关键点控制、更真实的面部以及更高的相似度。 目前,EcomID 的 Comfyui 原生实现官方插件也已经发布,大家可以从文章中的链接获取。

知乎直答:AI 搜索产品从 0 到 1 实践探索

一、知乎直答产品介绍知乎直答是具有强社区属性的通用 AI 搜索产品,但并非社区版 AI 搜索。 知乎直答具有以下几大优势:认真专业:与知乎专注专业内容生产的调性相符,严格把控参考来源与质量,确保回答认真且专业。 连接创作者:可在使用中关注、与创作者交流互动获取专业见解。

东京大学 | Adobe 提出InstructMove,可通过观察视频中的动作来实现基于指令的图像编辑

InstructMove是一种基于指令的图像编辑模型,使用多模态 LLM 生成的指令对视频中的帧对进行训练。 该模型擅长非刚性编辑,例如调整主体姿势、表情和改变视点,同时保持内容一致性。 此外,该方法通过集成蒙版、人体姿势和其他控制机制来支持精确的局部编辑。

LineArt:无需训练的高质量设计绘图生成方法,可保留结构准确性并生成高保真外观

本文经AIGC Studio公众号授权转载,转载请联系出处。 今天给大家介绍一种无需训练的基于扩散模型的高质量设计绘图外观迁移方法LineArt,该方法可以将复杂外观转移到详细设计图上的框架,可促进设计和艺术创作。 现有的图像生成技术在细节保留和风格样式一致性方面存在局限,尤其是在处理专业设计图时。