AI资讯列表 - AI在线

谷歌追赶 OpenAI，加速推进会“思考”的 AI 通用推理模型

感谢彭博社昨日（10 月 2 日）报道，谷歌公司正在开发类人推理 AI，希望在进度方面追赶 OpenAI 公司的 o1 模型。OpenAI 最近为 ChatGPT 引入了 o1-preview 和 o1-mini 模型，可以模拟人类的思考模式，实现通用推理，让 AI 实现“思考”。AI在线援引彭博社报道，谷歌公司目前也在积极推进通用推理 AI 模型的落地，该 AI 模型更擅长处理数学和编程，不过消耗更多的处理能力和能源。知情人士称，与 OpenAI 一样，谷歌也在尝试使用一种名为“思维链提示”的技术来接近人类的推理

OpenAI 笑傲 AI 江湖：66 亿美元掀起融资狂潮，9 个月估值接近翻番至 1570 亿美元

感谢路透社今天（10 月 3 日）发布博文，报道 OpenAI 公司于美国当地时间周三宣布成功融资 66 亿美元（AI在线备注：当前约 463.64 亿元人民币），公司估值达到 1570 亿美元（当前约 1.1 万亿元人民币），短短 9 个月时间公司估值接近翻倍，创下硅谷历史最高纪录。AI在线援引 FT 报道，在本次融资过程中，OpenAI 经历了诸多风波，除了内部多名联合创始人出走之外，在本次融资中也出现了诸多情况。据了解情况的三位人士透露，在谈判期间，OpenAI 明确表示希望获得独家融资安排，希望投资者在 A

整合海量公共数据，谷歌开源 AI 统计学专家 DataGemma

准确的统计数据、时效性强的信息，一直是大语言模型产生幻觉的重灾区。知识是现成的，但学是不可能学的。并非此身惰怠，只因现实太多阻碍。对于这个问题，谷歌在近日推出了自己筹划已久的大型数据库 Data Commons，以及在此基础上诞生的大模型 DataGemma。论文地址： Commons 是一个庞大的开源公共统计数据存储库，包含来自联合国（UN）、疾病控制与预防中心（CDC）、人口普查局、卫生部、环境机构、经济部门、非政府组织和学术机构等可信来源的大量统计数据。目前，整个语料库包含超过 2500 亿个数据点和超过 2

OpenAI 联合创始人 Durk Kingma 加盟 Anthropic

感谢Durk Kingma 是 OpenAI 公司不太知名的一位联合创始人，今天他宣布将加入 Anthropic。在 X 上的一系列帖子中，Kingma 透露他将主要在荷兰（他所在的地方）远程工作，但没有说他将加入或领导哪个 Anthropic 部门。“Anthropic 的 AI 开发方法与我自己的信念产生了强烈共鸣，”Kingma 写道。“期待为 Anthropic 的使命 ——“负责任地开发强大 AI 系统”做出贡献。迫不及待地想与他们才华横溢的团队合作，包括来自 OpenAI 和谷歌的一些优秀的前同事，并应

10 倍速度提升，新版 Dream Machineds 可在 20 秒内极速生成高质量 AI 视频

科技媒体 The Decoder 昨日（10 月 1 日）发布博文，报道称 Luma AI 升级推出 1.6 版 Dream Machine，AI 视频生成速度快 10 倍。Luma AI 简介Luma AI 是一家专注于人工智能技术的公司，主要提供视频生成和 3D 捕捉的解决方案。Dream Machine 简介Dream Machine 是一个先进的文本转视频生成器，用户可以通过输入文本来创建引人注目的视频。这项技术旨在激发创意，帮助用户实现更大的创作潜力。官方介绍如下：梦想机器让每个人都可以在迄今为止无法进入

微调 GPT-4o AI 模型新维度，OpenAI 开放图片视觉微调功能

OpenAI 公司昨日（10 月 1 日）发布博文，宣布为 GPT-4o 模型引入视觉微调（vision fine-tuning）功能，除了文本之外还支持微调图像。OpenAI 表示自开放微调 GPT-4o 以来，数十万开发者使用数据集（仅文本）微调了该模型，从而提高了驾驭某些特定任务的能力。OpenAI 在博文中展示了一些合作伙伴的微调案例：Garb ：通过视觉微调，提升了交通标志定位准确性 20% 和限速标志定位 13%。Automat：成功率从 16.60% 提升至 61.67%，并在信息提取任务中 F1 分

紧跟微软步伐，谷歌开始为 Chromebook 机型添加专用 AI 按键

继微软为 Windows 11 设备推出 AI 专用按键后，谷歌目前也正为 Chromebook 设备加入 AI 功能专属实体按键。参考AI在线今日早间报道，谷歌与三星昨晚推出了一款 Galaxy Chromebook Plus 笔记本，这款笔记本的一大亮点是键盘拥有全新 Quick Insert 实体按键，号称是首款具有 AI 功能的 Chromebook 机型。AI在线注意到，Quick Insert 键位于该机笔记本 Tab 键下方，与 CapsLock 大小写锁定共用一个按键，谷歌声称该键可为所有用户提供即

OpenAI 发布 Realtime API，助力第三方应用集成其语音合成技术

科技媒体 The Decoder 昨日（10 月 1 日）发布博文，报道称 OpenAI 在旧金山开发者大会（DevDay）上，发布了 Realtime API，可以让开发者调用该 API 在第三方应用中集成语音合成技术。OpenAI 表示开发者通过调用新的 Realtime API，可以在其应用中添加 6 种 AI 语音，AI在线注：OpenAI 为了避免法律问题，开发者不能使用第三方语音。OpenAI 还展示了其它应用场景，表示可用于客户支持、语言学习、教育软件等，开发者可以利用语音交互增强用户体验：OpenA

PyTorch 架构优化库 torchao 正式发布，可大幅提升 AI 模型效率

据 PyTorch 新闻稿，PyTorch 旗下架构优化库 torchao 现已正式发布，该优化库主要专注于模型的量化和稀疏性优化，能够在保证性能的同时降低模型的计算成本和 RAM 用量，从而提升模型运行效率，AI在线附 GitHub 页面地址（点此访问）。据介绍，torchao 提供了一系列优化工具集，可以帮助 LLaMA 3 等流行的 AI 模型提升性能，其支持 float8、int4 等低精度数据类型，能够有效减少硬件开销和 RAM 用量。官方举例，在 LLaMA 3 70B 模型的预训练中，torchao

ECCV2024奖项公布，哥大摘最佳论文，微软COCO数据集获经典论文奖

你去现场参会了吗？近日，位列计算机视觉领域三大国际顶级会议的 ECCV 2024 在意大利米兰开幕，本届会议的各奖项已经揭晓。据大会官方统计，今年共有 2395 篇论文被录用，录用率为 18%，创下近年新低。昨晚，大会公布了一系列奖项，哥伦比亚大学的研究者摘得最佳论文奖，还有 2 篇论文获得了最佳论文荣誉提名奖。与往届一样，大会还公布了经典论文 Koenderink 奖和 PAMI Everingham 奖。最佳论文奖本届最佳论文由来自哥伦比亚大学的两位学者摘得。论文地址：，他们分别是 Shree Nayar 和

Pika 1.5王者归来！将一切压扁、膨胀、融化、爆炸，化身为了超强特效利器

「I am back !」去年 11 月，「横空出世」的 Pika 展现出了令人惊艳的视频生成效果，并点燃了视频生成领域。今年 6 月 5 日，Pika 宣布已完成 8000 万美元（约合人民币 5.8 亿元）的 B 轮融资，总融资额达到 1.35 亿美元，较 2023 年末，公司投后估值实现翻倍至 4.7 亿美元。但是，面对以 Sora 为代表的各种「后辈」视频生成模型的冲击，Pika 迟迟没有大的版本更新。就在几个小时前，Pika 官方推特（X）时隔数月后，终于「发声」了。新版本 Pika 1.5 正式与大家见

乏善可陈的第二届OpenAI开发者大会，果然没有掀起太大波澜

OpenAI宫斗后的 DevDay 开发者大会，没有什么惊喜。OpenAI 的宫斗大戏刚落下帷幕，今日凌晨就在旧金山召开了第二届 DevDay 开发者大会。不过，与去年盛大的活动相比，今年略显低调，他们没有推出重大产品，而是选择对其现有的 AI 工具和 API 进行增量改进。在这次活动中，OpenAI 发布了四大API新功能：视觉微调（Vision Fine-Tuning）、实时 API（Realtime API）、模型蒸馏（Model Distillation）和提示缓存（Prompt Caching）。这些新工

mini-GPT4o来了? 能看、能听、会说，还情感丰富的多模态全能助手EMOVA

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本文作者来自香港科技大学、香港大学和华为诺亚方舟实验室等机构。其中第一作者陈铠、苟耘豪、刘智立为香港科技大学在读博士生，黄润辉为香港大学在读博士生，谭达新为诺亚方舟实验室研究员。随着 Op

ECCV2024 Oral | 第一视角下的动作图像生成，Meta等提出LEGO模型

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本文的作者主要来自于 Meta 和佐治亚理工大学。第一作者是佐治亚理工机器学习专业的博士生赖柏霖（目前也是 UIUC 的访问学生），导师为 James Rehg 教授（已转入 UIUC），

非 Transformer 架构 AI 模型 Liquid 问世，号称性能“凌驾 Meta Llama / 微软 Phi”

去年刚成立的 Liquid AI 公司于 9 月 30 日发布了三款 Liquid 基础模型（Liquid Foundation Models，LFM），分别为 LFM-1.3B、LFM-3.1B 和 LFM-40.3B。这些模型均采用非 Transformer 架构，号称在基准测试中凌驾同规模的 Transformer 模型。AI在线注意到，目前业界在深度学习和自然语言处理方面主要使用 Transformer 架构，该架构主要利用自注意力机制捕捉序列中单词之间的关系，包括 OpenAI 的 GPT、Meta 的

安卓版谷歌 Gemini Live 上线，助力 AI 开启全民语音聊天时代

谷歌公司昨日（10 月 1 日）在 X 平台发布推文，宣布通过 Gemini 应用，现面向所有安卓用户开放 Gemini Live 功能。AI在线曾于 8 月报道，谷歌在 Pixel 9 系列手机发布会上，发布了 Gemini Live，该服务提供了一种移动对话体验，让用户和 Gemini 展开自由流畅的对话。Gemini Live 可以说是对标 OpenAI ChatGPT 最新上线的 Advanced Voice 模式，采用了增强型语音引擎，可以展开更连贯、更有情感表达力、更逼真的多轮对话。需要注意的是，目前仅

OpenAI 引领 AI 浪潮：o1 模型可处理 5 小时任务，颠覆营销思维和模式

科技媒体 The Decoder 昨日（9 月 30 日）发布博文，报道称在 Hubspot 的 Inbound 活动上，OpenAI 战略营销负责人 Dane Vahey 表示 o1 模型可以处理 5 小时的任务。营销人员需要提高 AI 技能Vahey 认为，随着营销任务变得越来越复杂，人工智能正变得越来越重要，专业人士需要以更低的获取成本和更少的资源实现相同的结果。虽然许多公司已经在营销中使用人工智能，特别是在内容创作方面，但 Vahey 认为市场营销人员应该发展更广泛的人工智能技能，这些技能包括研究、数据分析

一手训练，多手应用：国防科大提出灵巧手抓取策略迁移新方案

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]