AI资讯列表 - AI在线

OpenAI 升级 Whisper 语音转录 AI 模型，不牺牲质量速度快 8 倍

OpenAI 在 10 月 1 日举办的 DevDay 活动日中，宣布推出了 Whisper large-v3-turbo 语音转录模型，共有 8.09 亿参数，在质量几乎没有下降的情况下，速度比 large-v3 快 8 倍。Whisper large-v3-turbo 语音转录模型是 large-v3 的优化版本，并且只有 4 层解码器层（Decoder Layers），作为对比 large-v3 共有 32 层。Whisper large-v3-turbo 语音转录模型共有 8.09 亿参数，比 7.69 亿

OpenAI 雄心：2026 年销售额 256 亿美元，2029 年破 1000 亿美元

科技媒体 The Information 昨日（10 月 2 日）发布博文，披露了一份 OpenAI 公司本次 66 亿美元融资的 PPT 演示文稿，其中提及公司目标 2026 年收入提升至 256 亿美元（当前约 1798.87 亿元人民币）。OpenAI 当前公司年销售额在 40 亿美元（当前约 281.07 亿元人民币），AI在线援引该媒体报道附上 OpenAI 的目标计划如下：2025 年达到 116 亿美元（当前约 815.11 亿元人民币）2026 年达到 256 亿美元（当前约 1798.87 亿元人

谷歌 DeepMind 携手 BioNTech 打造 AI 科学助手：规划实验、预测结果，助力科技变革

科技媒体 techopedia 昨日（10 月 2 日）报道，谷歌旗下 DeepMind 与 BioNTech 合作，开发 AI 实验室助手，帮助研究人员规划实验和预测结果。该项目由谷歌 AI 部门负责人 Demis Hassabis 爵士领导，通过推动新型科学助理，转变医疗、能源和教育等行业。Hassabis 出席诺贝尔基金会近期举办的活动，强调 AI 正在转变生物学领域，希望创建一个能够预测实验结果的 AI 助手，提升研究人员在实验室的能力。然而，关于 DeepMind 和 BioNTech 将共同做什么的细节

安卓平台吃上 AI，谷歌 Gemini Nano 轻量模型面向开发者开启测试

随着 AI 技术不断发展，移动设备上的人工智能功能正愈发重要，谷歌公司现已向安卓开发者开放 Gemini Nano 轻量 AI 模型试用，该模型主要适用于性能较低的手机 / 平板电脑，开发者现在可以使用谷歌提供的 AI Edge SDK 轻松为自家应用整合该模型。Gemini Nano 隶属 Google Gemini 模型家族，号称专为设备端轻量级任务设计，提供灵活且高效的 AI 功能，其推理任务完全在设备端完成，无需连接云端服务器，因此拥有“保障隐私”、“无需联网”、“无需订阅”三大优势。Gemini Nano

谷歌追赶 OpenAI，加速推进会“思考”的 AI 通用推理模型

感谢彭博社昨日（10 月 2 日）报道，谷歌公司正在开发类人推理 AI，希望在进度方面追赶 OpenAI 公司的 o1 模型。OpenAI 最近为 ChatGPT 引入了 o1-preview 和 o1-mini 模型，可以模拟人类的思考模式，实现通用推理，让 AI 实现“思考”。AI在线援引彭博社报道，谷歌公司目前也在积极推进通用推理 AI 模型的落地，该 AI 模型更擅长处理数学和编程，不过消耗更多的处理能力和能源。知情人士称，与 OpenAI 一样，谷歌也在尝试使用一种名为“思维链提示”的技术来接近人类的推理

OpenAI 笑傲 AI 江湖：66 亿美元掀起融资狂潮，9 个月估值接近翻番至 1570 亿美元

感谢路透社今天（10 月 3 日）发布博文，报道 OpenAI 公司于美国当地时间周三宣布成功融资 66 亿美元（AI在线备注：当前约 463.64 亿元人民币），公司估值达到 1570 亿美元（当前约 1.1 万亿元人民币），短短 9 个月时间公司估值接近翻倍，创下硅谷历史最高纪录。AI在线援引 FT 报道，在本次融资过程中，OpenAI 经历了诸多风波，除了内部多名联合创始人出走之外，在本次融资中也出现了诸多情况。据了解情况的三位人士透露，在谈判期间，OpenAI 明确表示希望获得独家融资安排，希望投资者在 A

整合海量公共数据，谷歌开源 AI 统计学专家 DataGemma

准确的统计数据、时效性强的信息，一直是大语言模型产生幻觉的重灾区。知识是现成的，但学是不可能学的。并非此身惰怠，只因现实太多阻碍。对于这个问题，谷歌在近日推出了自己筹划已久的大型数据库 Data Commons，以及在此基础上诞生的大模型 DataGemma。论文地址： Commons 是一个庞大的开源公共统计数据存储库，包含来自联合国（UN）、疾病控制与预防中心（CDC）、人口普查局、卫生部、环境机构、经济部门、非政府组织和学术机构等可信来源的大量统计数据。目前，整个语料库包含超过 2500 亿个数据点和超过 2

OpenAI 联合创始人 Durk Kingma 加盟 Anthropic

感谢Durk Kingma 是 OpenAI 公司不太知名的一位联合创始人，今天他宣布将加入 Anthropic。在 X 上的一系列帖子中，Kingma 透露他将主要在荷兰（他所在的地方）远程工作，但没有说他将加入或领导哪个 Anthropic 部门。“Anthropic 的 AI 开发方法与我自己的信念产生了强烈共鸣，”Kingma 写道。“期待为 Anthropic 的使命 ——“负责任地开发强大 AI 系统”做出贡献。迫不及待地想与他们才华横溢的团队合作，包括来自 OpenAI 和谷歌的一些优秀的前同事，并应

10 倍速度提升，新版 Dream Machineds 可在 20 秒内极速生成高质量 AI 视频

科技媒体 The Decoder 昨日（10 月 1 日）发布博文，报道称 Luma AI 升级推出 1.6 版 Dream Machine，AI 视频生成速度快 10 倍。Luma AI 简介Luma AI 是一家专注于人工智能技术的公司，主要提供视频生成和 3D 捕捉的解决方案。Dream Machine 简介Dream Machine 是一个先进的文本转视频生成器，用户可以通过输入文本来创建引人注目的视频。这项技术旨在激发创意，帮助用户实现更大的创作潜力。官方介绍如下：梦想机器让每个人都可以在迄今为止无法进入

微调 GPT-4o AI 模型新维度，OpenAI 开放图片视觉微调功能

OpenAI 公司昨日（10 月 1 日）发布博文，宣布为 GPT-4o 模型引入视觉微调（vision fine-tuning）功能，除了文本之外还支持微调图像。OpenAI 表示自开放微调 GPT-4o 以来，数十万开发者使用数据集（仅文本）微调了该模型，从而提高了驾驭某些特定任务的能力。OpenAI 在博文中展示了一些合作伙伴的微调案例：Garb ：通过视觉微调，提升了交通标志定位准确性 20% 和限速标志定位 13%。Automat：成功率从 16.60% 提升至 61.67%，并在信息提取任务中 F1 分

紧跟微软步伐，谷歌开始为 Chromebook 机型添加专用 AI 按键

继微软为 Windows 11 设备推出 AI 专用按键后，谷歌目前也正为 Chromebook 设备加入 AI 功能专属实体按键。参考AI在线今日早间报道，谷歌与三星昨晚推出了一款 Galaxy Chromebook Plus 笔记本，这款笔记本的一大亮点是键盘拥有全新 Quick Insert 实体按键，号称是首款具有 AI 功能的 Chromebook 机型。AI在线注意到，Quick Insert 键位于该机笔记本 Tab 键下方，与 CapsLock 大小写锁定共用一个按键，谷歌声称该键可为所有用户提供即

OpenAI 发布 Realtime API，助力第三方应用集成其语音合成技术

科技媒体 The Decoder 昨日（10 月 1 日）发布博文，报道称 OpenAI 在旧金山开发者大会（DevDay）上，发布了 Realtime API，可以让开发者调用该 API 在第三方应用中集成语音合成技术。OpenAI 表示开发者通过调用新的 Realtime API，可以在其应用中添加 6 种 AI 语音，AI在线注：OpenAI 为了避免法律问题，开发者不能使用第三方语音。OpenAI 还展示了其它应用场景，表示可用于客户支持、语言学习、教育软件等，开发者可以利用语音交互增强用户体验：OpenA

PyTorch 架构优化库 torchao 正式发布，可大幅提升 AI 模型效率

据 PyTorch 新闻稿，PyTorch 旗下架构优化库 torchao 现已正式发布，该优化库主要专注于模型的量化和稀疏性优化，能够在保证性能的同时降低模型的计算成本和 RAM 用量，从而提升模型运行效率，AI在线附 GitHub 页面地址（点此访问）。据介绍，torchao 提供了一系列优化工具集，可以帮助 LLaMA 3 等流行的 AI 模型提升性能，其支持 float8、int4 等低精度数据类型，能够有效减少硬件开销和 RAM 用量。官方举例，在 LLaMA 3 70B 模型的预训练中，torchao

ECCV2024奖项公布，哥大摘最佳论文，微软COCO数据集获经典论文奖

你去现场参会了吗？近日，位列计算机视觉领域三大国际顶级会议的 ECCV 2024 在意大利米兰开幕，本届会议的各奖项已经揭晓。据大会官方统计，今年共有 2395 篇论文被录用，录用率为 18%，创下近年新低。昨晚，大会公布了一系列奖项，哥伦比亚大学的研究者摘得最佳论文奖，还有 2 篇论文获得了最佳论文荣誉提名奖。与往届一样，大会还公布了经典论文 Koenderink 奖和 PAMI Everingham 奖。最佳论文奖本届最佳论文由来自哥伦比亚大学的两位学者摘得。论文地址：，他们分别是 Shree Nayar 和

Pika 1.5王者归来！将一切压扁、膨胀、融化、爆炸，化身为了超强特效利器

「I am back !」去年 11 月，「横空出世」的 Pika 展现出了令人惊艳的视频生成效果，并点燃了视频生成领域。今年 6 月 5 日，Pika 宣布已完成 8000 万美元（约合人民币 5.8 亿元）的 B 轮融资，总融资额达到 1.35 亿美元，较 2023 年末，公司投后估值实现翻倍至 4.7 亿美元。但是，面对以 Sora 为代表的各种「后辈」视频生成模型的冲击，Pika 迟迟没有大的版本更新。就在几个小时前，Pika 官方推特（X）时隔数月后，终于「发声」了。新版本 Pika 1.5 正式与大家见

乏善可陈的第二届OpenAI开发者大会，果然没有掀起太大波澜

OpenAI宫斗后的 DevDay 开发者大会，没有什么惊喜。OpenAI 的宫斗大戏刚落下帷幕，今日凌晨就在旧金山召开了第二届 DevDay 开发者大会。不过，与去年盛大的活动相比，今年略显低调，他们没有推出重大产品，而是选择对其现有的 AI 工具和 API 进行增量改进。在这次活动中，OpenAI 发布了四大API新功能：视觉微调（Vision Fine-Tuning）、实时 API（Realtime API）、模型蒸馏（Model Distillation）和提示缓存（Prompt Caching）。这些新工

mini-GPT4o来了? 能看、能听、会说，还情感丰富的多模态全能助手EMOVA

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本文作者来自香港科技大学、香港大学和华为诺亚方舟实验室等机构。其中第一作者陈铠、苟耘豪、刘智立为香港科技大学在读博士生，黄润辉为香港大学在读博士生，谭达新为诺亚方舟实验室研究员。随着 Op

ECCV2024 Oral | 第一视角下的动作图像生成，Meta等提出LEGO模型

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本文的作者主要来自于 Meta 和佐治亚理工大学。第一作者是佐治亚理工机器学习专业的博士生赖柏霖（目前也是 UIUC 的访问学生），导师为 James Rehg 教授（已转入 UIUC），