应用

5秒内快速生成、直出工业级PBR资产，三维扩散模型3DTopia-XL开源

AIxiv 专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线 AIxiv 专栏接收报道了 2000 多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]是否还在苦恼于开源图生 / 文生三维模型无法直接嵌入到 CG 工作流中？是否在寻找具备高质量几何与物理材质的三维生成大模型？最近，上海人工智能实验室（Shanghai AI La

10/4/2024 3:54:00 PM

机器之心

Lumigator 评估框架登场：Mozilla 赋能开发者 AI 旅程，助其选择最佳模型

Mozilla 昨日（10 月 3 日）发布博文，推出了 Lumigator 新框架，主要帮助开发者为其项目挑选合适的 AI 大语言模型（LLM）。Mozilla 想要解决的问题Mozilla 公司在博文中表示，相比较 AI 大语言模型的繁荣，相关的评估工具尚未跟上发展的步伐，由于没有清晰的统一方法来比较模型，让开发者和企业难以做出明智的选择。Mozilla Lumigator 框架Mozilla 在博文中表示 Lumigator 主要有以下特点：透明和高效的模型选择：Lumigator 的目标是使模型选择过程变得

10/4/2024 1:16:16 PM

故渊

阿尔特曼畅想 AI 未来：“魔镜”变革交互、智能体实现速度跃迁、新硬件奏响时代凯歌

科技媒体 The Decoder 昨日（10 月 3 日）发布博文，报道称山姆・阿尔特曼（Sam Altman）在 OpenAI 的 DevDays 活动上，分享了他对人工智能（AI）互动未来的想法。AI在线附上完整演讲视频如下：构想未来 AI 系统阿尔特曼在活动中描述了一种可以改变我们使用计算机和与世界互动方式的人工智能系统。在他勾勒的未来场景中，用户可以走到一块“镜子”前，说出想要的任何内容。先进的推理模型和代理将为每个请求实时创建自定义界面，用户可以通过对话或导航个性化的视频源进行互动。阿尔特曼表示：“这将

10/4/2024 11:43:48 AM

故渊

OpenAI 获得 40 亿美元周转信贷，公司流动资金破 100 亿美元

感谢CNBC 昨日（10 月 3 日）发布博文，报道称 OpenAI 公司在完成 66 亿美元新一轮融资之外，还获得 40 亿美元周转信贷，意味着该公司的流动资金超过 100 亿美元（AI在线备注：当前约 703.61 亿元人民币）。OpenAI 获得了 40 亿美元周转信贷，参与融资的金融机构包括摩根大通、花旗、高盛、摩根士丹利、桑坦德集团、富国银行、SMBC、瑞士银行和汇丰银行。报道称 OpenAI 的基础信用额度为 40 亿美元，且可选择额外增加 20 亿美元，该贷款为无担保贷款，可以在三年内使用。OpenA

10/4/2024 11:04:06 AM

故渊

OpenAI 推出全新写作、编码工具 ChatGPT Canvas，将免费开放

感谢OpenAI 今日宣布推出全新写作、编码工具 Canvas，这是一个与 ChatGPT 合作编写和编码项目的新界面，超越了简单的聊天。AI在线从官方介绍获悉，ChatGPT Canvas 可以更好地了解任务的上下文，用户可以突出显示特定部分，以准确表明希望 ChatGPT 关注的内容。用户也可以直接编辑文本或代码，要求 ChatGPT 调整写入长度、调试代码并快速执行其他操作，并且提供后退按钮来恢复作品的先前版本。写作功能包括：建议编辑：ChatGPT 提供建议和反馈。调整文章长度：将文档长度编辑为更短或更长。

10/4/2024 10:05:56 AM

浩渺

谷歌 Lens 开启 AI 新篇章：视频、语音多维度拓展，搜索、购物、识曲探索多元未来

谷歌公司昨日（10 月 3 日）发布博文，宣布升级旗下的 Google Lens 服务，在现有拍照、图片搜索基础上，支持视频搜索和语音输入，解锁 AI 时代新的提问方式。Google Lens 简介Google Lens 是由谷歌开发的一种图像识别技术，旨在通过识别图像中的对象，提供相关信息。这项技术可以帮助用户更好地理解周围的世界，使用起来非常简单。晒成绩谷歌在博文中首先晒出了 Google Lens 取得的成绩，表示每月全球视觉搜索次数逼近 200 亿次，帮助人们通过相机或屏幕搜索他们所看到的内容。其中年轻用户

10/4/2024 7:28:51 AM

故渊

快手可灵 AI 新增“对口型”功能：生成人物口型与上传音频同步

感谢快手旗下可灵 AI 官方宣布，新增对口型功能，并面向所有用户开放 API 服务。在可灵 AI 生成人物视频后，上传音频，即可让视频人物口型和音频同步。可灵 1.0 及 1.5 模型生成的视频，只要满足视频画面的人脸条件，均支持对口型（目前仅支持人物类角色（真实 / 3D / 2D）进行对口型，动物类角色对口型暂不支持）。AI在线获悉，可灵 AI 正式面向所有用户开放 API 服务，支持在平台自助购买 API 资源包。官方表示，API 的效果与平台效果完全一致，1.5 模型和运动笔刷目前暂不支持 API，会尽快迭

10/3/2024 4:56:28 PM

沛霖（实习）

英特尔新版 AI Playground 上线：酷睿 Ultra 200V 笔记本处理器专享主题，本地模型驾驭文生图等任务

英特尔公司于 10 月 1 日发布博文，宣布针对英特尔酷睿 Ultra 200V 系列“Lunar Lake”笔记本处理器，升级了 AI Playground 应用程序。英特尔 AI Playground 简介英特尔的 AI Playground 是一个开源应用程序，旨在为用户提供简单易用的人工智能功能，特别是针对使用英特尔 Arc 显卡的用户。官方介绍如下：AI Playground 可免费下载且易于使用，帮助您探索最新的 AI 创新。从只需几个单词即可创建迷人的图片或编辑照片，到数秒内编写复杂的研究论文，英特尔

10/3/2024 3:42:22 PM

故渊

奥特曼赢家通吃！OpenAI再揽66亿美元新融资，还不忘「狙击」一把老同事Ilya

OpenAI的估值在 9 个月内上涨了超过 700 亿美元。闹得满城风雨的 OpenAI 融资传闻终于尘埃落定。10 月 2 日，OpenAI 突然发布公告称，它融了一笔 66 亿美元的巨款，投后估值飙涨到 1570 亿美元，这意味着，其估值在 9 个月内翻了一番。到底是谁这么大手笔？综合各方消息来看，此轮融资由 OpenAI 老股东 Thrive Capital 领投，微软、英伟达、软银等参投。不过，OpenAI 此次融资仍是引发不小的争议。首先是它那不寻常的附加条件。OpenAI 要求投资者不能支持竞争对手的初

10/3/2024 2:42:00 PM

机器之心

一张人脸照片，Meta眼镜识别全部个人信息，两位哈佛开发者：只为警醒世人

不知不觉中，智能眼镜也成为了隐私窥探器。在现代生活中，隐私一直是智能眼镜存在的主要问题之一。我们以谷歌智能眼镜项目为例，它失败的部分原因就在于人们对于在公共场所未经同意被拍摄表达了强烈反对。不过，随着视频博主、TikTok 等短视频应用的兴起，很多人似乎慢慢习惯了被拍摄。尤其是当智能眼镜与一幅普通眼镜的区别没有那么大时，你可能已经走进了别人的影像中。近日，两名哈佛学生 AnhPhu Nguyen 和 Caine Ardayfio 在推特上发布的一段视频火了。视频中，他们表示构建了一款能够识别出大街上任何人的眼镜，只

10/3/2024 2:38:00 PM

机器之心

Windows 竞技场：面向下一代AI Agent的测试集

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected] 和 ChatGPT 这样的 AI 助手已经成为了百万用户的日常工具，它们可以帮我们完成各种任务：写代码开发程序、回答问题、甚至研究创新食谱。那么，随着大语言模型的发展

10/3/2024 2:36:00 PM

机器之心

OpenAI 升级 Whisper 语音转录 AI 模型，不牺牲质量速度快 8 倍

OpenAI 在 10 月 1 日举办的 DevDay 活动日中，宣布推出了 Whisper large-v3-turbo 语音转录模型，共有 8.09 亿参数，在质量几乎没有下降的情况下，速度比 large-v3 快 8 倍。Whisper large-v3-turbo 语音转录模型是 large-v3 的优化版本，并且只有 4 层解码器层（Decoder Layers），作为对比 large-v3 共有 32 层。Whisper large-v3-turbo 语音转录模型共有 8.09 亿参数，比 7.69 亿

10/3/2024 11:44:37 AM

故渊

OpenAI 雄心：2026 年销售额 256 亿美元，2029 年破 1000 亿美元

科技媒体 The Information 昨日（10 月 2 日）发布博文，披露了一份 OpenAI 公司本次 66 亿美元融资的 PPT 演示文稿，其中提及公司目标 2026 年收入提升至 256 亿美元（当前约 1798.87 亿元人民币）。OpenAI 当前公司年销售额在 40 亿美元（当前约 281.07 亿元人民币），AI在线援引该媒体报道附上 OpenAI 的目标计划如下：2025 年达到 116 亿美元（当前约 815.11 亿元人民币）2026 年达到 256 亿美元（当前约 1798.87 亿元人

10/3/2024 11:29:57 AM

故渊

谷歌 DeepMind 携手 BioNTech 打造 AI 科学助手：规划实验、预测结果，助力科技变革

科技媒体 techopedia 昨日（10 月 2 日）报道，谷歌旗下 DeepMind 与 BioNTech 合作，开发 AI 实验室助手，帮助研究人员规划实验和预测结果。该项目由谷歌 AI 部门负责人 Demis Hassabis 爵士领导，通过推动新型科学助理，转变医疗、能源和教育等行业。Hassabis 出席诺贝尔基金会近期举办的活动，强调 AI 正在转变生物学领域，希望创建一个能够预测实验结果的 AI 助手，提升研究人员在实验室的能力。然而，关于 DeepMind 和 BioNTech 将共同做什么的细节

10/3/2024 11:18:29 AM

故渊

安卓平台吃上 AI，谷歌 Gemini Nano 轻量模型面向开发者开启测试

随着 AI 技术不断发展，移动设备上的人工智能功能正愈发重要，谷歌公司现已向安卓开发者开放 Gemini Nano 轻量 AI 模型试用，该模型主要适用于性能较低的手机 / 平板电脑，开发者现在可以使用谷歌提供的 AI Edge SDK 轻松为自家应用整合该模型。Gemini Nano 隶属 Google Gemini 模型家族，号称专为设备端轻量级任务设计，提供灵活且高效的 AI 功能，其推理任务完全在设备端完成，无需连接云端服务器，因此拥有“保障隐私”、“无需联网”、“无需订阅”三大优势。Gemini Nano

10/3/2024 9:15:31 AM

漾仔

谷歌追赶 OpenAI，加速推进会“思考”的 AI 通用推理模型

感谢彭博社昨日（10 月 2 日）报道，谷歌公司正在开发类人推理 AI，希望在进度方面追赶 OpenAI 公司的 o1 模型。OpenAI 最近为 ChatGPT 引入了 o1-preview 和 o1-mini 模型，可以模拟人类的思考模式，实现通用推理，让 AI 实现“思考”。AI在线援引彭博社报道，谷歌公司目前也在积极推进通用推理 AI 模型的落地，该 AI 模型更擅长处理数学和编程，不过消耗更多的处理能力和能源。知情人士称，与 OpenAI 一样，谷歌也在尝试使用一种名为“思维链提示”的技术来接近人类的推理

10/3/2024 7:45:54 AM

故渊

OpenAI 笑傲 AI 江湖：66 亿美元掀起融资狂潮，9 个月估值接近翻番至 1570 亿美元

感谢路透社今天（10 月 3 日）发布博文，报道 OpenAI 公司于美国当地时间周三宣布成功融资 66 亿美元（AI在线备注：当前约 463.64 亿元人民币），公司估值达到 1570 亿美元（当前约 1.1 万亿元人民币），短短 9 个月时间公司估值接近翻倍，创下硅谷历史最高纪录。AI在线援引 FT 报道，在本次融资过程中，OpenAI 经历了诸多风波，除了内部多名联合创始人出走之外，在本次融资中也出现了诸多情况。据了解情况的三位人士透露，在谈判期间，OpenAI 明确表示希望获得独家融资安排，希望投资者在 A

10/3/2024 6:37:12 AM

故渊

整合海量公共数据，谷歌开源 AI 统计学专家 DataGemma

准确的统计数据、时效性强的信息，一直是大语言模型产生幻觉的重灾区。知识是现成的，但学是不可能学的。并非此身惰怠，只因现实太多阻碍。对于这个问题，谷歌在近日推出了自己筹划已久的大型数据库 Data Commons，以及在此基础上诞生的大模型 DataGemma。论文地址： Commons 是一个庞大的开源公共统计数据存储库，包含来自联合国（UN）、疾病控制与预防中心（CDC）、人口普查局、卫生部、环境机构、经济部门、非政府组织和学术机构等可信来源的大量统计数据。目前，整个语料库包含超过 2500 亿个数据点和超过 2

10/2/2024 11:06:38 PM

汪淼

资讯热榜

Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna AI视频资讯早读！7个产品更新+8个案例精选纳米AI发布MCP万能工具箱，简化AI工具集成与调用即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度 DeepWiki：AI驱动的GitHub代码库百科全书正式亮相腾讯混元3D AI引擎2.5即将揭晓，3D生成技术再升级 OpenAI发布gpt-image-1 API，4o图像生成能力正式开放白板+代码编辑器组合工具pad.ws：开发者可在同一界面画图编程，实现边画边写代码

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能开源用户学习 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion Gemini 马斯克算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Anthropic Sora 3D AI for Science AI设计机器学习 GPU AI视频开发者场景华为预测人形机器人百度伟达苹果 Transformer 深度学习 xAI 模态字节跳动大语言模型 Claude 搜索驾驶神器推荐文本具身智能 Copilot LLaMA 算力安全视觉视频生成干货合集应用大型语言模型科技亚马逊训练特斯拉 AGI DeepMind