AI资讯列表 - AI在线

谷歌 Gemini 家族添 Flash 新成员：平衡规模和能力、支持多模态，单次可分析 3 万行代码

谷歌公司今天扩充 Gemini 家族成员，推出了全新的 Gemini 1.5 Flash 模型，重点优化了该模型的速度和效率。谷歌 DeepMind 首席执行官德米斯・哈萨比斯（Demis Hassabis）在一篇博客文章中写道：Gemini 1.5 Flash 擅长摘要、聊天应用、图像和视频字幕、从长文档和表格中提取数据等。哈萨比斯补充说，谷歌之所以创建 Gemini 1.5 Flash，是因为开发人员需要一个比谷歌今年 2 月发布的 Gemini 1.5 Pro 更轻便、更便宜的模型。IT之家注：Gemini

可以折叠抱回家的人形机器人来了，只要9.9万元

机器之能原创作者：Cardinal昨天，宇树科技正式推出最新的人形机器人 Unitree G1，起步价仅 9.9 万元（人民币）九个月前，宇树科技发布了公司第一款通用人形机器人 Unitree H1，售价 9 万美金（！）。和 H1 相比，Unitree G1 身材大幅「缩水」，但多了一双手，关节数量也更多，价格比 H1 便宜了几十万！也远低于现有人形机器人公司报价！机器之心，赞352站在 1.78 米的 Unitree H1 旁边，Unitree G1 完全一副一年级小学生模样，身高 1.27 米，体重 70

OpenAI 曾秘密测试 GPT-4o，力压群雄登顶聊天机器人竞技场排行榜

OpenAI 员工 William Fedus 周一在社交平台 X 证实，近期在 LMSYS 聊天机器人竞技场 (Chatbot Arena) 上表现优异的神秘聊天机器人“gpt-chatbot”，正是他们刚刚发布的全新人工智能模型 GPT-4o。Fedus 还透露，GPT-4o 在测试中登顶了竞技场排行榜，取得了有史以来的最高分。“GPT-4o 是我们最先进的尖端模型，”Fedus 在推特上写道，“我们一直在竞技场使用‘im-also-a-good-gpt2-chatbot’的名称测试该模型的一个版本。”聊天机器

AI 聊天机器人大战升温：谷歌 Gemini 预告片展示惊艳语音视频交互能力

人工智能聊天机器人领域烽烟再起，谷歌和 OpenAI 之间激烈的竞争态势愈演愈烈。就在谷歌一年一度的 I / O 开发者大会召开前夕，这家科技巨头发布了一段视频，展示了疑似经过升级的 Gemini 聊天机器人。视频中，Gemini 可以同时实时处理来自视频和语音的输入。这段视频貌似是在 I / O 大会搭建现场拍摄的，视频展示了 Gemini 在一台 Pixel 手机上流畅地处理实时视频和语音提问，并准确地提供信息。当被问到正在进行的布置工作时，Gemini 正确识别出这是为一个重要活动做的准备。整个对话过程自然

OpenAI 解释为何率先推出 Mac 版 ChatGPT 应用：用户更多

OpenAI 今日凌晨举办线上活动，发布了 ChatGPT 的一系列更新，其中包括升级版大型语言模型 GPT-4o，该模型具备增强的实时语音功能和更快的运行速度。图源：OpenAI众所周知，OpenAI 与微软关系密切，后者向其投资了超过 100 亿美元（IT之家备注：当前约 724 亿元人民币），并已经在自家的 Copilot 服务中使用 OpenAI 的技术。然而在本次活动上，OpenAI 率先发布了 macOS 版 ChatGPT 应用，Windows 版本今年晚些时候才会推出。对此，OpenAI 技术总监

腾讯混元文生图大模型对外开源：搭载首个中英双语 DiT 架构，免费商用

感谢腾讯宣布旗下的混元文生图大模型升级并对外开源，目前已经在 Hugging Face 及 Github 上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。▲ 混元文生图效果▲ 混元长文生图效果升级后的混元文生图大模型采用了与 Sora 一致的 DiT 架构，腾讯表示，混元 DiT 是首个中英双语 DiT 架构。混元 DiT 是一个基于 Diffusion transformer 的文本到图像生成模型，此模型具有中英文细粒度理解能力，混元 DiT 能够与用户进行多轮对话，根据上下文生

GPT-4o 模型登陆微软 Azure OpenAI 服务，性能更强价格更低

OpenAI 于今日凌晨发布了其最新的旗舰人工智能模型 GPT-4o。相比先前版本，GPT-4o 实现了诸多升级：速度提升一倍，价格降低 50%（百万 token 的处理成本降至 7 美元），并且支持每分钟处理高达千万 token 的数据量。该模型拥有 128K 的上下文记忆能力，知识截止时间为 2023 年 10 月。微软宣布，已通过 Azure OpenAI 服务提供 GPT-4o 的预览版本。与以往的模型不同，GPT-4o 能够无缝处理文本、图像和音频信息，为用户带来更加丰富、沉浸的交互体验。不过IT之家注意

狂奔一年后的向量数据库，何去何从？｜对话 MyScaleDB

2023 年可以说是大模型元年，借着大模型的东风，向量数据库也迎来了大爆发，被带到了更高的关注度上。一方面，向量数据库和 RAG 得到广泛的关注和认可，是因为他们的确可以解决一些短期内大模型无法攻克的难题，比如模型幻觉问题等。同时，在尝试用向量数据库和 RAG 做场景落地的时候，效果也还不错。不过另一方面，我们也无法回避对他们普遍的困惑与争议，比如向量数据库是否已经凉了，以及如今势头正盛的 RAG 是否会被长文本杀死等等。那此刻距离 ChatGPT 的发布已经有一年多的时间，站在当下的这个时间点上来看，向量数据库和

免费GPT-4o来袭，音频视觉文本实现「大一统」

作者 | 赖文昕今天凌晨，即北京时间5月14日1点整，OpenAI 召开了首场春季发布会，CTO Mira Murati 在台上和团队用短短不到30分钟的时间，揭开了最新旗舰模型 GPT-4o 的神秘面纱，以及基于 GPT-4o 的 ChatGPT，均为免费使用。此前，有传言称 OpenAI 将推出 AI 搜索引擎，旨在与谷歌明天举办的 I/O 开发者大会一较高下，一度引发了公众的热烈讨论。不过 Sam Altman 随后在 X（原推特）上表示，要展示的并非 GPT-5 或搜索引擎，而是一些令人期待的创新成果，他本人对此充满期待，认为其像魔法一样神奇。

AI 可能是我们未能与外星文明取得联系的「大过滤器」

编辑 | X人工智能（AI）在过去几年中以惊人的速度发展。一些科学家现在正着眼于超级人工智能（Artificial Superintelligence，ASI）的发展，这是一种不仅超越人类智能，而且不受人类学习速度限制的 AI。但如果这个里程碑不仅仅是一项了不起的成就呢？如果它也代表了所有文明发展的一个巨大瓶颈，一个如此具有挑战性的瓶颈，以至于阻碍了它们的长期生存，该怎么办？AI 是否会成为宇宙的「大过滤器」——一个难以克服的门槛，阻止大多数生命进化成太空文明？这个概念或许可以解释为什么搜寻地外文明计划（SETI）

效率高、成本低，从单一结构到平衡分布，微软AI分子预测框架登Nature子刊

编辑 | 紫罗近年来，深度学习技术在分子微观结构预测中取得了巨大的进展。然而，分子的宏观属性和功能往往取决于分子结构在平衡态下的分布，仅了解分子的微观结构还远远不够。获得这些分布的传统方法，如分子动力学模拟，但这些方法昂贵又耗时。在此，来自微软研究院科学智能中心（Microsoft Research AI4Science）的研究人员，提出了一种可用于预测分子结构平衡分布的深度学习框架，称为分布式图分析器（Distributional Graphormer，DiG）。DiG 框架能够有效生成不同的构象，并提供状态密度

重新定义Ultra标准，vivo X100系列新品正式发布

5 月 13 日，vivo X100 系列新品三舰齐发，宣布与蔡司签署全新的联合研发扩展协议，以自研和共研并行的开放体系，与蔡司共同探索移动影像新高度。同时推出了蓝图影像，在 X100 系列上市的蓝图影像专属于 vivo｜蔡司联合研发产品线，代表了 vivo 影像在关键场景的认知与积累。vivo 已经连续三年稳坐国产手机销量第一。今年 Q1，vivo 持续保持了第一成绩，满分旗舰 X100 系列功不可没。在 vivo X100、vivo X100 Pro 持续热销收获好口碑之时，vivo 此次升级发布了 vivo

买烟酒不用出示证件，德国超市 Edeka Jaegar 引入 AI 视觉技术检测顾客年龄

德国超市 Edeka Jaegar 近日宣布在斯图加特机场内开设的商店中引入了一款利用 AI 检查顾客年龄的自主结账机系统，号称能够利用视觉处理技术分析消费者面部特征，来判断年龄“放行”顾客购买限制商品。该超市表示，此前消费者购买烟酒等有年龄限制的商品时，如果使用自助结账机，也必须由真人店员检查证件，拖延结账效率。而在引入相关 AI 摄像头后，一旦在顾客自助结账时扫描“年龄限制”商品，系统就会询问客户是否需要进行年龄识别。一旦获得同意，结账机就会设备内置的摄像头配合算法来实时验证年龄。如果购物者的年龄高于预定义的阈

Anthropic 宣布在欧洲推出 Claude 聊天机器人，精通多种语言

人工智能初创公司 Anthropic 宣布其生成式 AI 助手 Claude 将于当地时间周二在欧洲上线，该公司的基础软件产品已经在欧洲各地的金融和酒店等行业获得了一定的吸引力。Anthropic 还将提供付费订阅版本，名为 Claude Pro，向用户开放其所有模型（包括最先进的 Claude 3 Opus）。此外，Anthropic 还推出了面向企业的 Claude Team 订阅计划，月费 28 欧元（IT之家备注：当前约 219 元人民币，不含增值税）。Anthropic 首席执行官 Dario Amode

OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

ChatGPT 问世才 17 个月，OpenAI 就拿出了科幻电影里的超级 AI，而且完全免费，人人可用。太震撼了！当各家科技公司还在追赶大模型多模态能力，把总结文本、P 图等功能放进手机里的时候，遥遥领先的 OpenAI 直接开了大招，发布的产品连自家 CEO 奥特曼都惊叹：就像电影里一样。5 月 14 日凌晨，OpenAI 在首次「春季新品发布会」上搬出了新一代旗舰生成模型 GPT-4o、桌面 App，并展示了一系列新能力。这一次，技术颠覆了产品形态，OpenAI 用行动给全世界的科技公司上了一课。今天的主持人

零一万物Yi-1.5来了，国产开源大模型排行榜再次刷新

在 OpenAI 发布会的前一天，来自中国的大模型公司零一万物，让开源大模型社区活跃了起来：Yi 大模型家族新成员「Yi-1.5」模型正式开源。在项目主页可以看到，Yi-1.5 包括一系列预训练和微调模型，分为 6B、9B、34B 三个版本，采用 Apache 2.0 许可证。GitHub 地址： Face 模型下载地址：，Yi-1.5 是 Yi-1.0 的持续预训练版本，使用 500B 个 token 来提高编码、推理和指令执行能力，并在 300 万个指令调优样本上进行了精细调整。刚一发布，就已经有开发者跃跃欲试

微软让MoE长出多个头，大幅提升专家激活率

MH-MoE 能优化几乎所有专家，实现起来非常简单。混合专家（MoE）是个好方法，支持着现在一些非常优秀的大模型，比如谷歌家的 Gemini 1.5 以及备受关注的 Mixtral 8x7B。稀疏混合专家（SMoE）可在不显著增加训练和推理成本的前提下提升模型的能力。比如 Mixtral 8×7B 就是一个 SMoE 模型，其包含 8 个专家（共 7B 参数），而其表现却可以超过或比肩 LLaMA-2 70B 和 GPT-3.5。但是，它也有两个问题。一是专家激活率低 —— 也就是搞不好会出现下图这种情况：具体来说

西浦、利物浦大学提出：点云数据增强首个全面综述

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本论文的第一作者朱钦峰是西交利物浦大学和利物浦大学联合培养的一年级在读博士，其导师为范磊副教授。他的主要研究方向为语义分割、多模态信息融合、3D视觉、高光谱图像和数据增强。该课题组正在招收