谷歌

文生图技能再进化,谷歌推出 Imagen 3:更准确、更具创造性

谷歌公司在今天召开的 I / O 2024 开发者大会上,宣布推出了 Imagen 3,进一步增强了文本生成图片的技术能力。谷歌人工智能研究部门 DeepMind 负责人德米斯-哈萨比斯(Demis Hassabis)说,与前代产品 Imagen 2 相比,Imagen 3 能更准确地理解文字提示,并将其转化为图像,而且其生成的图像更具“创造性和细节”,且模型产生的干扰元素和错误也更少。为了打消人们对 Deepfake 可能性的担忧,谷歌表示,Imagen 3 将使用 DeepMind 开发的 SynthID 方法

剑指 Sora,谷歌推出 Veo 文生视频模型:时长超 1 分钟、最高 1080P,支持电影手法

感谢OpenAI 三个月前推出文本转视频 Sora,引发了网友、媒体以及圈内人士的广泛讨论。谷歌在今天召开的 2024 I / O 开发者大会上,也推出了对标产品-- Veo,可以生成长度超过 1 分钟,分辨率最高 1080P 的“高质量”视频,并具有多种视觉和电影风格。根据谷歌官方新闻稿,Veo 具备对自然语言有先进的理解能力,能够理解“延时摄影”、“航拍风景”等电影术语。用户可以使用文本、图像或视频提示来指导他们所需的输出,谷歌表示,这样产生的视频“更加连贯一致”,在整个镜头中人物、动物和物体的动作也更加逼真。

对轰 GPT-4o,谷歌推出 Astra 项目:手机镜头内低延迟聊天交互

谷歌公司在今天召开的 2024 年 I / O 开发者大会上,推出了全新的 Project Astra 项目,基于 Gemini,可以本地运行在 Pixel 手机上,可以说是对标 OpenAI GPT-4o 的最新模型。谷歌表示 Project Astra 是最新的多模态 AI 项目,用户打开摄像头,该多模态项目可以直接解释用户画面中物品。该公司刚刚用一段令人印象深刻的视频演示了它的功能,在一个不间断的镜头中,它能正确识别几件物品,回忆起它在哪里看到了主人的眼镜(靠近桌子上的一个红苹果),还能解释屏幕上的代码。IT

谷歌今夏推“Ask Photos”功能,聊天方式更快找到照片和视频

谷歌公司在今天召开的 2024 年 I / O 开发者大会上,宣布今年夏季将为 Google Photos 推出“Ask Photos”辅助服务,带来更贴心的搜索体验。谷歌首席执行官桑达尔・皮查伊现场演示,询问 Google Photos 应用:“我的车牌号是多少来着?”此前用户搜索车牌需要滚动浏览许多不同汽车的照片,而在演示中 Google Photos 能根据位置、多年来在照片中出现的次数和其他数据,找出哪辆车才是要找的车牌号,并以文字回复的形式提供了实际车牌号,同时还提供了一张验证车牌号的图片。皮查伊表示 A

谷歌 Gemini 家族添 Flash 新成员:平衡规模和能力、支持多模态,单次可分析 3 万行代码

谷歌公司今天扩充 Gemini 家族成员,推出了全新的 Gemini 1.5 Flash 模型,重点优化了该模型的速度和效率。谷歌 DeepMind 首席执行官德米斯・哈萨比斯(Demis Hassabis)在一篇博客文章中写道:Gemini 1.5 Flash 擅长摘要、聊天应用、图像和视频字幕、从长文档和表格中提取数据等。哈萨比斯补充说,谷歌之所以创建 Gemini 1.5 Flash,是因为开发人员需要一个比谷歌今年 2 月发布的 Gemini 1.5 Pro 更轻便、更便宜的模型。IT之家注:Gemini

AI 聊天机器人大战升温:谷歌 Gemini 预告片展示惊艳语音视频交互能力

人工智能聊天机器人领域烽烟再起,谷歌和 OpenAI 之间激烈的竞争态势愈演愈烈。就在谷歌一年一度的 I / O 开发者大会召开前夕,这家科技巨头发布了一段视频,展示了疑似经过升级的 Gemini 聊天机器人。视频中,Gemini 可以同时实时处理来自视频和语音的输入。这段视频貌似是在 I / O 大会搭建现场拍摄的,视频展示了 Gemini 在一台 Pixel 手机上流畅地处理实时视频和语音提问,并准确地提供信息。当被问到正在进行的布置工作时,Gemini 正确识别出这是为一个重要活动做的准备。 整个对话过程自然

“面对面通话”指日可待,谷歌、惠普明年将推动全息视频聊天技术商业化

谷歌今日通过新闻稿宣布,将与惠普于 2025 年开始推动全息视频聊天技术 Project Starline 的商业化。谷歌表示,Project Starline 是一个突破性的技术项目,可以让朋友、家人和同事在任何距离都感觉对方近在咫尺。该项目利用先进的 AI、三维成像和其他技术,可以使用户在通话时就像与对方“同处一室”一样。 未来,这项技术将会走出实验室,将从明年开始在 Google Meet 或 Zoom 等视频会议服务中启用这种体验。惠普个人系统总裁 Alex Cho 表示,“一半以上的意义和意图是通过肢体语

多模态AI是医学的未来,谷歌推出三个新模型,Med-Gemini迎来大升级

编辑 | 白菜叶许多临床任务需要了解专业数据,例如医学图像、基因组学,这类专业知识信息在通用多模态大模型的训练中通常不存在。在上一篇论文的描述中,Med-Gemini 在各种医学成像任务上超越 GPT-4 系列模型实现了 SOTA!在这里,Google DeepMind 撰写了第二篇关于 Med-Gemini 的论文。在 Gemini 的多模态模型的基础上,该团队为 Med-Gemini 系列开发了多个模型。这些模型继承了 Gemini 的核心功能,并通过 2D 和 3D 放射学、组织病理学、眼科、皮肤病学和基因组

知情人士称 OpenAI 人工智能搜索产品有望于下周一推出

感谢路透社援引两位知情人士的话称,OpenAI 计划于下周一(5 月 13 日)正式公布其人工智能搜索产品,不过报道中强调具体公告日期可能发生变化。OpenAI 拒绝对路透社的报道置评。外媒 The Information 在今年 2 月的报道中指出,OpenAI 一直在秘密开发其自家网络搜索服务,并将获得来自微软 Bing(必应)搜索引擎的支持。微软在去年就已在 Bing 中集成了来自 OpenAI 的技术。5 月 13 日的时间点正好早于谷歌本年度的 I / O 开发者大会。谷歌预计将在开发者大会上宣布一系列人

硅谷 AI 工程师内卷崩溃记:996 写代码项目被砍,连续熬夜只为讨好投资人

【新智元导读】亚马逊工程师一个周末辛苦写出的代码,因为项目最终被降级而白白浪费了。AI 爆火的背面,是一众硅谷大厂员工的疯狂内耗。越来越密集的活动日程表,越来越不可思议的 deadline,为董事会准备毫无用途的 AI 产品展示…… 被迫「内卷」的大厂 AI 工程师们,已经感到窒息。AI 爆火之后,硅谷的工程师们已经被「内卷」搞得精疲力竭,苦不堪言!放弃整个周末休息辛苦写出的代码,因为项目降低优先级全部白费。大家你追我赶,争取比竞家更快发布产品,一切都向速度看齐。领导疯狂发号施令,但对项目的实际影响漠不关心。为了赶

挑战谷歌巨头地位?消息称 OpenAI 于 5 月 9 日发布 ChatGPT 版搜索引擎

谷歌 Gemini 和微软 Copilot 之间的 AI 大战继续升级,最新消息称 OpenAI 有望今年 5 月 9 日推出基于 ChatGPT 的全新搜索产品,进一步挑战谷歌的传统搜索巨头地位。Reddit 网友近日发帖,表示 search.chatgpt.com 域名和相关的 SSL 证书已经被创建,网友 @nonmayorpete 发布推文称该域名将于 5 月 9 日上线。IT之家现在访问该域名,跳出的结果是“Not found”信息,而不是 404 或者域名错误,进一步间接证明了上述猜测。OpenAI 首

Python团队还没解散完,谷歌又对Flutter、Dart动手了

谷歌在开发者大会前,对多个关键技术团队进行裁员。上周,「谷歌解雇 Python 基础团队」的消息引发热议。谷歌 Python 指导委员会成员 Thomas Wouters 的一条动态让所有人感到惊讶:「当与你直接共事的每个人,包括你的主管,都被裁员 —— 哦,是职位被削减,而你被要求安排他们的替代者入职,这些人被告知在不同的国家担任同样的职位,但他们并不为此感到高兴,这是很艰难的一天。」就在人们讨论谷歌裁撤 Python 团队的原因时,谷歌再度传来「解雇 Flutter、Dart、Python 等关键团队的员工」的

谷歌员工爆料Python基础团队原地解散

什么?谷歌解雇了整个 Python 基础团队?「当与你直接共事的每个人,包括你的主管,都被裁员 —— 哦,是职位被削减,而你被要求安排他们的替代者入职,这些人被告知在不同的国家担任同样的职位,但他们并不为此感到高兴,这是很艰难的一天。」发布这一动态的 Thomas Wouters,简介是「Google 员工、Python 指导委员会、Python 3.12 和 3.13 的发布主管」。这个消息惊动了领域内的很多开发者,包括 PyTorch 创始人、Meta 杰出工程师 Soumith Chintala:被讨论最多的

谷歌正测试全新 AI 功能,陪你练英语口语

如何提高英语口语呢?或许很多人都没有条件和外国人面对面互动,谷歌近日测试的“Speaking practice”功能有望缓解这个问题,增强学习者的口语能力。谷歌 Search Labs 目前已经在阿根廷、哥伦比亚、印度、印度尼西亚、墨西哥和委内瑞拉进行测试该功能,后续可能会扩展到全球更多国家和地区。根据网友 @howfxr 分享的截图,该功能通过生成式 AI 增强英语口语练习,并通过示例帮助学习者提高口语。IT之家附上图片如下:

无向图最小割问题取得新突破,谷歌研究获SODA 2024最佳论文奖

谷歌博客放出新研究,求解无向图的最小割问题。1996 年, 美国计算机科学家 David R Karger 连同其他研究者在论文《 A new approach to the minimum cut problem》中提出了一个令人惊讶的随机算法 Karger 算法,其在理论计算机科学中非常重要,尤其适用于大规模图的近似最小割问题。Karger 算法可以在时间为 O (m log^3n) 的图中找到一个最小割点,他们将这个时间称之为近线性时间,意思是线性乘以一个多对数因子。在谷歌刚刚更新的一篇博客中,他们介绍了之前

DeepMind CEO 称谷歌计算能力优于微软,在 AI 领域的投入将超过千亿美元

DeepMind 首席执行官德米斯-哈萨比斯(Demis Hassabis)周一在温哥华举行的 TED 大会上被问及微软公司和 OpenAI 正在计划建造价值 1000 亿美元(当前约 7250 亿元人民币)的超级计算机 “星际之门”(Stargate),他表示谷歌在人工智能领域的投入未来将超过 1000 亿美元。哈萨比斯回答说:“我们不谈论具体数字,但我认为随着时间的推移,我们的投资会超过这个数字。”他没有透露具体的支出细节。他还表示 Alphabet 公司(IT之家备注:谷歌母公司)的计算能力优于包括微软在内的

直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争

不知 Gemini 1.5 Pro 是否用到了这项技术。谷歌又放大招了,发布下一代 Transformer 模型 Infini-Transformer。Infini-Transformer 引入了一种有效的方法,可以将基于 Transformer 的大型语言模型 (LLM) 扩展到无限长输入,而不增加内存和计算需求。使用该技术,研究者成功将一个 1B 的模型上下文长度提高到 100 万;应用到 8B 模型上,模型能处理 500K 的书籍摘要任务。自 2017 年开创性研究论文《Attention is All Yo

谷歌 Gemini 流量已是 ChatGPT 的四分之一

Github 前首席执行官 Nat Friedman 在 X(推特)上发帖,称谷歌 Gemini 流量已经到达 ChatGPT 的 25% 左右,这一成绩是在谷歌并没有通过庞大分销渠道(Android、Google 搜索、GSuite 等)大力推广的情况下完成的。此外他还提到,在 X 上比较火爆的 Claude 使用率仍然很低,微软的 Copilot 使用率也并不高,而最知名的 ChatGPT 流量则与去年相对持平,没有明显的增长。他认为 Claude、ChatGPT 和 Gemini 的付费与未付费比率差异很大。