AI资讯列表 - AI在线

字节跳动发布豆包大模型，主力模型比行业价格低99.3%

5月15日，字节跳动豆包大模型在火山引擎原动力大会上正式发布。火山引擎总裁谭待介绍，经过一年时间的迭代和市场验证，豆包大模型正成为国内使用量最大、应用场景最丰富的大模型之一，目前日均处理1200亿Tokens文本，生成3000万张图片。 “大的使用量，才能打磨出好模型，也能大幅降低模型推理的单位成本。

IEEE ICWS首个智能服务监管workshop热烈征稿中！

IEEE ICWS (IEEE International Conference on Web Services)即IEEE 国际万维网大会将于2024年7月7日—13日在中国深圳举行！ICWS是CCF-B类国际论坛，旨在交流基于网络服务的最新技术和实践的最新基本进展，确定新兴的研究主题，并定义基于网络服务的未来。SRG是IEEE ICWS首个针对智能服务监管的workshop。投稿链接：，也是产业升级的重要突破。在数字经济中，由互联网、物联网和大数据等信息技术支持的数字服务，在现代服务行业的各个领域形成了服务供应

iOS 版 ChatGPT 更新支持 App 首选语言设置中文

感谢据小伙伴投稿，iOS 版本 ChatGPT 今日凌晨发布 1.2024.129 版本更新，新增支持 App 首选语言设置中文，此前为其他语言。官方给出的改版本更新日志为“错误修复以及优化改进”。IT之家实测，首次启动 iOS 版 ChatGPT 会出现中文展示页，App 内支持应用语言设置，点击后将跳转至系统设置中 ChatGPT 应用设置，再次点击首选语言，即可设置软件语言。▲ ChatGPT App 首次启动页面截图▲ ChatGPT App 设置页面截图▲ ChatGPT 首选语言设置页面截图▲ Chat

字节跳动豆包大模型掀起价格战：主力模型比行业低 99.3%，日均处理千亿级 Tokens

今日，字节跳动豆包大模型正式发布，宣布大模型价格进入“厘时代”。字节跳动火山引擎总裁谭待介绍称：经过一年时间的迭代和市场验证，豆包大模型正成为国内使用量最大、应用场景最丰富的大模型之一，目前日均处理 1200 亿 Tokens 文本，生成 3000 万张图片。“大的使用量，才能打磨出好模型，也能大幅降低模型推理的单位成本。豆包主力模型在企业市场的定价只有 0.0008 元 / 千 Tokens，0.8 厘就能处理 1500 多个汉字，比行业便宜 99.3%。”▲ 火山引擎总裁谭待公布豆包大模型定价，图源：字节跳动I

【IT之家评测室】联想小新 Pro14 2024 AI 锐龙版体验评测：不负“AI PC”之名

过去一年，生成式 AI 赛道持续火热，到今天，“All in AI”已经成为科技企业的共识，互联网企业在用 AI 重新打造业务和软件，终端厂商在用 AI 重塑产品，抢滩“AI 手机”、“AI PC”，正因如此，我们普通消费者的工作和生活也会因为 AI 的发展和普及而更加便利。而要说到我们工作生产力的提升，“AI PC”无疑是最重要的环节，也是眼下整个 PC 产业链共同努力的方向，特别是对底层芯片和解决方案供应商来说，为芯片融入 AI 的能力，可以说是最基础也最重要的事。例如 AMD 在去年初的锐龙 7040 系列笔

OpenAI 联合创始人兼首席科学家 Ilya Sutskever 宣布离职，将在未来分享新项目细节

感谢OpenAI 联合创始人兼首席科学家 Ilya Sutskever 今早在 X 发布推文，正式宣布离开 OpenAI。Ilya Sutskever 为前 OpenAI 董事会成员，曾推动罢免 OpenAI CEO 阿尔特曼 Sam Altman 的行动。IT之家附原文与翻译如下：After almost a decade, I have made the decision to leave OpenAI. The company’s trajectory has been nothing short of m

谷歌反击：Project Astra正面硬刚GPT-4o、Veo对抗Sora、新版Gemini变革搜索

这就是谷歌对 OpenAI 的回应。通用的 AI，能够真正日常用的 AI，不做成这样现在都不好意思开发布会了。5 月 15 日凌晨，一年一度的「科技界春晚」Google I/O 开发者大会正式开幕。长达 110 分钟的主 Keynote 提到了几次人工智能？谷歌自己统计了一下：是的，每一分钟都在讲 AI。生成式 AI 的竞争，最近又达到了新的高潮，本次 I/O 大会的内容自然全面围绕人工智能展开。「一年前在这个舞台上，我们首次分享了原生多模态大模型 Gem

第二波！2024年5月精选实用设计工具合集

大家好，这是 2024 年 5 月的第 2 波干货合集！这一期干货合集当中不仅有当下热门的粘土角色特效生成 AI，还有基于开源项目的免费漫画生成 AI 平台 x2，此外还有最近发现的免费设计素材和免费 Web 应用合集，最有意思的是结尾的在线作品集编辑工具，它是一名开发者自己参考 Figma 手搓的低配版。当然，在此之前记得看看往期干货中有没有你感兴趣的素材：下面我们具体看看这一期的干货： 1、热门免费粘土角色特效生成 AI ，这个名为 Clay Filter AI 的在线工具可以使用 AI 将照片转化为独特且个

人机交互大迈步，OpenAI GPT-4o 演示视频引热议：AI 之间也能聊天

OpenAI 昨日凌晨发布 GPT-4o 模型，可以视为 GPT-4 的升级版本，可以实时推理处理音频、视觉和文本内容，而且能更加无缝地和 ChatGPT 交互。OpenAI 总裁兼联合创始人格雷格・布罗克曼（Greg Brockman）随后发布了上手演示，让两台运行 GPT-4o 的设备进行语音或视频交互。布罗克曼在演示开始之前，表达了自己的期望：让两台 AI 聊天机器人互相交流。布罗克曼向其中 A 聊天机器人讲述了他的期望，并让 B 聊天机器人可以调用摄像头观察周围世界。B 聊天机器人会调用前置摄像头，并清晰地

谷歌 Calendar、Tasks 和 Keep 等服务将集成 Gemini

谷歌公司在今天召开的 I / O 2024 开发者大会上，宣布在 Google Calendar、Tasks 和 Keep 应用中整合 Gemini 模型，为用户带来更丰富的 AI 功能。谷歌在开发者大会上表示，Gemini 聊天机器人支持网页或者移动 App 中上传图片操作，IT之家附上谷歌官方例子如下，拍一张学校活动列表的照片，然后让 Gemini 把它们添加到你的个人 Google Calendar 中。谷歌提供的另一个例子是让 Gemini 将食谱中的项目添加到谷歌 Keep 购物清单中。Gemini 负责

谷歌 Workspace 办公套件整合 Gemini：可总结邮件内容、梳理会议要点等

谷歌公司在今天召开的 I / O 2024 开发者大会上，宣布 Google Workspace 将进一步整合 Gemini，在侧面板中将推出基于 Gemini 1.5 Pro 的诸多技能。谷歌表示 Workspace 整合 Gemini 的作用，是为用户节省从多个应用程序中挖掘文件、电子邮件和其他数据的时间和精力。谷歌 Workspace 副总裁阿帕纳・帕普（Aparna Pappu）在会上说：“Gemini 时代的 Workspace 将开启完成工作的新方式”。IT之家注：谷歌 Workspace 的 Gmai

谷歌 Gemini 解锁旅行规划技能，几秒内帮你妥当安排行程

谷歌公司在今天召开的 I / O 2024 开发者大会上，宣布为 Gemini 引入旅行规划功能，结合个人信息和公共出行信息，帮用户规划预订航班、酒店等等。谷歌表示 Gemini 可以基于用户的提示，挖掘航班时间和酒店预订等具体细节，在几秒钟内制定出合适的度假行程。谷歌副总裁兼 Gemini 总经理 Sissie Hsiao 表示，用户手动规划一次旅行可能需要数小时、数天甚至数周的时间，而 Gemini 几乎可以瞬间完成。Hsiao 表示 Gemini 的规划是动态的，用户可以根据后期提示和其它要求进一步调整规划。

你的助手你决定，谷歌推出 Gems 功能：由用户定制 Gemini 角色

谷歌公司在今天召开的 I / O 2024 开发者大会上，宣布为 Gemini 推出名为“Gems”的个性化选项，可以让用户定制 Gemini 助手角色。Gems 功能可以让用户迭代的聊天机器人，在保留指定特征的情况下帮助你完成某些任务。Gems 感觉类似于 OpenAI 的 GPT Store，可以让你制作定制的 ChatGPT 聊天机器人。该功能也有点像在 Character.AI 中创建自己的机器人，Character.AI 可以让你与虚拟的流行人物和名人甚至假冒的心理医生交谈。谷歌表示，用户通过 Gems

哪里不会圈哪里，谷歌赋予“圈选即搜”新技能：帮你解数学题

谷歌在今天召开的 I / O 2024 开发者大会上，宣布进一步增强安卓手机端的“圈选即搜”（Circle to Search）技能，可以用于解答数学、物理等问题。谷歌表示学生可以使用安卓手机或平板电脑，通过“圈选即搜”功能解决家庭作业中的数学、物理问题。该功能将帮助解题，并列出学生需要做什么才能得到正确答案。根据谷歌的说法，它不会真的帮你做作业，只会帮助你解决问题。IT之家从报道中获悉，谷歌还表示将会继续升级“圈选即搜”技能，后续将支持公式、图表、图形等复杂数学方程式，谷歌正在使用经过学习微调的新人工智能模型 L

文生图技能再进化，谷歌推出 Imagen 3：更准确、更具创造性

谷歌公司在今天召开的 I / O 2024 开发者大会上，宣布推出了 Imagen 3，进一步增强了文本生成图片的技术能力。谷歌人工智能研究部门 DeepMind 负责人德米斯-哈萨比斯（Demis Hassabis）说，与前代产品 Imagen 2 相比，Imagen 3 能更准确地理解文字提示，并将其转化为图像，而且其生成的图像更具“创造性和细节”，且模型产生的干扰元素和错误也更少。为了打消人们对 Deepfake 可能性的担忧，谷歌表示，Imagen 3 将使用 DeepMind 开发的 SynthID 方法

剑指 Sora，谷歌推出 Veo 文生视频模型：时长超 1 分钟、最高 1080P，支持电影手法

感谢OpenAI 三个月前推出文本转视频 Sora，引发了网友、媒体以及圈内人士的广泛讨论。谷歌在今天召开的 2024 I / O 开发者大会上，也推出了对标产品-- Veo，可以生成长度超过 1 分钟，分辨率最高 1080P 的“高质量”视频，并具有多种视觉和电影风格。根据谷歌官方新闻稿，Veo 具备对自然语言有先进的理解能力，能够理解“延时摄影”、“航拍风景”等电影术语。用户可以使用文本、图像或视频提示来指导他们所需的输出，谷歌表示，这样产生的视频“更加连贯一致”，在整个镜头中人物、动物和物体的动作也更加逼真。

对轰 GPT-4o，谷歌推出 Astra 项目：手机镜头内低延迟聊天交互

谷歌公司在今天召开的 2024 年 I / O 开发者大会上，推出了全新的 Project Astra 项目，基于 Gemini，可以本地运行在 Pixel 手机上，可以说是对标 OpenAI GPT-4o 的最新模型。谷歌表示 Project Astra 是最新的多模态 AI 项目，用户打开摄像头，该多模态项目可以直接解释用户画面中物品。该公司刚刚用一段令人印象深刻的视频演示了它的功能，在一个不间断的镜头中，它能正确识别几件物品，回忆起它在哪里看到了主人的眼镜（靠近桌子上的一个红苹果），还能解释屏幕上的代码。IT

谷歌今夏推“Ask Photos”功能，聊天方式更快找到照片和视频

谷歌公司在今天召开的 2024 年 I / O 开发者大会上，宣布今年夏季将为 Google Photos 推出“Ask Photos”辅助服务，带来更贴心的搜索体验。谷歌首席执行官桑达尔・皮查伊现场演示，询问 Google Photos 应用：“我的车牌号是多少来着？”此前用户搜索车牌需要滚动浏览许多不同汽车的照片，而在演示中 Google Photos 能根据位置、多年来在照片中出现的次数和其他数据，找出哪辆车才是要找的车牌号，并以文字回复的形式提供了实际车牌号，同时还提供了一张验证车牌号的图片。皮查伊表示 A