AI资讯列表 - AI在线

ChatGPT 网页 / 移动端整合文生图工具 DALL-E 3，加入图像局部修改功能

感谢今日凌晨，OpenAI 发文宣布：用户现在可以在 ChatGPT 中跨 Web、iOS 和 Android 使用 DALL-E 生成图像。除此之外，用户还可以通过添加、删除或调整图像中的元素来完善自己的 DALL-E 作品。用户可以通过选择工具选择图像的特定部分，并提供描述所需更改的文本提示。然后，DALL-E 将使用这些信息生成反映编辑内容的新版本图像。IT之家附官方演示视频：前述 DALL-E 3 的编辑功能已经在本月初发布，但当时未被整合到 ChatGPT 中。OpenAI 表示通过引入该编辑器，进一步

Stable Audio 2.0 发布：生成最长 3 分钟音频，能帮音乐家补全创意作品

Stability AI 近日发布新闻稿，宣布推出 Stable Audio2.0，可以基于用户输入的提示词，生成最长 3 分钟的完整音轨。Stable Audio 2.0 在此前 1.0 版本基础上，进一步为音频生成扩展了前奏、副歌、收尾和立体声效果等内容，最长可以生成 3 分钟的音频内容。Stable Audio 2.0 扩充了生成功能之外，还提供了音频生成音频功能，基于用户上传的一小段音频内容，扩展生成、补充相关的音频内容。IT之家附上演示视频如下：例如音乐家如果在创作某段音乐的时候“卡壳”了，可以上传某段

消息称谷歌考虑对基于 AI 的搜索引擎收费，将部分功能添至高级订阅服务

感谢据英国《金融时报》援引三位熟悉谷歌的知情人士消息称，谷歌考虑对基于人工智能的搜索收费，这对其商业模式来说是一次重大变化。因为自 2000 年以来，谷歌的搜索产品一直都是依靠广告盈利的。据报道，谷歌正在考虑保持标准搜索（不含 AI 功能）免费，谷歌正在考虑各种选择，包括将某些基于 AI 的搜索功能添加到其高级订阅服务中。但是，付费用户仍将在 Gemini 驱动的搜索结果中看到广告。尽管搜索广告去年为谷歌带来了 1750 亿美元的收入，但仍可能不足以弥补 AI 搜索增加的成本。根据路透社去年的报告，通过 Gemin

第一波！2024年4月精选实用设计工具合集

大家好，这是 2024 年 4 月的第 1 波干货合集！这一期干货合集包含了不少颇为实用的设计和灵感工具，比如号称世界上最大的 logo 案例库，在线免费的封面快速设计工具，免费的情绪板制作工具，精选各类设计工具和素材的合集网站，可以免费上手使用的 3D AI 工具以及 AI 图片放大工具。当然，在此之前记得看看往期干货中有没有你感兴趣的素材：下面我们具体看看这一期的干货： 1、世界上最大的 LOGO 案例库 LOGO 案例库，网站从网络上搜集了大量的品牌 LOGO 设计案例，这些案例绝大多数都来自一些在行业内

消息称谷歌借助 AI 探索商业模式变革，将为苹果 iPhone 用户提供付费 Gemini AI 技能

感谢谷歌正在积极探索生成式 AI-- Gemini 的变现方式，而提供付费高级功能显然是不错的选择。IT之家援引 Financial Times 报道，谷歌将为苹果 iOS 18 用户提供各种付费 AI 功能。消息称苹果目前正和谷歌等多家 AI 公司合作，会在 iOS 18 系统中开辟 AI Store 应用商店，用户可以通过支付相关费用，解锁更多 AI 技能。谷歌也在探索广告之外的其它营收方式，通过在苹果 iPhone 中扩展 Gemini 服务，积极扩充生成式 AI 的诸多付费技能，只是现阶段谷歌的这种变现渠道

SK 海力士拟投资近 40 亿美元，建设其首家美国芯片工厂

感谢据彭博社报道，全球排名第二的内存芯片制造商 ——SK 海力士表示，计划斥资 38.7 亿美元（IT之家备注：当前约 280.58 亿元人民币）在印第安纳州建造一座先进的封装厂和人工智能产品研究中心。SK 海力士计划在美国西拉斐特市建设首个工厂，并计划于 2028 年下半年开始量产。该工厂将重点建设下一代高带宽存储芯片生产线，这些芯片是训练人工智能（AI）系统图形处理器的关键组件。作为 HBM 芯片的主要设计者和生产商，SK 海力士已逐渐成为 AI 发展大潮中的关键参与者，其生产的芯片与英伟达公司的处理器协同工作

准确率达100%，「人机交互」机器学习，驱动有机反应精确原子映射研究

编辑 | X原子到原子映射（Atom-to-atom Mapping，AAM）是识别化学反应前后分子中每个原子位置的任务，这对于理解反应机理非常重要。近年来，越来越多的机器学习模型用于逆合成和反应结果预测，这些模型的质量高度依赖于反应数据集中 AAM 的质量。虽然有一些算法使用图论或无监督学习来标记反应数据集的 AAM，但现有方法是基于子结构 alignments 而不是化学知识来映射原子。在此，来自韩国首尔大学（Seoul National University）和韩国科学技术院（KAIST）的研究团队，提出了一

ICML 2024 AI for Math Workshop 征稿和挑战赛启动！

ICML 2024, AI for Math Workshop面向形式化和自然语言AI数学推理的研讨会时间：2024年7月26/27日地点：奥地利，维也纳。现场、线上同步举行。研讨会主页：。人类在数学推理的发展进程中总结出了各种形式化语言，得以严格地描述数学问题和证明过程。而近年来的机器学习算法和大规模语言模型正在逐步接近甚至超越人类在一些数学推理的表现。那么，下一步我们该如何发展AI数学推理，使之成为人类突破未知数学领域的最强辅助？本次研讨会旨在将不同学科背景、来自工业界和学术界的专家和学者汇集在一起，共同探讨A

以假乱真，天工音乐大模型带来颠覆式AI体验

昨日，昆仑万维AI音乐生成大模型「天工SkyMusic」开启了免费邀测活动，诚邀媒体、行业专家以及感兴趣的音乐从业者们共同体验人声情感表达 SOTA 的音乐大模型产品。邀测开始后，广大用户对「天工SkyMusic」AI音乐生成大模型的热情远超我们的预期，工作人员在极短时间内收到了几十万份测试申请，其中包括众多专业的音乐创作人、媒体及行业专家，还有大量测试申请被源源不断地发至后台。同时，我们也收到了大量来自用户的真实反馈与高度评价：“人声很清晰抒情旋律也好”“好听！”“这是天工做的？？太厉害了！”“《悟空》这首歌是

国内首个AI程序员入职阿里云：专属工号AI001，KPI是一人写完公司20%代码

你肯定听过一句话：学计算机要从娃娃抓起。在过去的很多年，学习编程都曾经是一件时髦的事，但随着生成式 AI 技术的发展，科技圈对此的态度似乎有些转向。英伟达 CEO 黄仁勋就表示：「未来编程交给 AI 就行了，以后人人都是软件工程师。」不久之后，全球首个 AI 软件工程师 Devin 给开发者们带来了亿点点震撼，真正引发了人们对程序员这个职业未来前景的热议。难不成，码农的饭碗真要被 AI 端走了？其实不然，现在 AI 还只是程序员的工作助手。实际上，国内有一位 AI 程序员，已经在某互联网大厂上岗一段时间了。它就是阿

长文本之罪：Claude团队新越狱技术，Llama 2到GPT-4无一幸免

Anthropic 发现一种新型越狱漏洞并给出了高效的缓解方案，可以将攻击成功率从 61% 降至 2%。刚刚，人工智能初创公司 Anthropic 宣布了一种「越狱」技术（Many-shot Jailbreaking）—— 这种技术可以用来逃避大型语言模型（LLM）开发人员设置的安全护栏。研究者表示，其对 Anthropic 自家模型以及 OpenAI、Google DeepMind 等其他 AI 公司的模型都有效，模型包括 Claude 2.0、GPT-3.5 和 GPT-4 、Llama 2 (70B) 和 M

开源版AI程序员来了：GPT-4加持，能力比肩Devin，一天1.4k Star

不到 24 小时，Star 量突破 1400。最近，有很多人在为 AI 代替自己的工作而担忧。上个月火遍 AI 圈的「首位 AI 程序员」Devin，利用大模型能力已经掌握了全栈技能，仅需要人类给出自然语言指令，就可以自动完成复杂的代码任务。Devin 展示的能力非常惊艳，不过这款工具出自走闭源路线的创业公司，现在只有一小部分获得了内测名额的人才能使用。本周二，来自普林斯顿大学 NLP 组的研究人员放出了 SWE-agent —— 一个开源版 AI 程序员，不到一天就获得了上千的 GitHub Star 量。SWE

华为诺亚频域LLM「帝江」：仅需1/50训练成本，7B模型媲美LLaMA，推理加速5倍

“又西三百五十里曰天山，多金玉，有青雄黄，英水出焉，而西南流注于汤谷。有神鸟，其状如黄囊，赤如丹火，六足四翼，浑敦无面目，是识歌舞，实惟帝江也。”——《山海经》基于 Transformer 架构的大语言模型在 NLP 领域取得了令人惊艳的效果，然而，Transformer 中自注意力带来的二次复杂度使得大模型的推理成本和内存占用十分巨大，特别是在长序列的场景中。此前，研究者们提出了线性 Transformer、Mamba、RetNet 等。这些方案可以大幅降低 Transformer 计算成本，并且取得媲美原有模型

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024

短视频在当下社交媒体逐渐成为主导的视频格式。传统视频处理技术和研究一般都专注于横屏视频的理解和解析，而竖屏视频因其拍摄手法和内容重点不同，展示出与横屏视频数据不同的特性。针对这一不同，字节跳动技术团队发布了专注于竖屏视频理解的数据集，提出了多个针对竖屏视频处理的技术点以及一个初始方案。这项研究对准确的竖屏视频理解和基础技术架构有较为重要的意义，论文已入选 CVPR2024。视频 demo 展示、数据特性演示以及竖屏视频类别分类，请见：，对视频内容的分类、特征提取，以及推荐等有着重要的作用。竖屏视频是目前社交媒体平

美国 FTC 否决将“刷脸”作为验证用户年龄方式

综合 eurogamer 等媒体报道，美国联邦贸易委员会（FTC）近日否决了引入“隐私保护面部年龄估算”技术的计划，该技术据悉可以分析用户面部的几何结构，来确定用户的年龄。图源 Pixabay去年七月，娱乐软件评级委员会（ESRB）、身份软件公司 Yoti 以及青少年营销公司 SuperAwesome 提交了使用该技术的申请。IT之家从 FTC 方面获悉，该技术旨在执行《儿童在线隐私保护规则》（COPPA），COPPA 要求面向 13 岁以下儿童的在线网站和服务，以及“实际知道”自己在收集 13 岁以下儿童个人信息

Anthropic 用 256 轮对话「灌醉」大模型，Claude 被骗造出炸弹

【新智元导读】Anthropic 发现了大模型的惊人漏洞。经过 256 轮对话后，Claude 2 逐渐被「灌醉」，开始疯狂越狱，帮人类造出炸弹！谁能想到，它的超长上下文，反而成了软肋。大模型又被曝出安全问题？这次是长上下文窗口的锅！今天，Anthropic 发表了自己的最新研究：如何绕过 LLM 的安全限制？一次越狱不够，那就多来几次！论文地址： Claude3 一家叫板 OpenAI 之余，Anthropic 仍然不忘初心，时刻关注着他的安全问题。一般情况下，如果我们直接向 LLM 提出一个有害的问题，LLM

谷歌挖走 OpenAI 大将，前开发者关系负责人 Logan Kilpatrick 官宣加盟

【新智元导读】AI 人才争夺战拉响！谷歌四大高管挖走了 OpenAI 前开发者关系负责人 Logan Kilpatrick。他将 AI Studio 产品，并为 Gemini API 提供支持。网友纷纷看好谷歌。入职整整一个月后，OpenAI 前开发者关系负责人 Logan Kilpatrick 正式官宣加入谷歌。他将负责 AI Studio 产品，并为 Gemini API 提供支持。Logan 表示，未来还有很多工作要做，让谷歌成为开发人员使用 AI 进行开发的最佳场所。Logan 加入谷歌是收到了来自谷歌四位

Katy Perry 等众多音乐人联名发公开信，抵制 AI 取代人类艺术家

Katy Perry、Billie Eilish 等知名音乐人与众多同行联名致信开发者，呼吁不要用人工智能 (AI) 取代人类艺术家。图源 Pexels据IT之家了解，随着 AI 技术逐渐渗透音乐行业，可能危及音乐人士的生计。这些明星选择通过一封公开信表达诉求，强调他们不希望这项技术取代人类艺术家所拥有的原始才华和技能。据 Axios 报道，这封联名信上还有 Elvis Costello、Norah Jones、Nicki Minaj 等来自不同音乐流派的知名音乐人签名。信中写道：“我们呼吁所有 AI 开发者、科技