AI资讯列表 - AI在线

人形机器人也要服“软”

机器之能报道编辑：SIA用整个身体（而不是双手），携带、搬挪更多的东西。你能想象这些台上的明星人形机器人给你一个舒适、温暖的拥抱吗？或者模仿你怀抱一堆快递包裹进门的样子？受限于刚性材料，这些人形机器人的运动能力也受到极大限制。嗯.......它们做不到。这些钢铁战士的工作方式未能跳脱传统大型工业机器人的窠臼——用一双“手（末端执行器）”干活，虽然常见但也非常低效。有什么办法能让大家做事更高效呢？想想我们平时是如何创造性地动用全身部位，像杂技演员一样应对各种情况的吧。比如，怀抱一堆快递来到楼下，好不容易腾出一只手打开

目标 10 年培养 9500 万 AI 人才，思科牵头微软等 8 家公司组建新联盟

思科公司牵头，携手微软等 8 家企业共同组建了人工智能信息与通信技术劳动力联盟，计划未来 10 年内培养超过 9500 万的 AI 领域人才。该联盟全称为 The AI-Enabled ICT Workforce Consortium，由思科公司牵头，埃森哲、Eightfold、谷歌、IBM、Indeed、英特尔、微软和 SAP 八家公司共同组建而成。此外该联盟雇佣了包括美国劳工联合会和工业组织大会、CHAIN5、美国通信工人协会、DIGITALEUROPE、欧洲职业培训协会、Khan Academy 和 SMEU

OpenAI 新动态：改善微调 API，扩展定制模型计划

感谢OpenAI 公司近日发布新闻稿，宣布改善微调（fine-tuning）API，并进一步扩展定制模型计划。IT之家翻译新闻稿中关于微调 API 的相关改进内容如下基于 Epoch 的 Checkpoint Creation在每次训练 epoch（将训练数据集中的所有样本都过一遍（且仅过一遍）的训练过程）过程中，都自动生成一个完整的微调模型检查点，便于减少后续重新训练的需要，尤其是在过拟合（overfitting，指过于紧密或精确地匹配特定数据集，以至于无法良好地拟合其他数据或预测未来的观察结果的现象）的情况下。

OpenAI 展示 Sora AI 生成的首支音乐短片《Worldweight》

感谢OpenAI 近日在其 YouTube 官方频道发布视频，介绍了由 August Kamp 参与制作，完全由文本转视频 AI 模型 Sora 生成的首支音乐短片《Worldweight》。这支音乐短片（Music Video）完全由 Sora 生成，然后 Kamp 再拼接相关片段形成时长为 2 分 19 秒的音乐短片，宽高比为 8:3，展现了各种环境的模糊镜头。Kamp 并未透露《Worldweight》具体使用了哪些提示词，IT之家翻译该视频描述如下：身心融合，完全沉浸、徜徉在艺术世界中的那个时刻至今仍萦绕

弱智吧竟成最佳中文 AI 训练数据？中科院等：8 项测试第一，远超知乎豆瓣小红书

离大谱了，弱智吧登上正经 AI 论文，还成了最好的中文训练数据？？具体来说，使用弱智吧数据训练的大模型，跑分超过百科、知乎、豆瓣、小红书等平台，甚至是研究团队精心挑选的数据集。在问答、头脑风暴、分类、生成、总结、提取等 8 项测试中取得最高分。没错，论文中的 Ruozhiba 就是指百度贴吧弱智吧，一个充满荒谬、离奇、不合常理发言的中文社区，画风通常是这样的：最离谱的是，弱智吧 AI 代码能力也超过了使用专业技术问答社区思否数据训练的 AI，这下吧友自己都闹不明白了。其他平台围观网友也纷纷蚌埠住。这项研究来自中科院

ChatGPT 网页 / 移动端整合文生图工具 DALL-E 3，加入图像局部修改功能

感谢今日凌晨，OpenAI 发文宣布：用户现在可以在 ChatGPT 中跨 Web、iOS 和 Android 使用 DALL-E 生成图像。除此之外，用户还可以通过添加、删除或调整图像中的元素来完善自己的 DALL-E 作品。用户可以通过选择工具选择图像的特定部分，并提供描述所需更改的文本提示。然后，DALL-E 将使用这些信息生成反映编辑内容的新版本图像。IT之家附官方演示视频：前述 DALL-E 3 的编辑功能已经在本月初发布，但当时未被整合到 ChatGPT 中。OpenAI 表示通过引入该编辑器，进一步

Stable Audio 2.0 发布：生成最长 3 分钟音频，能帮音乐家补全创意作品

Stability AI 近日发布新闻稿，宣布推出 Stable Audio2.0，可以基于用户输入的提示词，生成最长 3 分钟的完整音轨。Stable Audio 2.0 在此前 1.0 版本基础上，进一步为音频生成扩展了前奏、副歌、收尾和立体声效果等内容，最长可以生成 3 分钟的音频内容。Stable Audio 2.0 扩充了生成功能之外，还提供了音频生成音频功能，基于用户上传的一小段音频内容，扩展生成、补充相关的音频内容。IT之家附上演示视频如下：例如音乐家如果在创作某段音乐的时候“卡壳”了，可以上传某段

消息称谷歌考虑对基于 AI 的搜索引擎收费，将部分功能添至高级订阅服务

感谢据英国《金融时报》援引三位熟悉谷歌的知情人士消息称，谷歌考虑对基于人工智能的搜索收费，这对其商业模式来说是一次重大变化。因为自 2000 年以来，谷歌的搜索产品一直都是依靠广告盈利的。据报道，谷歌正在考虑保持标准搜索（不含 AI 功能）免费，谷歌正在考虑各种选择，包括将某些基于 AI 的搜索功能添加到其高级订阅服务中。但是，付费用户仍将在 Gemini 驱动的搜索结果中看到广告。尽管搜索广告去年为谷歌带来了 1750 亿美元的收入，但仍可能不足以弥补 AI 搜索增加的成本。根据路透社去年的报告，通过 Gemin

第一波！2024年4月精选实用设计工具合集

大家好，这是 2024 年 4 月的第 1 波干货合集！这一期干货合集包含了不少颇为实用的设计和灵感工具，比如号称世界上最大的 logo 案例库，在线免费的封面快速设计工具，免费的情绪板制作工具，精选各类设计工具和素材的合集网站，可以免费上手使用的 3D AI 工具以及 AI 图片放大工具。当然，在此之前记得看看往期干货中有没有你感兴趣的素材：下面我们具体看看这一期的干货： 1、世界上最大的 LOGO 案例库 LOGO 案例库，网站从网络上搜集了大量的品牌 LOGO 设计案例，这些案例绝大多数都来自一些在行业内

消息称谷歌借助 AI 探索商业模式变革，将为苹果 iPhone 用户提供付费 Gemini AI 技能

感谢谷歌正在积极探索生成式 AI-- Gemini 的变现方式，而提供付费高级功能显然是不错的选择。IT之家援引 Financial Times 报道，谷歌将为苹果 iOS 18 用户提供各种付费 AI 功能。消息称苹果目前正和谷歌等多家 AI 公司合作，会在 iOS 18 系统中开辟 AI Store 应用商店，用户可以通过支付相关费用，解锁更多 AI 技能。谷歌也在探索广告之外的其它营收方式，通过在苹果 iPhone 中扩展 Gemini 服务，积极扩充生成式 AI 的诸多付费技能，只是现阶段谷歌的这种变现渠道

SK 海力士拟投资近 40 亿美元，建设其首家美国芯片工厂

感谢据彭博社报道，全球排名第二的内存芯片制造商 ——SK 海力士表示，计划斥资 38.7 亿美元（IT之家备注：当前约 280.58 亿元人民币）在印第安纳州建造一座先进的封装厂和人工智能产品研究中心。SK 海力士计划在美国西拉斐特市建设首个工厂，并计划于 2028 年下半年开始量产。该工厂将重点建设下一代高带宽存储芯片生产线，这些芯片是训练人工智能（AI）系统图形处理器的关键组件。作为 HBM 芯片的主要设计者和生产商，SK 海力士已逐渐成为 AI 发展大潮中的关键参与者，其生产的芯片与英伟达公司的处理器协同工作

准确率达100%，「人机交互」机器学习，驱动有机反应精确原子映射研究

编辑 | X原子到原子映射（Atom-to-atom Mapping，AAM）是识别化学反应前后分子中每个原子位置的任务，这对于理解反应机理非常重要。近年来，越来越多的机器学习模型用于逆合成和反应结果预测，这些模型的质量高度依赖于反应数据集中 AAM 的质量。虽然有一些算法使用图论或无监督学习来标记反应数据集的 AAM，但现有方法是基于子结构 alignments 而不是化学知识来映射原子。在此，来自韩国首尔大学（Seoul National University）和韩国科学技术院（KAIST）的研究团队，提出了一

ICML 2024 AI for Math Workshop 征稿和挑战赛启动！

ICML 2024, AI for Math Workshop面向形式化和自然语言AI数学推理的研讨会时间：2024年7月26/27日地点：奥地利，维也纳。现场、线上同步举行。研讨会主页：。人类在数学推理的发展进程中总结出了各种形式化语言，得以严格地描述数学问题和证明过程。而近年来的机器学习算法和大规模语言模型正在逐步接近甚至超越人类在一些数学推理的表现。那么，下一步我们该如何发展AI数学推理，使之成为人类突破未知数学领域的最强辅助？本次研讨会旨在将不同学科背景、来自工业界和学术界的专家和学者汇集在一起，共同探讨A

以假乱真，天工音乐大模型带来颠覆式AI体验

昨日，昆仑万维AI音乐生成大模型「天工SkyMusic」开启了免费邀测活动，诚邀媒体、行业专家以及感兴趣的音乐从业者们共同体验人声情感表达 SOTA 的音乐大模型产品。邀测开始后，广大用户对「天工SkyMusic」AI音乐生成大模型的热情远超我们的预期，工作人员在极短时间内收到了几十万份测试申请，其中包括众多专业的音乐创作人、媒体及行业专家，还有大量测试申请被源源不断地发至后台。同时，我们也收到了大量来自用户的真实反馈与高度评价：“人声很清晰抒情旋律也好”“好听！”“这是天工做的？？太厉害了！”“《悟空》这首歌是

国内首个AI程序员入职阿里云：专属工号AI001，KPI是一人写完公司20%代码

你肯定听过一句话：学计算机要从娃娃抓起。在过去的很多年，学习编程都曾经是一件时髦的事，但随着生成式 AI 技术的发展，科技圈对此的态度似乎有些转向。英伟达 CEO 黄仁勋就表示：「未来编程交给 AI 就行了，以后人人都是软件工程师。」不久之后，全球首个 AI 软件工程师 Devin 给开发者们带来了亿点点震撼，真正引发了人们对程序员这个职业未来前景的热议。难不成，码农的饭碗真要被 AI 端走了？其实不然，现在 AI 还只是程序员的工作助手。实际上，国内有一位 AI 程序员，已经在某互联网大厂上岗一段时间了。它就是阿

长文本之罪：Claude团队新越狱技术，Llama 2到GPT-4无一幸免

Anthropic 发现一种新型越狱漏洞并给出了高效的缓解方案，可以将攻击成功率从 61% 降至 2%。刚刚，人工智能初创公司 Anthropic 宣布了一种「越狱」技术（Many-shot Jailbreaking）—— 这种技术可以用来逃避大型语言模型（LLM）开发人员设置的安全护栏。研究者表示，其对 Anthropic 自家模型以及 OpenAI、Google DeepMind 等其他 AI 公司的模型都有效，模型包括 Claude 2.0、GPT-3.5 和 GPT-4 、Llama 2 (70B) 和 M

开源版AI程序员来了：GPT-4加持，能力比肩Devin，一天1.4k Star

不到 24 小时，Star 量突破 1400。最近，有很多人在为 AI 代替自己的工作而担忧。上个月火遍 AI 圈的「首位 AI 程序员」Devin，利用大模型能力已经掌握了全栈技能，仅需要人类给出自然语言指令，就可以自动完成复杂的代码任务。Devin 展示的能力非常惊艳，不过这款工具出自走闭源路线的创业公司，现在只有一小部分获得了内测名额的人才能使用。本周二，来自普林斯顿大学 NLP 组的研究人员放出了 SWE-agent —— 一个开源版 AI 程序员，不到一天就获得了上千的 GitHub Star 量。SWE

华为诺亚频域LLM「帝江」：仅需1/50训练成本，7B模型媲美LLaMA，推理加速5倍

“又西三百五十里曰天山，多金玉，有青雄黄，英水出焉，而西南流注于汤谷。有神鸟，其状如黄囊，赤如丹火，六足四翼，浑敦无面目，是识歌舞，实惟帝江也。”——《山海经》基于 Transformer 架构的大语言模型在 NLP 领域取得了令人惊艳的效果，然而，Transformer 中自注意力带来的二次复杂度使得大模型的推理成本和内存占用十分巨大，特别是在长序列的场景中。此前，研究者们提出了线性 Transformer、Mamba、RetNet 等。这些方案可以大幅降低 Transformer 计算成本，并且取得媲美原有模型