AI资讯列表 - AI在线

AI在用｜一款AI视频换脸神器，让安吉丽娜·朱莉秒变「女版」马斯克

机器之能报道编辑：山茶花以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式，但绝大部分人依然不知道该如何使用。因此，我们推出了「AI在用」专栏，通过直观、有趣且简洁的人工智能使用案例，来具体介绍AI使用方法，并激发大家思考。我们也欢迎读者投稿亲自实践的创新型用例。（一大早的选题会上）A：今天的选题是 Faceswap，一款 AI 换脸工具。B：有啥创新性使用场景？A：诈骗…… 呃，电影制作……不得不说，AI 进化得越来越颠了！Faceswap 官网放出了不少演示，个顶个地以假乱真。它不

集聚场景驱动力，激发AI生产力——WAIC 2024“人工智能+”应用场景持续广泛征集

今年的政府工作报告提出，大力推进现代化产业体系建设，加快发展新质生产力。同时要深化大数据、人工智能等研发应用，开展“人工智能 ”行动。近年来，上海市委、市政府不断创新政策举措，探索应用场景，深入推进城市转型、产业升级，为新一代人工智能发展开辟了广阔天地。世界人工智能大会（WAIC）作为行业标杆性盛会，每年都集聚了全球人工智能领域最具影响力的科学家、企业家、政界人士、高校组织、投资人及初创团队，已然成为全球人工智能领域学术与行业交流、展览展示、合作洽谈的重要平台和窗口。2024世界人工智能大会将于7月初在上海举办，大

国产端侧小模型超越 GPT-4V，「多模态」能力飞升

在刚刚过去的机器人学术顶会 ICRA 2024 上，「具身智能」成为热议，其中围绕具身智能的一个普遍疑问是：若将 AI 大模型应用到消费级机器人领域，首先是模型适配终端，还是终端适配模型？过去一年，由于 6B、7B 等小模型的成果井喷，以及 MoE 训练技术的越发成熟，将模型跑在手机、学习机、平板电脑、机器人甚至汽车等等终端应用上的想象力开始变大，无论算法层还是硬件层都「蠢蠢欲动」。诚然，这已经成为一个明朗的行业方向，但在系统整合上却要面临不同话语体系之间的博弈。

大模型进入「实用」时代！腾讯助力「销冠」量产，5 分钟创建智能助手

今年年初，英伟达 CEO 黄仁勋因为劝人「别再学习计算机」被送上热搜。但其实，他的原话是「过去，几乎每个人都会告诉你，学习计算机至关重要，每个人都应该学会编程。但事实恰恰相反，我们的工作是创造计算技术，让大家都不需要编程，编程语言就是人类语言。」编程，是为了不再编程，这一愿景由来已久，而且在大模型出现之后逐渐成为可能。但在现阶段，直接把一个大模型丢给某个人或某个企业去用效果仍然不好。比如，你不能指望一个不会写 Prompt 的人利用大模型去构建一整个网站，也不能指望一个没有配置 AI 人才的公司把某个大模型变成公司

Karpathy称赞，从零实现LLaMa3项目爆火，半天1.5k star

项目中代码很多很全，值得细读。一个月前，Meta 发布了开源大模型 llama3 系列，在多个关键基准测试中优于业界 SOTA 模型，并在代码生成任务上全面领先。此后，开发者们便开始了本地部署和实现，比如 llama3 的中文实现、llama3 的纯 NumPy 实现等。十几个小时前，有位名为「Nishant Aklecha」的开发者发布了一个从零开始实现 llama3 的存储库，包括跨多个头的注意力矩阵乘法、位置编码和每个层在内都有非常详细的解释。该项目得到了大神 Karpathy 的称赞，他表示项目看起来不错，

首个GPU高级语言，大规模并行就像写Python，已获8500 Star

最多可支持 10000 个并发线程。经过近 10 年的不懈努力，对计算机科学核心的深入研究，人们终于实现了一个梦想：在 GPU 上运行高级语言。上周末，一种名为 Bend 的编程语言在开源社区引发了热烈的讨论，GitHub 的 Star 量已经超过了 8500。GitHub：，它仍处于研究阶段，但提出的思路已经让人们感到非常惊讶。使用 Bend，你可以为多核 CPU/GPU 编写并行代码，而无需成为具有 10 年经验的 C/CUDA 专家，感觉就像 Python 一样！

数据更多更好还是质量更高更好？这项研究能帮你做出选择

当计算预算低时，重复使用高质量数据更好；当不差钱时，使用大量数据更有利。对基础模型进行 scaling 是指使用更多数据、计算和参数进行预训练，简单来说就是「规模扩展」。虽然直接扩展模型规模看起来简单粗暴，但也确实为机器学习社区带来了不少表现卓越的模型。之前不少研究都认可扩大神经模型规模的做法，所谓量变引起质变，这种观点也被称为神经扩展律（neural scaling laws）。近段时间，又有不少人认为「数据」才是那些当前最佳的闭源模型的关键，不管是 LLM、VLM 还是扩散模型。随着数据质量的重要性得到认可，已

让大模型理解手机屏幕，苹果多模态Ferret-UI用自然语言操控手机

此次，苹果提出的多模态大语言模型（MLLM） Ferret-UI ，专门针对移动用户界面（UI）屏幕的理解进行了优化，其具备引用、定位和推理能力。移动应用已经成为我们日常生活的一大重要组成部分。使用移动应用时，我们通常是用眼睛看，用手执行对应操作。如果能将这个感知和交互过程自动化，用户也许能获得更加轻松的使用体验。此外，这还能助益手机辅助功能、多步 UI 导航、应用测试、可用性研究等。为了在用户界面内实现感知和交互的无缝自动化，就需要一个复杂的系统，其需要具备一系列关键能力。这样一个系统不仅要能完全理解屏幕内容，还

OpenAI CEO下场回应「封口协议」，争议还是到了股权利益上，奥特曼：我的锅

自从 Ilya 和超级对齐负责人 Jan 离职后，OpenAI 内部还是心散了，后续也有越来越多的人离职，同时也引发了更多的矛盾。昨天，争议的焦点来到了一份严格的「封口协议」。OpenAI 前员工 Kelsey Piper 爆料，任何员工的入职文件说明中都包含一项：「在离开公司的六十天内，你必须签署一份包含『一般豁免』的离职文件。如果你没有在 60 天内完成，你的股权获益将被取消。」这份引发风浪的文件截图，让 OpenAI CEO 迅速下场回应：「我们从未收回任何人的既得权益，如果人们不签署分离协议（或不同意不贬

在对齐 AI 时，为什么在线方法总是优于离线方法？

在线和离线对齐算法的性能差距根源何在？DeepMind实证剖析出炉在 AI 对齐问题上，在线方法似乎总是优于离线方法，但为什么会这样呢？近日，Google DeepMind 一篇论文试图通过基于假设验证的实证研究给出解答。论文标题：Understanding the performance gap between online and offline alignment algorithms论文地址：（RLHF）随着大型语言模型（LLM）发展而日渐成为一种用于 AI 对齐的常用框架。不过近段时间，直接偏好优化（DP

替代MLP的KAN，被开源项目扩展到卷积了

本月初，来自 MIT 等机构的研究者提出了一种非常有潜力的 MLP 替代方法 ——KAN。KAN 在准确性和可解释性方面表现优于 MLP，而且它能以非常少的参数量胜过以更大参数量运行的 MLP。比如，作者表示，他们用 KAN 以更小的网络和更高的自动化程度重现了 DeepMind 的结果。具体来说，DeepMind 的 MLP 有大约 300000 个参数，而 KAN 只有大约 200 个参数。KAN 与 MLP 一样具有强大的数学基础，MLP 基于通用逼近定理，而 KAN 基于 Kolmogorov-Arnold

消息称苹果首席运营官威廉姆斯访问台积电，探讨 AI 芯片开发

台媒《经济日报》消息，苹果公司首席运营官杰夫・威廉姆斯（Jeff Williams）低调拜访台积电，台积电总裁魏哲家亲自接待。双方主要讨论了苹果自研 AI 芯片的开发，以及台积电使用先进制程技术生产芯片等事宜。苹果需要更多半导体先进技术支持，此前苹果已包下台积电 3 纳米首批产能，若后续预定 2 纳米乃至更先进制程的首批产能，台积电营收将继续增加，今年有机会创新高，预计可达 6000 亿元新台币（IT之家备注：当前约 1350 亿元人民币）。苹果首席财务官卢卡・梅斯特里（Luca Maestri）在财报会议上表示，

AI在用｜与书对话！微信读书上线「AI问书」，你问书答

机器之能报道编辑：Cardinal以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式，但绝大部分人依然不知道该如何使用。因此，我们推出了「AI在用」专栏，通过直观、有趣且简洁的人工智能使用案例，来具体介绍AI使用方法，并激发大家思考。我们也欢迎读者投稿亲自实践的创新型用例。微信读书（App）给自己上了一个大分：「AI 问书」！阅读中有看不懂的地方？没关系，标记出来，AI 立马解释给你听。古人说，书中自有颜如玉，现在美人能和你对话了。打开微信读书，选本书试试。比如金宇澄的《繁花》，前言里就

用好这 3 款 3D 建模工具，让你的 AI 出图质量轻松提升200%

大家好，这里是和你们一起探索 AI 的花生~ 前段时间 Adobe 推出了一个新的在线 3D 建模工具 Project Neo，旨在通过便捷的 3D 元素搭建，来提升 2D 插画、特别是等距插画的创作效率。虽然新工具上线不过半个月，但是相关社区内已经涌现了很多优秀的设计作品。Projext Neo 制作的内容可以导出为 JPEG、SVG 和透明底 PNG 三种格式，方便用户导入 Adobe Ps 或 Ai 中进行进一步编辑处理。 Project Neo 网站直达：：Project Neo 的界面与 Ps 类似，因

大厂实战案例！如何做好电商AI数字人直播的体验设计？

电商 AI 数字人直播解决方案是什么？随着以 ChatGPT、文心一言为代表的大语言模型相继涌现，AI 电商也带来新的购物体验和新的经营模式。「电商 AI 数字人直播解决方案-慧播星」依托自研 StyleSync 技术/音频自恢复预训练技术/文心一言/自研 PicGen 技术等，实现 AI 复刻/定制优质主播、稳定 7*24 小时在线开播。低成本搭建多元直播场景，专家级商品讲解、实时互动问答、丰富的互动形态精准传达信息，既让消费者获得全新的购物体验，也赋能中小商家零门槛、零成本一键创建商品售卖直播间、助推 GM

Meta 首发「变色龙」挑战 GPT-4o，34B 参数引领多模态革命！10 万亿 token 训练刷新 SOTA

【新智元导读】GPT-4o 发布不到一周，首个敢于挑战王者的新模型诞生！最近，Meta 团队发布了「混合模态」Chameleon，可以在单一神经网络无缝处理文本和图像。10 万亿 token 训练的 34B 参数模型性能接近 GPT-4V，刷新 SOTA。GPT-4o 的横空出世，再次创立了一个多模态模型发展的新范式！为什么这么说？OpenAI 将其称为「首个『原生』多模态」模型，意味着 GPT-4o 与以往所有的模型，都不尽相同。传统的多模态基础模型，通常为每种模态采用特定的「编码器」或「解码器」，将不同的模态分

育碧 CEO：将使用 AI 技术开发更有活力、更丰富的游戏

育碧公司首席执行官 Yves Guillemot 近期在财报问答会中确认，公司计划将使用 AI 技术开发更有活力、更丰富的游戏。他表示，AI 可能会被用于公司部分工作的“自动化”。目前，育碧有两个小组正在研究生成式 AI—— 一个小组负责市场营销、销售、IT、法律等工作，另一组人马则专注于提高游戏质量、让游戏更有“生命力”的工作。“我对我们游戏中的生成式 AI 充满期待，希望它能让我们的游戏更加有趣，人们能够真正获得个性化的体验。”育碧也在其最新财报中强调，公司将继续投资生成式 AI 等新技术领域，因为这些技术可为

自己声音被拿来训练 AI，美国两位配音演员对初创公司 Lovo 提起诉讼

感谢据《纽约时报》报道，美国两名配音演员 Paul Skye Lehrman 和 Linnea Sage 近日声称，AI 初创公司 Lovo 在未经自己许可的情况下，“复制”了他们的声音，并对该公司提起诉讼。事情的起因，是去年夏季两人在驾车时听到一个播客节目，其内容是“AI 的兴起”，并谈到了 AI 对作家、演员和其他娱乐界从业者的生活将构成威胁。而在这期节目中，主持人“采访”了一个名叫 Poe 的聊天机器人，他的音色听上去就像 Paul 的原声。图源 PixabayPaul 表示，当时的情景就像主持人在采访“自己

资讯列表

AI在用 ｜ 一款AI视频换脸神器，让安吉丽娜·朱莉秒变「女版」马斯克