AI资讯列表 - AI在线

日本增长最快独角兽即将诞生：人工智能公司 Sakana AI 成立一年后估值 1800 亿日元

据《朝日新闻》上周六报道，日本生成式 AI 初创公司 Sakana AI 即将获得一笔新的重大投资，这将使该公司估值达到约 1800 亿日元（约合 83 亿元人民币）。在全球 AI 投资大潮的推动下，这意味着日本将诞生一家新的“独角兽”企业。“独角兽”系估值超过 10 亿美元（约合 72.76 亿元人民币）的未上市企业。报道称，去年 7 月，谷歌的人工智能研究人员在东京成立了 Sakana AI 公司，该公司对生成文本和图像的 AI 基本模型进行了研究，其具有将现有模型相互交叉的“开创性”技术，从而创建出高性能的

最强开源模型来了！一文详解 Stable Diffusion 3 Medium 特点及用法（附模型资源包）

大家好，我是花生~ 备受期待的 Stable Diffusion 3（以下简称 “SD3”）终于向公众开放了，作为 Stability AI 迄今为止最先进的文本到图像开源模型，SD3 在图像质量、文本内容生成、复杂提示理解和资源效率方面有了显著提升，今天就为大家详细介绍一下 SD3 的特点以及如何在 ComfyUI 中使用它。相关推荐：一、SD3 简介此次开放的模型准确来说是 Stable Diffusion 3 Medium，包含 20 亿参数，具有体积小、适合在消费级 PC 和笔记本电脑上运行的优点，所以

古尔曼：苹果 Apple Intelligence 功能分批上线，重磅功能要等到明年

为期一周的苹果 WWDC24 开发者大会已经落下帷幕，对于无法参加大会的人来说，周一主题演讲无疑是整场活动的核心，它深入展示了苹果未来的计划。而主题演讲的主角，正是苹果推出的全新人工智能服务 ——“Apple Intelligence”，这是苹果针对微软 Copilot 等竞品推出的解决方案。尽管发布会上展示了许多酷炫的功能，但彭博社记者马克・古尔曼（Mark Gurman）透露，部分功能需要等到 2025 年才能上线。Gurman 的消息来源一向可靠，而且他也成功预测了 WWDC 2024 主题演讲内容。此次，G

麦当劳“炒掉”AI 点餐员，叫停与 IBM 合作的自动点餐测试项目

麦当劳近期饱受争议的自动点餐 AI 系统将暂时停止测试，经常被人工智能聊天机器人搞错订单的顾客们，现在可以松一口气了。据行业刊物《餐馆商业》报道，麦当劳已通知其加盟商，将在 2024 年 7 月 26 日之前结束与 IBM 合作的自动语音点餐系统测试。图源 Pexels这项始于 2021 年的合作项目在超过 100 家麦当劳得来速餐厅试点，目前，麦当劳尚未公布终止与 IBM 合作的具体原因。不过，麦当劳依然看好自动点餐 AI 技术的前景。他们此前表示，此次测试让他们坚信“语音点餐解决方案将成为未来餐厅的一部分”。外

苹果的 Apple Intelligence，重新定义 AI 交互体验！

在最近的 WWDC 上，苹果发布了很多系统及功能的更新迭代，一并发布的还有智能系统 Apple Intelligence。看了苹果的发布会后，你可能会被各种五花八门的功能迷晕了眼，这篇文章就来帮你归纳和分析下苹果的 AI 系统的显著特征，主要看以下五点：设备及应用的互相联通从内容智能到行为智能智能硬件交互更加灵活开放底层智能 API 接口采用私有云做隐私保护一、设备及应用的相互联通 Apple Intelligence 将生成式 AI 模型置于 iPhone、iPhone 15 Pro、配备 M1 芯片的

完全免费！9个超好用的图片压缩工具

本期继续介绍一下图片压缩的工具。往期推荐：是不是感觉没什么变化一、图压简单易用的图片压缩软件图压是一款免费的本地图片压缩软件。对所有个人和企业用户完全免费！使用图压，可以在不影响视觉效果的条件下，将需要添加到网页、PPT、Word、PDF 中的图片文件容量大幅减少，降低传输时间。在上传图片遇到文件大小限制时尤其好用，图压内置压缩至目标文件大小的功能。操作方法直接拖入图片到空白处（可批量）选择压缩强度或大小可选择位置或默认如不满意点击“再次压缩”即可，会自动替换压缩后的文件压缩方式（强度）压缩强度越

ACL 2024论文盖棺定论：大语言模型≠世界模拟器，Yann LeCun：太对了

如果 GPT-4 在模拟基于常识任务的状态变化时准确率都只有约 60%，那么我们还要考虑将大语言模型作为世界模拟器来使用吗？最近两天，一篇入选 ACL 2024 的论文《Can Language Models Serve as Text-Based World Simulators?》在社交媒体 X 上引发了热议，就连图灵奖得主 Yann LeCun 也参与了进来。这篇论文探讨的问题是：当前语言模型本身是否可以充当世界模拟器，并正确预测动作如何改变不同的世界状态，从而避免大量手动编码的需要呢？针对这一问题，来自亚利

星环科技孙元浩：语料已经是大模型最大的挑战

「原来以为语料已经匮乏了，大模型训练已经没有语料了，实际上不是的，数据还远远没有跑光」。作为大数据领域超过十年的创业者，「星环科技」创始人及CEO孙元浩并不认同「大模型已经将人类互联网数据穷尽」的说法。根据他的观察，如今在各行各业企业内部的数据还远远未被足够利用，人类在互联网上的存量数据远远大过目前大模型能够利用的量级。拥有了这些来自各行各业内部高质量的数据，大模型可以在如今的基础上，大大提高准确性。而关键问题就在于，怎样可以高效地开发这些数据？大模型时代，语料的开发遇到了新的挑战。孙元浩分享称，目前企业内部的数据

AI将是数学家的得力助手，陶哲轩谈AI在证明过程中的潜力

AI 将大大提高数学研究的效率。陶哲轩是公认的数学天才，被誉为「数学神童」。他从小便展现出惊人的数学天赋，9 岁时就参加了美国数学奥林匹克，并获得了金牌。他在数论、调和分析、偏微分方程等多个数学领域做出了重要贡献，并获得了菲尔兹奖，这一奖项被视为数学界的最高荣誉，相当于数学界的诺贝尔奖。最近，陶哲轩接受了《科学美国人》的采访。在采访中提出，未来数学家可以通过向类似 GPT 的 AI 解释证明，AI 会将其形式化为 Lean 证明。这种助手型 AI 不仅能生成 LaTeX 文件，还能帮助提交论文，从而大幅提高数学

高质量3D生成最有希望的一集？GaussianCube在三维生成中全面超越NeRF

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]在三维生成建模的研究领域，现行的两大类 3D 表示方法要么基于拟合能力不足的隐式解码器，要么缺乏清晰定义的空间结构难以与主流的 3D 扩散技术融合。来自中科大、清华和微软亚洲研究院的研究人

现在起，真正的强者敢于直面「扣子」的「模型广场」

实时 Pk、“蒙面“ 对垒、大众点评、定期排名...... 就问敢不敢揭榜？字节版 GPTs “扣子”上线后，五年级小学生都能创建自己的英语外教。“扣子”有一个相当大的优势，就是支持国内知名大语言模型作为底座，还免费，许多 “AI bot" 孕育而生。不过，无限续杯也有烦恼。“学霸”这么多，挑谁最合适？看跑分？不太懂，也飘渺。要不，大家现场"全开麦“ PK一下？“扣子”已经把舞台搭好。一个相当刺激的新功能“模型广场”，上线了。一、“模型广场”：评测玩出盲盒的乐趣“扣子”支持国内多个知名主流大语言模型作为底座，最新名

仅存活三个月的Copilot GPTs，因无盈利希望，被微软强制「退休」

Copilot GPTs 下月停服，Recall AI 功能也被推迟发布，微软这是啥情况？近日，微软在其官网宣布，将于 2024 年 7 月 10 日起停止其 Copilot GPTs 服务，同时将删除所有由用户创建的既有 Copilot GPT 及相关数据。一石激起千层浪。不少用户在社交平台上表达强烈不满。X 网友 NerdPropellant 表示，作为一名 Copilot GPTs 的深度用户，微软此举非常令人失望。网友 Tim Hulse 毫不客气地指出，「这很符合微软的风格，他们总是设法让事情变得极其复杂

英伟达开源最强通用模型Nemotron-4 340B

性能超越 Llama-3，主要用于合成数据。英伟达的通用大模型 Nemotron，开源了最新的 3400 亿参数版本。本周五，英伟达宣布推出 Nemotron-4 340B。它包含一系列开放模型，开发人员可以使用这些模型生成合成数据，用于训练大语言模型（LLM），可用于医疗健康、金融、制造、零售等所有行业的商业应用。高质量的训练数据在自定义 LLM 的响应性能、准确性和质量中起着至关重要的作用 —— 但强大的数据集经常是昂贵且难以访问的。通过独特的开放模型许可，Nemotron-4 340B 为开发人员提供了一种免

有望解决一个千禧年大奖难题，这个20多年前的猜想终于得到证明

在数学抽象方面，最简单的莫过于图（graph）了。在平面上散放一些点，用线将其中一些连接起来，这就是一个图了。但图却非常强大。人们已经用它来解决各种各样的问题，从建模大脑中的神经元到为路上的送货卡车设计路径。在数学领域，图常被用于分类一种重要的代数对象，即群（group），其能以多种不同的方式来描述扭结（knot）。图论中有一个核心问题：寻找能刚好经过图中每个点一次的路径，之后再回到起点。这些路径被称为哈密顿回路（Hamiltonian cycle），得名于 19 世纪的数学家威廉・罗文・哈密顿（William R

SIGGRAPH2024｜上科大、影眸联合提出DressCode：从文本生成3D服装板片

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]生成是生成式人工智能和计算机图形学领域最引人注目的话题之一，符合影视、游戏标准的3D生成尤其受产业界关注。在生产流程中，一般品类的3D资产往往通过手工建模或者扫描的方式制作。但作为3D

又一届「AI春晚」拉开序幕！智源大模型集体爆发了

每一年的智源大会不仅是分享前沿 AI 科技成果的平台，更为国内外业内人士提供了一个交流的舞台。果然，2024 智源大会又为我们带来了诸多惊喜。一年一度的国内「AI 春晚」—— 智源大会又一次拉开了序幕。20 个不同主题的论坛、百场精彩报告让现场和线上的观众目不暇接，切实感受到了当下 AI 尤其是大模型对内容创作、生产办公、机器人、生物医疗等千行百业的深度赋能。在这场「AI 内行顶级盛会」上，不仅有 Llama、Sora 等大模型及 DiT 架构的作者参与交流，详解他们的研究成果；还有百度、零一万物、百川智能、智谱

让鲁迅说绕口令、赫本玩嘻哈，又一视频模型火了，斯坦福华人博士创立

团队成员均来自斯坦福大学，CTO还是泰勒·斯威夫特的铁杆粉丝。AI视频领域卷疯了。Luma引发的狂欢还没结束，AI视频圈又来了个挑战者——斯坦福大学团队出品的Proteus。据介绍，Proteus 是一款低延迟基础模型，可以生成高度真实且富有表现力的人物形象。例如，让世界名画中的主角——蒙娜丽莎或者带珍珠耳环的女孩——肆无忌惮地大笑，面部表情自然流畅：让奥黛丽·赫本一改往日淑女形象，玩起嘻哈说唱：还让《哈利·波特》中的斯内普教授唱《Despacito》：Proteus刚发布，一众大佬发来「贺信」：AI科学家贾扬清

从ALOHA迈向Humanplus，斯坦福开源人形机器人，「高配版人类」上线

人形机器人的「Hello World」。说起前段时间斯坦福开源的 Mobile ALOHA 全能家务机器人，大家肯定印象深刻，ALOHA 做起家务活来那是有模有样：滑蛋虾仁、蚝油生菜、干贝烧鸡，一会儿功夫速成大餐：研究团队来自斯坦福，由三个人共同打造完成。Zipeng Fu 为项目共同负责人，他是斯坦福大学 AI 实验室的计算机科学博士生，师从 Chelsea Finn 教授；Tony Z. Zhao 也是斯坦福大学的计算机科学博士生，导师也是 Chelsea Finn。现在，继 ALOHA 之后，Zipeng F