AI资讯列表 - AI在线

谷歌发布 Oscar 服务，帮助开发者通过 AI 智能体掌控开源软件项目

感谢谷歌公司今天发布新闻稿，宣布推出 Project Oscar 项目，帮助开源开发团队使用和创建 AI 智能体（Agent）来管理软件项目。谷歌在印度班加罗尔举办了 2024 I / O Connect 开发者活动，旗下 Go 语言开发团队推出了 Project Oscar 项目，通过构建 AI 智能体开源平台，可以帮助软件产品团队监控开发过程中的问题或错误。这些 AI 智能体可部署在开发、规划、运行或者售后支持等方面，开发者无需重新编写任何代码，可以通过自然语言进行交互。谷歌开源编程语言 Go 的产品经理卡梅隆

SD WebUI 手把手教程！5 步搞定黑白照片修复、上色和高清放大

大家好，这里是和你们一起探索 AI 花生。上次为大家推荐了 9 款在线免费的 AI 工具，可以帮我们一键完成老照片修复/上色的工作。但是这些工具大多有使用次数、图像尺寸方面的限制，处理效果并不能完全让人满意。而随着 AI 绘画的普及，我们可以借助 SD Web UI 这样的开源工具，免费实现黑白照片修复、上色、高清放大等一系列操作，不仅可以没有使用上的各种限制，图像的修复、上色效果也更准确精致。整个过程大概分为 “面部强化-破损修复-上色-高清放大” 四个步骤，如果你还不了解 SD WebUI 的用法，可以了解我

ComfyUI 进阶篇！完整梳理 ComfyUI 的核心节点（三）

前言：学习 ComfyUI 是一场持久战。当你掌握了 ComfyUI 的安装和运行之后，会发现大量五花八门的节点。面对各种各样的工作流和复杂的节点种类，可能会让人感到不知所措。在这篇文章中，我们将用通俗易懂的语言对 ComfyUI 的核心节点进行系统梳理，并详细解释每个参数。希望大家在学习过程中培养自我思考的能力，真正掌握和理解各个节点的用法与功能。在实践中不断提升自己的技术水平。只有通过不断的探索和总结，才能在面对复杂的工作流时游刃有余。祝大家学习顺利，早日成为 ComfyUI 的高手！一、Apply Cont

全网祝贺！Andrej Karpathy官宣创业：是自己热爱的AI+教育

Karpathy：以前在特斯拉、OpenAI都是「副业」，现在做的才是「正职」。刚刚，Andrej Karpathy在X平台宣布了自己的下一站去向：创办一家名为 Eureka Labs 的人工智能教育公司。很高兴与大家分享，我正在创办一家名为 Eureka Labs 的人工智能教育公司。公告如下：我们是 Eureka Labs，我们正在打造一所AI原生的新型学校。我们如何才能获得学习新知识的理想体验？例如，在物理学方面，我们可以想象与费曼（Feynman）一起学习高质量的课程材料，费曼会在每一步都为你提供指导。

研究：生成式 AI 更像是记忆大师而非推理高手

生成式 AI 的迅猛发展和广泛应用引发了诸多担忧，从隐私安全到潜在的失业危机。虽然 AI 聊天机器人如 ChatGPT 和微软 Copilot 在短短时间内取得了惊人进步，能够写代码、纠错甚至挑战人类创意，但它们真的像表面看起来那么聪明吗？麻省理工学院计算机科学与人工智能实验室（CSAIL）的一项最新研究指出，这些强大的大型语言模型（LLM）似乎更依赖记忆而不是真正的推理能力。它们在熟悉的任务上表现出色，但在面对新问题时却显得力不从心。AI在线注意到，研究人员通过对比 AI 在不同任务上的表现得出这一结论。例如，G

AKOOL助力戛纳广告大奖，发布革命性实时数字人平台

2024年欧洲杯如火如荼进行之际，一则由法国电信公司 Orange 创作的足球比赛视频也迅速走红。视频中，我们看到了姆巴佩、吉鲁、格里兹曼......，实际上，所有在球场上奔跑的运动员都不是真人，而是人工智能生成的虚拟角色。凭借出色创意和独特性，该作品斩获了广告创意营销界“奥斯卡”——今年的戛纳国际创意节的体育类大奖。而 AKOOL 为这一大奖作品提供了核心技术支持。他们开发的 AI 面部捕捉系统能精确捕捉人脸细微表情和动作，在精心设计的渲染技术加持下，作品中的虚拟人物几乎以假乱真。这种影像级别的视觉效果，足以满足

特朗普遇刺照，用一张2100元？！文章标题、配图，AI免费给你来一打

机器之能报道编辑：Sia大模型替代编辑小助理，比萝卜快跑替代司机，靠谱得多。据说，自媒体使用特朗普遇刺照片作为配图，一张付费 2100 元！随便下一张图片给文章配图的日子，一去不复返咯。不过，创作者们的麻烦并未到此为止。写完一篇公众号文章，接下来的十几分钟最让人抓耳挠腮：标题铺位，黄金地段，寸土寸金。除了突出内容亮点，还要确保标题足够吸引人点开看，这可比写文章难多了！啥？酒香不怕巷子深？在红海的公众号圈子里，这条行不通。也别灰心！磨合一段时间，我们发现，大模型在解决这两个日常挑战上，还挺管用。-1-最短时间起一个合

早半年发arXiv，却被质疑抄袭：活在微软AutoGen阴影里的CAMEL

arXiv 不是同行评审期刊，所以发在 arXiv 上的论文不必被引用，这合理吗？如果你对 AI 智能体感兴趣，那你一定知道微软的 AutoGen。它是一个用于构建 AI 智能体的开源编程框架，允许多个智能体通过聊天来解决任务。其间，LLM 智能体可以扮演多种角色，如程序员、设计师，或者各种角色的组合。在 GitHub 上，这个项目已经收获了 28k 的 star 量，论文还在 ICLR 2024 LLM Agent Workshop 上获得了最佳论文奖。不过，这篇论文的背后其实是存在争议的。2023 年 1

快手开源LivePortrait，GitHub 6.6K Star，实现表情姿态极速迁移

近日，快手可灵大模型团队开源了名为LivePortrait的可控人像视频生成框架，该框架能够准确、实时地将驱动视频的表情、姿态迁移到静态或动态人像视频上，生成极具表现力的视频结果。如下动图所示：来自网友测试LivePortrait 来自网友测试LivePortrait快手开源的LivePortrait对应的论文题目为：《 LivePortrait: Efficient Portrait Ani

有效评估Agent实际表现，新型在线评测框架WebCanvas来了

当 LLM Agent 踏入真实的在线网络世界时，它们的表现能否如预期般游刃有余？

Mistral AI两连发：7B数学推理专用、Mamba2架构代码大模型

网友很好奇，Mathstral能不能搞定「9.11和9.9谁大」这一问题。昨天，AI圈竟然被「9.11和9.9谁大」这样简单的问题攻陷了，包括OpenAI GPT-4o、Google Gemini等在内的大语言模型都翻了车。这让我们看到，大语言模型在处理一些数字问题时并不能像人类那样理解并给出正确的答案。对于数字以及复杂的数学问题，专用模型更术业有专攻。今天，法国大模型独角兽 Mistral AI 发布了一个专注于数学推理和科学发现的7B大模型「Mathstral」，来解决需要复杂、多步骤逻辑推理的高级数学问题。该

无损加速最高5x，EAGLE-2让RTX 3060的生成速度超过A100

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]李堉晖：北京大学智能学院硕士，受张弘扬老师和张超老师指导，研究方向为大模型加速和对齐，正在寻找25届工作机会魏芳芸：微软亚研院研究员，研究方向为具身智能、图像生成和AI agents张超：

大脑如何处理语言？普林斯顿团队对Transformer模型进行分析

编辑 | 萝卜皮在处理语言时，大脑会部署专门的计算来从复杂的语言结构中构建含义。基于 Transformer 架构的人工神经网络是自然语言处理的重要工具。普林斯顿大学的研究人员探讨了 Transformer 模型和人类大脑在语言处理中的功能特殊化问题。Transformer 通过结构化电路计算整合单词间的上下文信息。不过，当前的研究主要集中于这些电路生成的内部表征（「嵌入」）。研究人员直接分析电路计算：他们将这些计算解构为功能专门的「transformations」，将跨词语的上下文信息整合在一起。利用参与者聆听自

AI 大神 Karpathy 官宣创业：打造 80 亿人 AI 原生学校，首款课程 GitHub 斩获 17k 星

今天，AI 圈再次掀起海啸级巨震，离职 OpenAI 近半年的 AI 大牛 Karpathy 终于官宣了最终动向。他激动地宣布，自己正在创办一家 AI 教育的公司 —— Eureka Labs。Karpathy 这条官宣帖子，已有近百万浏览。Eureka Labs 官推初次现身，写下了「你好世界」。不难想到，自 2 月离职以来，Karpathy 一直都在专注在线授课领域，并不断动手尝试自己的新项目。当时，网友们便对 Karpathy 能够坚持输出高质教育内容的呼声越来越高。如今，愿望成真了！▲ 唯一的不足就是

消息称字节将于 7 月 19 日首次大范围公布文生图 / 视频等 AI 模型进展

钛媒体 AGI 报道称，字节跳动团队将会在 7 月 19 日（本周五）首次大范围公布文生图、类 sora 新视频等全新人工智能（AI）模型技术进展，尤其在长视频、高动态方向上具备创新技术，或将直接对标 Sora 效果。消息人士表示，字节跳动内部将 AI 大模型设为集团 P0 最高级别的方向。此外抖音、剪映等内部多个团队也在研发 AI 视频模型应用，预计将在近期公布。字节跳动将在新加坡举办关于世界模型（World Models）探索的 AI 技术菁英论坛（ByteDance AI Luminary Talks）活动，

戴盟机器人王煜：「具身技能」才能发挥人形机器人的作用 | 具身智能十人谈

作者：赖文昕编辑：岑峰本月，在爆火的世界人工智能大会（WAIC 2024）中，人形机器人「十八金刚」成为了会场中当之无愧的焦点。由青龙、智元-远征A2、宇树-H1、傅利叶-GR-1、星动纪元-XBot-L、乐聚-夸父4代等一众人形机器人组成的先锋阵列，作为「镇馆之宝」被陈列在展览馆进门处，成为了所有进场观众看到的首个惊喜。在大模型技术的加持下，长出「大脑」的人形机器人被视为通向 AGI 的必经之路，「具身智能元年」似乎已经到来。

AI 编程新星 Anysphere 获 A16z 估值 4 亿美元投资；微软为 Excel 等研发新 AI 模型丨AI情报局

今日融资快报AI编程Anysphere获得A16z新一轮投资，估值达4亿美元AI 编程初创公司 Anysphere 发布AI代码编辑器 Cursor，并成功从知名风险投资公司 A16z 获得新一轮融资，估值至少达到4亿美元。 Cursor 被多个大型科技公司使用，包括 OpenAI 和 Perplexity。 Anysphere 的目标是通过AI 编辑器帮助开发者提高工作效率，简化编码过程。

苹果、英伟达等公司被曝使用争议 YouTube 资源训练 AI 模型：5.7GB，涉及 4.8 万个频道 17.4 万个视频字幕

非营利性新闻工作室 ProofNews 昨日（7 月 16 日）发布博文，表示包括苹果、英伟达、Salesforce 和 Anthrophic 在内的大型科技公司，在训练其 AI 模型时均使用了来自 YouTube 的视频资源。报道称这些科技公司在训练其 AI 模型过程中，使用了名为 YouTube Subtitles 的数据集，大小为 5.7GB（4.89 亿个单词）。该数据集由 EleutherAI 创建，最早发布于 2020 年，涉及超过 48000 个频道的 173536 个 YouTube 视频字幕内容

资讯列表