AI资讯列表 - AI在线

马斯克：人工智能模型 Grok 2 测试版即将发布

感谢特斯拉 CEO 马斯克当地时间 8 月 11 日晚在 X 平台上表示，人工智能模型 Grok 2 测试版即将发布。Grok 是马斯克旗下的 xAI 公司推出的大语言模型 Grok 2，上个月马斯克就在 X 平台上确认，Grok 2 将于数周后发布。在回应用户关于训练数据的提问时，他表示该模型“改进巨大”。马斯克和 xAI 目前尚未公布关于该模型的详细信息。今年三月，马斯克曾表示 Grok 2 将在“所有指标”上超越当前一代的 AI 模型。Grok 2 发布后将紧随 Grok 3，马斯克此前称其将在年底左右推出。

如何设计能让用户自发传播的 AI 应用？完整流程来了！

一、市场的现状与尝试 1. 当前现状目前在各领域中的人工智能（AI）现状，由于企业级（B 端）和消费者级（C 端）AI 应用在功能和目标用户群体方面存在显著差异，导致其工具属性显得尤为突出。无论在何种场景下，用户在使用 AI 技术时，主要目的是提高效率或解决特定问题。然而，大多数普通用户难以直接接触到 AI 技术，在使用过程中仍面临一定的门槛。而这些普通用户通常是通过其他应用程序间接地接触到 AI 技术。在面对市场上众多 AI 工具的情况下，我们需要结合自身业务的特性和当前状况，思考如何使钉钉上的更多非专业的普

谷歌 DeepMind 开发乒乓球机器人，与人类对打胜率超四成

感谢8 月 7 日，谷歌旗下 DeepMind 公司宣布研发团队开发出一款乒乓球机器人，可在比赛中达到人类业余乒乓球选手的水平。▲ DeepMind 项目据介绍，通过 29 场机器人与人类的比赛来评估效果，其中机器人赢得了 45%（13/29）。所有选手都是机器人未见过的人类选手，他们的技能水平从初学者到锦标赛级别各不相同。虽然机器人输掉了所有与最高级玩家的比赛，但它赢得了与初学者 100% 的比赛和与中级玩家 55% 的比赛，具备业余人类水平。▲ i-Sim2Real 项目AI在线注意到，早在 2022 年谷歌便

专利算法加持，初创公司 ProRata 欲解决 AI 剽窃问题

生成式 AI 模型是批量剽窃机器吗？许多人可能会这么认为。这些 AI 公司通过重制他人内容的产品获得了数十亿美元的投资，而原创作者却一无所获。科技企业家 Bill Gross 也这样认为，同时他声称自己有解决方案。他的新创公司 ProRata 宣称将推出一个结合聊天机器人和搜索引擎的平台，利用其专利算法识别和找出 AI 模型使用的作品，并通过收入分成确保所有相关方获得补偿。Gross 告诉 Wired 杂志：“我们可以将生成式 AI 的输出，无论是文本、图像、音乐还是电影，分解成各个组件，找出它们的来源，然后为每个

微软 Copilot AI 被指可被黑客操纵，轻松窃取企业机密

据 Futurism 报道，安全研究人员近日揭示微软内置于 Windows 系统的 Copilot AI 可被轻松操控泄露企业敏感数据，甚至变身强大的钓鱼攻击工具。AI在线注意到，安全公司 Zenity 联合创始人兼 CTO Michael Bargury 在拉斯维加斯黑帽安全大会上披露了这一惊人发现，他表示，“我可以利用它获取你的所有联系人信息，并替你发送数百封电子邮件。”他指出，传统黑客需要花费数天时间精心制作钓鱼邮件，而利用 Copilot，几分钟内即可生成大量具有欺骗性的邮件。研究人员通过演示展示了攻击者无

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

都 2024 年，还有人不了解 Transformer 工作原理吗？快来试一试这个交互式工具吧。2017 年，谷歌在论文《Attention is all you need》中提出了 Transformer，成为了深度学习领域的重大突破。该论文的引用数已经将近 13 万，后来的 GPT 家族所有模型也都是基于 Transformer 架构，可见其影响之广。作为一种神经网络架构，Transformer 在从文本到视觉的多样任务中广受欢迎，尤其是在当前火热的 AI 聊天机器人领域。不过，对于很多非专业人士来说，Tran

给视频模型安上快慢两只眼睛，苹果免训练新方法秒了一切SOTA

自从 Sora 发布以来，AI 视频生成领域变得更加「热闹」了起来。过去几个月，我们见证了即梦、Runway Gen-3、Luma AI、快手可灵轮番炸场。和以往一眼就能识破是 AI 生成的模型不太一样，这批视频大模型可能是我们所见过的「最好的一届」。然而，视频大语言模型（LLM）惊艳表现的背后离不开庞大且经过精细标注的视频数据集，这需要花费相当高的成本。近期研究领域也涌现了一批无需额外训练的创新方法：采用训练好的图像大语言模型，直接用于视频任务的处理，这样就绕开了「昂贵」的训练过程。此外，现有大多视频 LLM 存

ACL 2024 Oral｜我们离真正的多模态思维链推理还有多远？

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]该文章的第一作者陈麒光，目前就读于哈工大赛尔实验室。他的主要研究方向包括大模型思维链、跨语言大模型等。在过去的几年中，大型语言模型（Large Language Models, LLMs）

直播打游戏的马斯克、TED演讲谷歌小姐姐到底是不是真人？网友猜到怀疑人生

眼见为实？在AI时代，这句话该过时了。AI正掀起一场「造假」新风暴。近日，一项名为Deep Live Cam的直播换脸项目火了，在Github上狂揽5.8k Star量，一跃成为Github热门榜单第一。先看看它的品质，换脸成马斯克，360 度打光都没有违和感。有网友惊呼，太疯狂了，还以为这就是马斯克的游戏直播。此外，AI 生成的谷歌小姐姐还登上 TED 进行演讲，那逼真程度，一个字，绝！曾经科幻片中的场景，如今渐成现实，黑镜来得太快，不得不让人担忧。正如 AI 大牛 Anderj Karpathy 所言，要行善，

新PyTorch API：几行代码实现不同注意力变体，兼具FlashAttention性能和PyTorch灵活性

用 FlexAttention 尝试一种新的注意力模式。理论上，注意力机制就是你所需要的一切。然而在实际操作中，我们还需要优化像 FlashAttention 这样的注意力机制的实现。尽管这些融合的注意力机制大大提高了性能，且支持长上下文，但这种效率的提升也伴随着灵活性的丧失。对于机器学习研究人员来说，这就像是一种「软件彩票」—— 如果你的注意力变体不适合现有的优化内核，你将面临运行缓慢和 CUDA 内存不足的困境。一些注意力变体包括因果注意力、相对位置嵌入、Alibi、滑动窗口注意力、PrefixLM、文档掩码

混合专家更有主见了，能感知多模态分情况行事，Meta提出模态感知型专家混合

混合专家，也得术业有专攻。对于目前的混合模态基础模型，常用的架构设计是融合特定模态的编码器或解码器，但这种方法存在局限：无法整合不同模态的信息，也难以输出包含多种模态的内容。为了克服这一局限，Meta FAIR 的 Chameleon 团队在近期的论文《Chameleon: Mixed-modal early-fusion foundation models》中提出了一种新的单一 Transformer 架构，它可以根据下一个 token 的预测目标，对由离散图像和文本 token 组成的混合模态序列进行建模，从而

开闭源模型「大乱斗」：看看哪个智能体最能窥见人类真实意图

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本文第一作者为清华大学计算机系本科生钱成，何秉翔。两人均为 THUNLP 成员。钱成主要研究兴趣为工具学习，大模型驱动智能体，即将就读 UIUC 博士。何秉翔主要研究兴趣为大模型对齐与安全

效率翻倍！6 款不容错过的免费 AI 神器（九）

大家好，这里和你们一起探索 AI 的花生。今天继续我们的 AI 效率神器推荐第 9 期，一起来看看吧~ 上期回顾：一、FreePik AI 图像处理网站直达： FreePik 是国外知名的设计素材和图库网站，自 AI 生成式技术兴起后，FreePik 也紧跟潮流上线了 AI 专属版块 Pikaso，目前有图像生成、风格化、高清放大、背景扣除、外绘扩展等多项功能。我测试了它的抠图和外绘功能，处理速度很快，效果也非常不错，拓展后的图像可以与原图完美衔接。其 AI 功能每天都有 2-3 次的免费使用额度看，适合偶尔

新恐怖谷：全球 500 万网友被骗，爆火 TEDx 演讲者没一个是真人

最近，这几位 TED 演讲者，在外网形成了病毒式传播，然而，他们竟然全都不是真人？！答案揭晓后，五百万网友简直惊掉下巴。这 5 张图里，你能发现几个 bug？最近，这些「TED 演讲者」在外网火得一塌糊涂，堪称病毒式传播。仔细看看，你能发现什么问题吗？答案揭晓 —— 这五个人中，没有一个是真人！在线寻人的小哥要哭了如此逼真，几乎毫无破绽，这种级别的生图 AI 直接让网友们惊掉下巴。甚至连 AI 识别软件，都认不出来这是 AI 生成的图。「看起来真实，难道不是因为本来就是真实的照片？」「没有一张是真人吗？简直令人毛骨

华为 AI 消除功能目前仅支持 Pura 70 系列等新机型，Mate 60 等暂不支持

华为终端 BG CTO 李小龙今日在社交平台展示了华为 Pura 70 Ultra 的 AI 消除功能。该功能可以精准识别影响构图的部分并一键消除，处理后的照片看不出涂抹痕迹。有网友在评论区询问 AI 消除功能何时下放到 Mate 60 系列。华为终端客户服务回应称：“AI 消除功能目前仅 HUAWEI Pura 70 系列 / HUAWEI nova 12 Ultra 星耀版 / nova Flip 手机支持。其他机型后续支持情况，请关注华为官方消息。”华为终端客户服务还补充道：“当前您可使用图库图片编辑消除功能

直播版 Deepfake 实现单张照片实时视频换脸，5 分钟安装不挑硬件

马斯克“最新直播”，不好好扣他那 polo 衫扣子，拿个手机打光晃来晃去。看他脑袋左转右转，嘴角扬起的微笑，ak 都压不下去。Why 啊？！答案揭晓 —— 这活灵活现的马斯克，根本不是马斯克本马！而是一个最新 AI 换脸项目生成的：只需一张照片，就能换脸搞直播。不得不说，这样的马斯克还挺吓人的，有点鬼片怪蜀黍内味了~本地安装一下，就能达到实时无延迟，还支持实时预览。也就是说，无论搞在线会议还是直播带货，可以用任何人的脸了。一打开会议软件，30 个马斯克正在开视频会议；一打开直播间，100 个董宇辉在发大额优惠券。这

OpenAI 发布 GPT-4o 模型卡：概述 AI 安全和风险缓解措施

OpenAI 公司于 8 月 8 日发布报告，概述了 GPT-4o 模型的系统卡（System Card），介绍了包括外部红队（模拟敌人攻击）、准备框架（Preparedness Framework）在内的诸多细节。OpenAI 表示 GPT-4o 模型的核心就是准备框架（Preparedness Framework），这是一种评估和降低人工智能系统相关风险的系统方法。AI在线从报道中获悉，该框架主要用于识别网络安全、生物威胁、说服和模型自主性等领域的潜在危险。除了针对 GPT-4 和 GPT-4V 进行的安全评估

北京航空航天大学发布“小航”AI 助手：200 PFlops 算力、12PB 存储能力

AI在线从北京航空航天大学获悉，8 月 8 日上午，该校发布了开放式私域 AI 大模型“小航”。“小航”是一个开放的 AI 底座，其融合了开放、私域的设计理念，不仅实现了私域数据的自主可控和协同计算，同时具备领域知识的专项学习能力。据北航国新院“小航”研发团队介绍，“小航”有如下创新特色：“超强大脑”：“小航”系全国产超大规模的智算平台，其硬件资源部署在北航杭州国际校园，在架构设计上，具有高可靠、高安全、高速率、高扩展等优势，配备了百台千卡的智算集群，提供的算力高达 200 PFlops，并且具备高达 12PB 的