AI资讯列表 - AI在线

无一大模型及格！北大 / 通研院提出超难基准 LooGLE，专门评估长文本理解生成

在长文本理解能力这块，竟然没有一个大模型及格！北大联合北京通用人工智能研究院提出了一个新基准数据集：LooGLE，专门用于测试和评估大语言模型（LLMs）长上下文理解能力。该数据集既能够评估 LLMs 对长文本的处理和检索能力，又可以评估其对文本长程依赖的建模和理解能力。结果不评不知道，一评估发现这些模型在复杂的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。比如像 Claude3-200k，GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex 这种商业模型，

在线设计平台 Canva 可画发布一站式 AI 创作套件“魔力工作室”：支持生成花字、转场动画

感谢在 8 月 6 日的“Canva Connect 连接你我，可画未来”主题活动中，在线视觉传播和协作平台 Canva 可画宣布，一站式 AI 创作套件“魔力工作室”在中国正式上线。该套件号称“人人可用的一站式 AI 创作套件”，功能包括基于 AIGC 的文案生成、图片生成、花字特效生成、图片编辑、转场动画设计生成等。用户仅需输入简单的文字描述，即可快速生成图片插画、花字特效和演示文稿等等。此外，该套件内置“魔力橡皮擦”“魔力抓取”，用户可去除图片中的指定元素或提取、移动图片主体。官网显示，智能抓取、魔力特效、魔

腾讯元宝上线深度阅读模式：原生支持最长近 50 万字输入，可提炼论文、生成杜邦分析图等

感谢腾讯元宝宣布，在最新版本的腾讯元宝中，当用户上传论文、财报、研报等专业内容的 URL 链接或文件，除获得文字概括总结外，还可进入深度阅读模式，对长文进行精读。该模式可提供核心内容概览及模块化解析，生成总结性图表，辅助用户快速理解关键信息。据介绍，深度阅读模式可原生支持最长近 50 万字的输入，能够在理解专业内容的基础上，生成图文并茂的内容，不仅可以引用输入内容的原图，还能通过代码绘制高阶的分析图。针对外文文献，腾讯元宝可提炼论文中的创新点与不足，便于对论文质量形成判断，也可随时划词搜索或翻译原文中的专业术语。▲

AI 威胁生计，美国游戏演员发起大罢工

感谢自 7 月 26 日起，美国演员工会（SAG-AFTRA）的成员开始针对游戏行业发起罢工，此次罢工涉及超过 16 万名 SAG-AFTRA 成员，对从大型发行商到小型独立工作室的游戏开发造成巨大冲击。罢工的核心争议在于 AI 技术的使用。工会方要求对演员的数字复制品和生成式 AI 的应用进行严格保护，以防止未经授权使用演员形象和声音。然而，游戏行业谈判委员会 —— 代表着包括动视暴雪、Take-Two、顽皮狗等 30 家公司的利益，对保护范围存在分歧。工会方要求保护所有涉及声音和动作捕捉的演员，而游戏公司最初仅

面壁智能开源 MiniCPM-V 2.6 模型：号称端侧 AI 多模态能力对标 GPT-4V，6G 内存可用

面壁智能昨日开源了 MiniCPM-V 2.6 模型，官方表示将端侧 AI 多模态能力拉升至全面对标 GPT-4V 水平。官方称 MiniCPM-V 2.6 模型仅 8B 参数，取得 20B 以下单图、多图、视频理解 3 SOTA 成绩，有以下特点：“三合一最强”端侧多模态：首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越 GPT-4V，单图理解越级比肩多模态王者 Gemini 1.5 Pro 和新晋顶流 GPT-4o mini多项功能首次上端：实时视频理解、多图联合理解、多图 ICL 视觉类比学习、多图

传月之暗面完成 3 亿美元融资，最新估值 33 亿美元；OpenAI 加持，最强人形机器人 Figure 02 登场丨AI情报局

今日融资快报月之暗面完成3亿美元新一轮融资，投后估值33亿美元，月之暗面回应：不予置评据彭博社报道，月之暗面刚刚完成了新一轮 3 亿多美元融资，此次融资将月之暗面的估值推高至 33 亿美元，并吸引了包括腾讯、高榕资本和老股东阿里巴巴在内的其他投资者。对此，有接近公司的知情人士表示，此次腾讯参投消息属实。而月之暗面则回应称，对该融资消息不予置评。

OpenAI 在 API 中引入结构化输出，最新版 GPT-4o AI 模型达到 100% 满分

感谢OpenAI 公司昨日（8 月 6 日）发布新闻稿，宣布在 API 中引入结构化输出（Structured Outputs）。OpenAI 公司此前已提供结构化输出，用户可以指定 "response_format": {"type": "json_object"}} 来请求一个有效的 JSON 对象，也可以使用函数调用机制来请求符合特定模式的响应。OpenAI 在导言中表示，结构化输出功能可确保模型生成的响应始终符合用户提供的 JSON 模式，因此用户无需担心模型会遗漏必填键或生成无效的枚举值。AI在线附上结构

让「GPT-4V」跑在手机上，这家中国大模型公司做到了

真实世界的视觉信息是流动的，而在处理流动性的视觉信息上，端侧视频理解具有天然优势，手机、PC、AR、机器人、智能座驾等端侧设备自带的摄像头，具有天然的多模态输入能力。与云端相比，端侧离用户更近，链路更短，效率更高，同时具有更强的信息安全优势。今日，面壁正式发布了 MiniCPM-V 2.6，在端侧性能实现全面对标 GPT-4V——据介绍，MiniCPM-V 2.6 首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越GPT-4V，三项能力均取得 20B 以下 SOTA 成绩，单图理解越级比肩 Gemini 1.5 Pro 和 GPT-4o mini 。

搭载字节豆包大模型，smart首款豪华中型SUV精灵5即将发布

近日，新奢智能纯电汽车品牌smart在官方渠道透露，旗下首款豪华中型SUV精灵#5将于8月28日在澳洲全球首秀。官方路透显示，精灵#5除了沿袭概念车的前瞻开拓性设计，在智能座舱方面，还通过与火山引擎深度合作，搭载字节跳动豆包大模型，为用户带来更加人性化、智能化的座舱新体验。smart精灵#5概念车首次亮相于2024年4月北京国际车展。梅赛德斯-奔驰全球设计团队以“感性·灵锐”的设计语言”对该款车型的外观进行了大胆方正、极具力量感的设计，也让精灵#5成为smart品牌有史以来最大尺寸的车型。除了设计上的突破，smar

阿里通义 App 推出“角色扮演”功能，可将视频人物换成“孙悟空”“机器人”

8 月 6 日，通义 App 上线新功能“角色扮演”，用户只需要上传一段视频即可完成“现实与虚拟”的跨界，实现诸如机器人“带娃”、孙悟空“跳舞”、二次元女生“职场搬砖”的效果。AI在线附操作方法：用户准备一段不超过 15 秒的视频，通过“通义 App 频道角色扮演开始创作”的顺序进入功能入口，用户也可以在官方提供的视频模板中选择视频，最多可替换视频中的 3 个角色。可选角色方面，官方提供了孙悟空、机器人及两款不同风格的女性角色供用户选择。据介绍，“角色扮演”功能背后的“核心技术”是通义实验室研发的 AI

AI 绘画新标杆！一文详解最新开源模型 Flux.1（附新版工作流&模型资源包）

大家好，这里是和你们一起探索 AI 的花生~ 继 SD 3 Medium、Kolors 之后，开源领域又新增了一款文本-图像生成模型 Flux.1。它由 Stability AI 前核心成员主导开发，模型质量远超 SD 3，甚至与闭源的 Midjourney v6.1 模型不相上下，成为了 AI 文生图模型的新标杆，也给开源 AI 绘画带来了新的发展活力。今天就一起来看看 Flux.1 模型的特点和安装使用方法。相关推荐：一、Flux.1 简介 Black Forest Labs 官网： Flux.1 是由 B

第一波！2024年8月精选实用设计工具合集

大家好，这是 2024 年 8 月的第 1 波干货合集！这一期干货合集当中绝大多数都是 AI 工具，基于 AI 生成交互式信息图和流程图的平台，免费在线图生文的 AI 工具，免费生成 3D 素材的 AI 平台，以及基于 Json 数据生成 UI 界面的 AI 平台，另外还有一个免费便捷的图片包装工具。当然，在此之前记得看看往期干货中有没有你感兴趣的素材：下面我们具体看看这一期的干货: 1、将图表转化为交互式信息图的平台是一个超强的、基于 AI 的交互式信息图表生成和制作工具，一方面，它可以相当轻松地将手绘的流

严防“胡说八道”，苹果 Apple Intelligence 智能回复功能加入“反幻觉”指令

近日有网友在 macOS 15.1 测试版中发现了苹果公司为 Apple Intelligence 的智能回复（Smart Reply）功能设置的一系列内部指令。这些指令以 JSON 文件的形式存在，详细规定了该功能的工作流程。其中最引人注目的是，苹果明确要求系统“不要编造事实，不要产生幻觉”。据AI在线了解，智能回复是苹果邮件应用的一项功能，旨在通过分析邮件内容自动生成可能的回复选项，这一功能的背后是苹果自研的智能技术。然而，与其他生成式 AI 一样，智能回复也面临着“幻觉”问题，即系统可能会生成虚假或误导性的信

Meta 构建分布式 RoCEv2 网络：探索串联数万片 GPU，训练千亿参数级 AI 模型

Meta 公司于 8 月 5 日发布博文，表示为了满足大规模分布式 AI 训练对网络的需求，构建了基于 RoCEv2 协议的大规模 AI 网络。RoCEv2 的全称是 RDMA Over Converged Ethernet version 2，是一种节点间通信传输方式，用于大部分人工智能容量。Meta 公司已成功扩展了 RoCE 网络，从原型发展到部署了众多集群，每个集群可容纳数千个 GPU。这些 RoCE 集群支持广泛的生产型分布式 GPU 训练工作，包括排名、内容推荐、内容理解、自然语言处理和 GenAI 模

苹果牌 AI 推进新证据曝光，欧洲市场初期仅限 Mac 平台

科技媒体 9to5Mac 挖掘 iOS 18.1 以及 macOS 15.1 Sequoia 的 Beta 1 更新代码，发现了关于苹果 Apple Intelligence 的相关信息。AI在线基于代码字符内容，翻译相关信息如下：iOS 18.1Apple Intelligence 适用于 iPhone 15 Pro 和 iPhone 15 Pro Max。Apple Intelligence 目前尚未在欧盟和中国推出。macOS Sequoia 15.1 Apple Intelligence 适用于 M1 及更

Figure AI把「终结者」造出来了

能语音对话，VLM 视觉，每天工作 20 小时。总会有这一天，但我们没想到来的居然这么快。北京时间 8 月 6 日晚，硅谷著名具身智能创业公司 Figure 正式发布了自己的新一代人形机器人 Figure 02。除了样子够科幻，这种机器人也有着足够通用的智能，它可以与人类实时对话，自动学习如何装配零件。事实上，Figure 02 正在宝马位于 Spartanburg 的工厂实习工作，我们仿佛已经进入了未来。Figure 工程和设计团队完成了对 Figure 02 硬件和软件的彻底重新设计。在人工智能、视觉、电池、电

鸿蒙智行享界S9及全场景新品发布会，多款重磅新品齐发

不到 45 万的 D 级车，明天开始交付。

阿里国际推出首个专业版AI Search，为什么它会是下一个B2B谷歌？

经历过「千模大战」的喧嚣，一年半之后，生成式 AI 的应用层创新终于步入爆发期。年初的 Sora 激起一阵 AI 视频生成的浪潮。涟漪未散，OpenAI 新的 SearchGPT 又燃起了 AI 搜索的战火。AI 搜索，这其实是生成式 AI 技术浪潮刚涌现时，大部分人对其应用的想象：改变传统的搜索引擎。这一战场上，Perplexity 在另起炉灶，Google 想着自我革新，Bing 忙着乘势而起。如今，阿里国际也宣布入局，直接带来了一款新产品。但与其它所有人都不同，阿里国际的 AI 搜索切入了一个空白