资讯列表

无一大模型及格!北大 / 通研院提出超难基准 LooGLE,专门评估长文本理解生成

在长文本理解能力这块,竟然没有一个大模型及格!北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估 LLMs 对长文本的处理和检索能力,又可以评估其对文本长程依赖的建模和理解能力。结果不评不知道,一评估发现这些模型在复杂的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。比如像 Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex 这种商业模型,

在线设计平台 Canva 可画发布一站式 AI 创作套件“魔力工作室”:支持生成花字、转场动画

感谢在 8 月 6 日的“Canva Connect 连接你我,可画未来”主题活动中,在线视觉传播和协作平台 Canva 可画宣布,一站式 AI 创作套件“魔力工作室”在中国正式上线。该套件号称“人人可用的一站式 AI 创作套件”,功能包括基于 AIGC 的文案生成、图片生成、花字特效生成、图片编辑、转场动画设计生成等。用户仅需输入简单的文字描述,即可快速生成图片插画、花字特效和演示文稿等等。此外,该套件内置“魔力橡皮擦”“魔力抓取”,用户可去除图片中的指定元素或提取、移动图片主体。官网显示,智能抓取、魔力特效、魔

腾讯元宝上线深度阅读模式:原生支持最长近 50 万字输入,可提炼论文、生成杜邦分析图等

感谢腾讯元宝宣布,在最新版本的腾讯元宝中,当用户上传论文、财报、研报等专业内容的 URL 链接或文件,除获得文字概括总结外,还可进入深度阅读模式,对长文进行精读。该模式可提供核心内容概览及模块化解析,生成总结性图表,辅助用户快速理解关键信息。据介绍,深度阅读模式可原生支持最长近 50 万字的输入,能够在理解专业内容的基础上,生成图文并茂的内容,不仅可以引用输入内容的原图,还能通过代码绘制高阶的分析图。针对外文文献,腾讯元宝可提炼论文中的创新点与不足,便于对论文质量形成判断,也可随时划词搜索或翻译原文中的专业术语。▲

AI 威胁生计,美国游戏演员发起大罢工

感谢自 7 月 26 日起,美国演员工会(SAG-AFTRA)的成员开始针对游戏行业发起罢工,此次罢工涉及超过 16 万名 SAG-AFTRA 成员,对从大型发行商到小型独立工作室的游戏开发造成巨大冲击。罢工的核心争议在于 AI 技术的使用。工会方要求对演员的数字复制品和生成式 AI 的应用进行严格保护,以防止未经授权使用演员形象和声音。然而,游戏行业谈判委员会 —— 代表着包括动视暴雪、Take-Two、顽皮狗等 30 家公司的利益,对保护范围存在分歧。工会方要求保护所有涉及声音和动作捕捉的演员,而游戏公司最初仅

面壁智能开源 MiniCPM-V 2.6 模型:号称端侧 AI 多模态能力对标 GPT-4V,6G 内存可用

面壁智能昨日开源了 MiniCPM-V 2.6 模型,官方表示将端侧 AI 多模态能力拉升至全面对标 GPT-4V 水平。官方称 MiniCPM-V 2.6 模型仅 8B 参数,取得 20B 以下单图、多图、视频理解 3 SOTA 成绩,有以下特点:“三合一最强”端侧多模态:首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越 GPT-4V,单图理解越级比肩多模态王者 Gemini 1.5 Pro 和新晋顶流 GPT-4o mini多项功能首次上端:实时视频理解、多图联合理解、多图 ICL 视觉类比学习、多图

传月之暗面完成 3 亿美元融资,最新估值 33 亿美元;OpenAI 加持,最强人形机器人 Figure 02 登场丨AI情报局

今日融资快报月之暗面完成3亿美元新一轮融资,投后估值33亿美元,月之暗面回应:不予置评据彭博社报道,月之暗面刚刚完成了新一轮 3 亿多美元融资,此次融资将月之暗面的估值推高至 33 亿美元,并吸引了包括腾讯、高榕资本和老股东阿里巴巴在内的其他投资者。 对此,有接近公司的知情人士表示,此次腾讯参投消息属实。 而月之暗面则回应称,对该融资消息不予置评。

OpenAI 在 API 中引入结构化输出,最新版 GPT-4o AI 模型达到 100% 满分

感谢OpenAI 公司昨日(8 月 6 日)发布新闻稿,宣布在 API 中引入结构化输出(Structured Outputs)。OpenAI 公司此前已提供结构化输出,用户可以指定 "response_format": {"type": "json_object"}} 来请求一个有效的 JSON 对象,也可以使用函数调用机制来请求符合特定模式的响应。OpenAI 在导言中表示,结构化输出功能可确保模型生成的响应始终符合用户提供的 JSON 模式,因此用户无需担心模型会遗漏必填键或生成无效的枚举值。AI在线附上结构

让「GPT-4V」跑在手机上,这家中国大模型公司做到了

真实世界的视觉信息是流动的,而在处理流动性的视觉信息上,端侧视频理解具有天然优势,手机、PC、AR、机器人、智能座驾等端侧设备自带的摄像头,具有天然的多模态输入能力。 与云端相比,端侧离用户更近,链路更短,效率更高,同时具有更强的信息安全优势。 今日,面壁正式发布了 MiniCPM-V 2.6,在端侧性能实现全面对标 GPT-4V——据介绍,MiniCPM-V 2.6 首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越GPT-4V,三项能力均取得 20B 以下 SOTA 成绩,单图理解越级比肩 Gemini 1.5 Pro 和 GPT-4o mini 。

搭载字节豆包大模型,smart首款豪华中型SUV精灵5即将发布

近日,新奢智能纯电汽车品牌smart在官方渠道透露,旗下首款豪华中型SUV精灵#5将于8月28日在澳洲全球首秀。官方路透显示,精灵#5除了沿袭概念车的前瞻开拓性设计,在智能座舱方面,还通过与火山引擎深度合作,搭载字节跳动豆包大模型,为用户带来更加人性化、智能化的座舱新体验。smart精灵#5概念车首次亮相于2024年4月北京国际车展。梅赛德斯-奔驰全球设计团队以“感性·灵锐”的设计语言”对该款车型的外观进行了大胆方正、极具力量感的设计,也让精灵#5成为smart品牌有史以来最大尺寸的车型。除了设计上的突破,smar

阿里通义 App 推出“角色扮演”功能,可将视频人物换成“孙悟空”“机器人”

8 月 6 日,通义 App 上线新功能“角色扮演”,用户只需要上传一段视频即可完成“现实与虚拟”的跨界,实现诸如机器人“带娃”、孙悟空“跳舞”、二次元女生“职场搬砖”的效果。AI在线附操作方法:用户准备一段不超过 15 秒的视频,通过“通义 App 频道 角色扮演 开始创作”的顺序进入功能入口,用户也可以在官方提供的视频模板中选择视频,最多可替换视频中的 3 个角色。可选角色方面,官方提供了孙悟空、机器人及两款不同风格的女性角色供用户选择。据介绍,“角色扮演”功能背后的“核心技术”是通义实验室研发的 AI

AI 绘画新标杆!一文详解最新开源模型 Flux.1(附新版工作流&模型资源包)

大家好,这里是和你们一起探索 AI 的花生~ 继 SD 3 Medium、Kolors 之后,开源领域又新增了一款文本-图像生成模型 Flux.1。它由 Stability AI 前核心成员主导开发,模型质量远超 SD 3,甚至与闭源的 Midjourney v6.1 模型不相上下,成为了 AI 文生图模型的新标杆,也给开源 AI 绘画带来了新的发展活力。今天就一起来看看 Flux.1 模型的特点和安装使用方法。 相关推荐:一、Flux.1 简介 Black Forest Labs 官网: Flux.1 是由 B

第一波!2024年8月精选实用设计工具合集

大家好,这是 2024 年 8 月的第 1 波干货合集!这一期干货合集当中绝大多数都是 AI 工具,基于 AI 生成交互式信息图和流程图的平台,免费在线图生文的 AI 工具,免费生成 3D 素材的 AI 平台,以及基于 Json 数据生成 UI 界面的 AI 平台,另外还有一个免费便捷的图片包装工具。 当然,在此之前记得看看往期干货中有没有你感兴趣的素材:下面我们具体看看这一期的干货: 1、将图表转化为交互式信息图的平台 是一个超强的、基于 AI 的交互式信息图表生成和制作工具,一方面,它可以相当轻松地将手绘的流

严防“胡说八道”,苹果 Apple Intelligence 智能回复功能加入“反幻觉”指令

近日有网友在 macOS 15.1 测试版中发现了苹果公司为 Apple Intelligence 的智能回复(Smart Reply)功能设置的一系列内部指令。这些指令以 JSON 文件的形式存在,详细规定了该功能的工作流程。其中最引人注目的是,苹果明确要求系统“不要编造事实,不要产生幻觉”。据AI在线了解,智能回复是苹果邮件应用的一项功能,旨在通过分析邮件内容自动生成可能的回复选项,这一功能的背后是苹果自研的智能技术。然而,与其他生成式 AI 一样,智能回复也面临着“幻觉”问题,即系统可能会生成虚假或误导性的信

Meta 构建分布式 RoCEv2 网络:探索串联数万片 GPU,训练千亿参数级 AI 模型

Meta 公司于 8 月 5 日发布博文,表示为了满足大规模分布式 AI 训练对网络的需求,构建了基于 RoCEv2 协议的大规模 AI 网络。RoCEv2 的全称是 RDMA Over Converged Ethernet version 2,是一种节点间通信传输方式,用于大部分人工智能容量。Meta 公司已成功扩展了 RoCE 网络,从原型发展到部署了众多集群,每个集群可容纳数千个 GPU。这些 RoCE 集群支持广泛的生产型分布式 GPU 训练工作,包括排名、内容推荐、内容理解、自然语言处理和 GenAI 模

苹果牌 AI 推进新证据曝光,欧洲市场初期仅限 Mac 平台

科技媒体 9to5Mac 挖掘 iOS 18.1 以及 macOS 15.1 Sequoia 的 Beta 1 更新代码,发现了关于苹果 Apple Intelligence 的相关信息。AI在线基于代码字符内容,翻译相关信息如下:iOS 18.1Apple Intelligence 适用于 iPhone 15 Pro 和 iPhone 15 Pro Max。Apple Intelligence 目前尚未在欧盟和中国推出。macOS Sequoia 15.1 Apple Intelligence 适用于 M1 及更

Figure AI把「终结者」造出来了

能语音对话,VLM 视觉,每天工作 20 小时。总会有这一天,但我们没想到来的居然这么快。北京时间 8 月 6 日晚,硅谷著名具身智能创业公司 Figure 正式发布了自己的新一代人形机器人 Figure 02。除了样子够科幻,这种机器人也有着足够通用的智能,它可以与人类实时对话,自动学习如何装配零件。事实上,Figure 02 正在宝马位于 Spartanburg 的工厂实习工作,我们仿佛已经进入了未来。Figure 工程和设计团队完成了对 Figure 02 硬件和软件的彻底重新设计。在人工智能、视觉、电池、电

鸿蒙智行享界S9及全场景新品发布会,多款重磅新品齐发

不到 45 万的 D 级车,明天开始交付。

阿里国际推出首个专业版AI Search,为什么它会是下一个B2B谷歌?

经历过「千模大战」的喧嚣,一年半之后,生成式 AI 的应用层创新终于步入爆发期。年初的 Sora 激起一阵 AI 视频生成的浪潮。涟漪未散,OpenAI 新的 SearchGPT 又燃起了 AI 搜索的战火。AI 搜索,这其实是生成式 AI 技术浪潮刚涌现时,大部分人对其应用的想象:改变传统的搜索引擎。这一战场上,Perplexity 在另起炉灶,Google 想着自我革新,Bing 忙着乘势而起。如今,阿里国际也宣布入局,直接带来了一款新产品。但与其它所有人都不同,阿里国际的 AI 搜索切入了一个空白