AI资讯列表 - AI在线

OpenAI 在 API 中引入结构化输出，最新版 GPT-4o AI 模型达到 100% 满分

感谢OpenAI 公司昨日（8 月 6 日）发布新闻稿，宣布在 API 中引入结构化输出（Structured Outputs）。OpenAI 公司此前已提供结构化输出，用户可以指定 "response_format": {"type": "json_object"}} 来请求一个有效的 JSON 对象，也可以使用函数调用机制来请求符合特定模式的响应。OpenAI 在导言中表示，结构化输出功能可确保模型生成的响应始终符合用户提供的 JSON 模式，因此用户无需担心模型会遗漏必填键或生成无效的枚举值。AI在线附上结构

让「GPT-4V」跑在手机上，这家中国大模型公司做到了

真实世界的视觉信息是流动的，而在处理流动性的视觉信息上，端侧视频理解具有天然优势，手机、PC、AR、机器人、智能座驾等端侧设备自带的摄像头，具有天然的多模态输入能力。与云端相比，端侧离用户更近，链路更短，效率更高，同时具有更强的信息安全优势。今日，面壁正式发布了 MiniCPM-V 2.6，在端侧性能实现全面对标 GPT-4V——据介绍，MiniCPM-V 2.6 首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越GPT-4V，三项能力均取得 20B 以下 SOTA 成绩，单图理解越级比肩 Gemini 1.5 Pro 和 GPT-4o mini 。

搭载字节豆包大模型，smart首款豪华中型SUV精灵5即将发布

近日，新奢智能纯电汽车品牌smart在官方渠道透露，旗下首款豪华中型SUV精灵#5将于8月28日在澳洲全球首秀。官方路透显示，精灵#5除了沿袭概念车的前瞻开拓性设计，在智能座舱方面，还通过与火山引擎深度合作，搭载字节跳动豆包大模型，为用户带来更加人性化、智能化的座舱新体验。smart精灵#5概念车首次亮相于2024年4月北京国际车展。梅赛德斯-奔驰全球设计团队以“感性·灵锐”的设计语言”对该款车型的外观进行了大胆方正、极具力量感的设计，也让精灵#5成为smart品牌有史以来最大尺寸的车型。除了设计上的突破，smar

阿里通义 App 推出“角色扮演”功能，可将视频人物换成“孙悟空”“机器人”

8 月 6 日，通义 App 上线新功能“角色扮演”，用户只需要上传一段视频即可完成“现实与虚拟”的跨界，实现诸如机器人“带娃”、孙悟空“跳舞”、二次元女生“职场搬砖”的效果。AI在线附操作方法：用户准备一段不超过 15 秒的视频，通过“通义 App 频道角色扮演开始创作”的顺序进入功能入口，用户也可以在官方提供的视频模板中选择视频，最多可替换视频中的 3 个角色。可选角色方面，官方提供了孙悟空、机器人及两款不同风格的女性角色供用户选择。据介绍，“角色扮演”功能背后的“核心技术”是通义实验室研发的 AI

AI 绘画新标杆！一文详解最新开源模型 Flux.1（附新版工作流&模型资源包）

大家好，这里是和你们一起探索 AI 的花生~ 继 SD 3 Medium、Kolors 之后，开源领域又新增了一款文本-图像生成模型 Flux.1。它由 Stability AI 前核心成员主导开发，模型质量远超 SD 3，甚至与闭源的 Midjourney v6.1 模型不相上下，成为了 AI 文生图模型的新标杆，也给开源 AI 绘画带来了新的发展活力。今天就一起来看看 Flux.1 模型的特点和安装使用方法。相关推荐：一、Flux.1 简介 Black Forest Labs 官网： Flux.1 是由 B

第一波！2024年8月精选实用设计工具合集

大家好，这是 2024 年 8 月的第 1 波干货合集！这一期干货合集当中绝大多数都是 AI 工具，基于 AI 生成交互式信息图和流程图的平台，免费在线图生文的 AI 工具，免费生成 3D 素材的 AI 平台，以及基于 Json 数据生成 UI 界面的 AI 平台，另外还有一个免费便捷的图片包装工具。当然，在此之前记得看看往期干货中有没有你感兴趣的素材：下面我们具体看看这一期的干货: 1、将图表转化为交互式信息图的平台是一个超强的、基于 AI 的交互式信息图表生成和制作工具，一方面，它可以相当轻松地将手绘的流

严防“胡说八道”，苹果 Apple Intelligence 智能回复功能加入“反幻觉”指令

近日有网友在 macOS 15.1 测试版中发现了苹果公司为 Apple Intelligence 的智能回复（Smart Reply）功能设置的一系列内部指令。这些指令以 JSON 文件的形式存在，详细规定了该功能的工作流程。其中最引人注目的是，苹果明确要求系统“不要编造事实，不要产生幻觉”。据AI在线了解，智能回复是苹果邮件应用的一项功能，旨在通过分析邮件内容自动生成可能的回复选项，这一功能的背后是苹果自研的智能技术。然而，与其他生成式 AI 一样，智能回复也面临着“幻觉”问题，即系统可能会生成虚假或误导性的信

Meta 构建分布式 RoCEv2 网络：探索串联数万片 GPU，训练千亿参数级 AI 模型

Meta 公司于 8 月 5 日发布博文，表示为了满足大规模分布式 AI 训练对网络的需求，构建了基于 RoCEv2 协议的大规模 AI 网络。RoCEv2 的全称是 RDMA Over Converged Ethernet version 2，是一种节点间通信传输方式，用于大部分人工智能容量。Meta 公司已成功扩展了 RoCE 网络，从原型发展到部署了众多集群，每个集群可容纳数千个 GPU。这些 RoCE 集群支持广泛的生产型分布式 GPU 训练工作，包括排名、内容推荐、内容理解、自然语言处理和 GenAI 模

苹果牌 AI 推进新证据曝光，欧洲市场初期仅限 Mac 平台

科技媒体 9to5Mac 挖掘 iOS 18.1 以及 macOS 15.1 Sequoia 的 Beta 1 更新代码，发现了关于苹果 Apple Intelligence 的相关信息。AI在线基于代码字符内容，翻译相关信息如下：iOS 18.1Apple Intelligence 适用于 iPhone 15 Pro 和 iPhone 15 Pro Max。Apple Intelligence 目前尚未在欧盟和中国推出。macOS Sequoia 15.1 Apple Intelligence 适用于 M1 及更

Figure AI把「终结者」造出来了

能语音对话，VLM 视觉，每天工作 20 小时。总会有这一天，但我们没想到来的居然这么快。北京时间 8 月 6 日晚，硅谷著名具身智能创业公司 Figure 正式发布了自己的新一代人形机器人 Figure 02。除了样子够科幻，这种机器人也有着足够通用的智能，它可以与人类实时对话，自动学习如何装配零件。事实上，Figure 02 正在宝马位于 Spartanburg 的工厂实习工作，我们仿佛已经进入了未来。Figure 工程和设计团队完成了对 Figure 02 硬件和软件的彻底重新设计。在人工智能、视觉、电池、电

鸿蒙智行享界S9及全场景新品发布会，多款重磅新品齐发

不到 45 万的 D 级车，明天开始交付。

阿里国际推出首个专业版AI Search，为什么它会是下一个B2B谷歌？

经历过「千模大战」的喧嚣，一年半之后，生成式 AI 的应用层创新终于步入爆发期。年初的 Sora 激起一阵 AI 视频生成的浪潮。涟漪未散，OpenAI 新的 SearchGPT 又燃起了 AI 搜索的战火。AI 搜索，这其实是生成式 AI 技术浪潮刚涌现时，大部分人对其应用的想象：改变传统的搜索引擎。这一战场上，Perplexity 在另起炉灶，Google 想着自我革新，Bing 忙着乘势而起。如今，阿里国际也宣布入局，直接带来了一款新产品。但与其它所有人都不同，阿里国际的 AI 搜索切入了一个空白

AI画家的「滑铁卢」：为什么冰可乐不愿意住进茶杯里？

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]文章的第一作者是上海交通大学博士研究生赵峻图（主页：），他的研究方向包括计算机视觉和人工智能赋能的生命科学。此外，他还担任上海交通大学校田径队队长。文章的通讯作者为上海交通大学长聘教轨助理

智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

智谱AI把自研打造的大模型给开源了。国内视频生成领域越来越卷了。刚刚，智谱 AI 宣布将与「清影」同源的视频生成模型 ——CogVideoX 开源。短短几个小时狂揽 4k 星标。代码仓库：：：月 26 日，智谱 AI 正式发布视频生成产品「清影」，得到大家广泛好评。只要你有好的创意（几个字到几百个字），再加上一点点耐心（30 秒），「清影」就能生成 1440x960 清晰度的高精度视频。官宣即日起，清影上线清言 App，所有用户都可以全方位体验。想要尝试的小伙伴可以去「智谱清言」上体验「清影」生视频的能力。「清影

AIGCRank：2024年7月AI微信公众号排行榜

AI在线发布第 2 期「AI行业微信公众号排行榜」2024年7月月度 TOP50 榜单

ACL 2024 Oral | 大模型也会被忽悠？揭秘AI的信念之旅

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本篇论文的第一作者是清华大学交叉信息院的二年级硕士生许融武。主要指导老师为美国东北大学 Weiyan Shi 助理教授、清华大学邱寒助理教授和徐葳教授。地球是平的吗？当然不是。自古希腊数学

错误率从10%降至0.01%，领英全面分享LLM应用落地经验

随着大型语言模型（LLM）技术日渐成熟，各行各业加快了 LLM 应用落地的步伐。为了改进 LLM 的实际应用效果，业界做出了诸多努力。近期，领英（LinkedIn）团队分享了他们在构建生成式 AI 产品的过程中总结的宝贵经验。领英表示基于生成式人工智能构建产品并非一帆风顺，他们在很多地方都遇到了困难。以下是领英博客原文。过去六个月，我们 LinkedIn 团队一直在努力开发一种新的人工智能体验，试图重新构想我们的会员如何进行求职和浏览专业内容。生成式人工智能的爆发式增长让我们停下来思考，一年前不可能实现的事情现在有

科大讯飞发布智能办公本Air 2，打造更懂你的办公AI助手

更懂你的AI助手，让办公轻得自在。8月6日，科大讯飞举行“AI懂你，轻得自在”智能办公本新品发布会，正式发布科大讯飞智能办公本Air 2系列。Air 2深度融合了讯飞星火大模型能力，带来会议纪要、笔记分析、AI写作三大AI绝招；Air 2也首次使用了语义转折点识别算法，大幅提升多人会议的分角色转写准确率；此外，Air 2还拥有88.5%超大视觉屏占比，在轻薄便携的同时带来墨水屏视野“大”体验。轻薄超便携，88.5%超大屏占比Air 2采用了8.2英寸E Ink墨水屏，并拥有88.5%超大视觉屏占比，同时依然保持了5