资讯列表

OpenAI 在 API 中引入结构化输出,最新版 GPT-4o AI 模型达到 100% 满分

感谢OpenAI 公司昨日(8 月 6 日)发布新闻稿,宣布在 API 中引入结构化输出(Structured Outputs)。OpenAI 公司此前已提供结构化输出,用户可以指定 "response_format": {"type": "json_object"}} 来请求一个有效的 JSON 对象,也可以使用函数调用机制来请求符合特定模式的响应。OpenAI 在导言中表示,结构化输出功能可确保模型生成的响应始终符合用户提供的 JSON 模式,因此用户无需担心模型会遗漏必填键或生成无效的枚举值。AI在线附上结构

让「GPT-4V」跑在手机上,这家中国大模型公司做到了

真实世界的视觉信息是流动的,而在处理流动性的视觉信息上,端侧视频理解具有天然优势,手机、PC、AR、机器人、智能座驾等端侧设备自带的摄像头,具有天然的多模态输入能力。 与云端相比,端侧离用户更近,链路更短,效率更高,同时具有更强的信息安全优势。 今日,面壁正式发布了 MiniCPM-V 2.6,在端侧性能实现全面对标 GPT-4V——据介绍,MiniCPM-V 2.6 首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越GPT-4V,三项能力均取得 20B 以下 SOTA 成绩,单图理解越级比肩 Gemini 1.5 Pro 和 GPT-4o mini 。

搭载字节豆包大模型,smart首款豪华中型SUV精灵5即将发布

近日,新奢智能纯电汽车品牌smart在官方渠道透露,旗下首款豪华中型SUV精灵#5将于8月28日在澳洲全球首秀。官方路透显示,精灵#5除了沿袭概念车的前瞻开拓性设计,在智能座舱方面,还通过与火山引擎深度合作,搭载字节跳动豆包大模型,为用户带来更加人性化、智能化的座舱新体验。smart精灵#5概念车首次亮相于2024年4月北京国际车展。梅赛德斯-奔驰全球设计团队以“感性·灵锐”的设计语言”对该款车型的外观进行了大胆方正、极具力量感的设计,也让精灵#5成为smart品牌有史以来最大尺寸的车型。除了设计上的突破,smar

阿里通义 App 推出“角色扮演”功能,可将视频人物换成“孙悟空”“机器人”

8 月 6 日,通义 App 上线新功能“角色扮演”,用户只需要上传一段视频即可完成“现实与虚拟”的跨界,实现诸如机器人“带娃”、孙悟空“跳舞”、二次元女生“职场搬砖”的效果。AI在线附操作方法:用户准备一段不超过 15 秒的视频,通过“通义 App 频道 角色扮演 开始创作”的顺序进入功能入口,用户也可以在官方提供的视频模板中选择视频,最多可替换视频中的 3 个角色。可选角色方面,官方提供了孙悟空、机器人及两款不同风格的女性角色供用户选择。据介绍,“角色扮演”功能背后的“核心技术”是通义实验室研发的 AI

AI 绘画新标杆!一文详解最新开源模型 Flux.1(附新版工作流&模型资源包)

大家好,这里是和你们一起探索 AI 的花生~ 继 SD 3 Medium、Kolors 之后,开源领域又新增了一款文本-图像生成模型 Flux.1。它由 Stability AI 前核心成员主导开发,模型质量远超 SD 3,甚至与闭源的 Midjourney v6.1 模型不相上下,成为了 AI 文生图模型的新标杆,也给开源 AI 绘画带来了新的发展活力。今天就一起来看看 Flux.1 模型的特点和安装使用方法。 相关推荐:一、Flux.1 简介 Black Forest Labs 官网: Flux.1 是由 B

第一波!2024年8月精选实用设计工具合集

大家好,这是 2024 年 8 月的第 1 波干货合集!这一期干货合集当中绝大多数都是 AI 工具,基于 AI 生成交互式信息图和流程图的平台,免费在线图生文的 AI 工具,免费生成 3D 素材的 AI 平台,以及基于 Json 数据生成 UI 界面的 AI 平台,另外还有一个免费便捷的图片包装工具。 当然,在此之前记得看看往期干货中有没有你感兴趣的素材:下面我们具体看看这一期的干货: 1、将图表转化为交互式信息图的平台 是一个超强的、基于 AI 的交互式信息图表生成和制作工具,一方面,它可以相当轻松地将手绘的流

严防“胡说八道”,苹果 Apple Intelligence 智能回复功能加入“反幻觉”指令

近日有网友在 macOS 15.1 测试版中发现了苹果公司为 Apple Intelligence 的智能回复(Smart Reply)功能设置的一系列内部指令。这些指令以 JSON 文件的形式存在,详细规定了该功能的工作流程。其中最引人注目的是,苹果明确要求系统“不要编造事实,不要产生幻觉”。据AI在线了解,智能回复是苹果邮件应用的一项功能,旨在通过分析邮件内容自动生成可能的回复选项,这一功能的背后是苹果自研的智能技术。然而,与其他生成式 AI 一样,智能回复也面临着“幻觉”问题,即系统可能会生成虚假或误导性的信

Meta 构建分布式 RoCEv2 网络:探索串联数万片 GPU,训练千亿参数级 AI 模型

Meta 公司于 8 月 5 日发布博文,表示为了满足大规模分布式 AI 训练对网络的需求,构建了基于 RoCEv2 协议的大规模 AI 网络。RoCEv2 的全称是 RDMA Over Converged Ethernet version 2,是一种节点间通信传输方式,用于大部分人工智能容量。Meta 公司已成功扩展了 RoCE 网络,从原型发展到部署了众多集群,每个集群可容纳数千个 GPU。这些 RoCE 集群支持广泛的生产型分布式 GPU 训练工作,包括排名、内容推荐、内容理解、自然语言处理和 GenAI 模

苹果牌 AI 推进新证据曝光,欧洲市场初期仅限 Mac 平台

科技媒体 9to5Mac 挖掘 iOS 18.1 以及 macOS 15.1 Sequoia 的 Beta 1 更新代码,发现了关于苹果 Apple Intelligence 的相关信息。AI在线基于代码字符内容,翻译相关信息如下:iOS 18.1Apple Intelligence 适用于 iPhone 15 Pro 和 iPhone 15 Pro Max。Apple Intelligence 目前尚未在欧盟和中国推出。macOS Sequoia 15.1 Apple Intelligence 适用于 M1 及更

Figure AI把「终结者」造出来了

能语音对话,VLM 视觉,每天工作 20 小时。总会有这一天,但我们没想到来的居然这么快。北京时间 8 月 6 日晚,硅谷著名具身智能创业公司 Figure 正式发布了自己的新一代人形机器人 Figure 02。除了样子够科幻,这种机器人也有着足够通用的智能,它可以与人类实时对话,自动学习如何装配零件。事实上,Figure 02 正在宝马位于 Spartanburg 的工厂实习工作,我们仿佛已经进入了未来。Figure 工程和设计团队完成了对 Figure 02 硬件和软件的彻底重新设计。在人工智能、视觉、电池、电

鸿蒙智行享界S9及全场景新品发布会,多款重磅新品齐发

不到 45 万的 D 级车,明天开始交付。

阿里国际推出首个专业版AI Search,为什么它会是下一个B2B谷歌?

经历过「千模大战」的喧嚣,一年半之后,生成式 AI 的应用层创新终于步入爆发期。年初的 Sora 激起一阵 AI 视频生成的浪潮。涟漪未散,OpenAI 新的 SearchGPT 又燃起了 AI 搜索的战火。AI 搜索,这其实是生成式 AI 技术浪潮刚涌现时,大部分人对其应用的想象:改变传统的搜索引擎。这一战场上,Perplexity 在另起炉灶,Google 想着自我革新,Bing 忙着乘势而起。如今,阿里国际也宣布入局,直接带来了一款新产品。但与其它所有人都不同,阿里国际的 AI 搜索切入了一个空白

AI画家的「滑铁卢」:为什么冰可乐不愿意住进茶杯里?

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]文章的第一作者是上海交通大学博士研究生赵峻图(主页:),他的研究方向包括计算机视觉和人工智能赋能的生命科学。此外,他还担任上海交通大学校田径队队长。文章的通讯作者为上海交通大学长聘教轨助理

智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调

智谱AI把自研打造的大模型给开源了。国内视频生成领域越来越卷了。刚刚,智谱 AI 宣布将与「清影」同源的视频生成模型 ——CogVideoX 开源。短短几个小时狂揽 4k 星标。代码仓库::: 月 26 日,智谱 AI 正式发布视频生成产品「清影」,得到大家广泛好评。只要你有好的创意(几个字到几百个字),再加上一点点耐心(30 秒),「清影」就能生成 1440x960 清晰度的高精度视频。官宣即日起,清影上线清言 App,所有用户都可以全方位体验。想要尝试的小伙伴可以去「智谱清言」上体验「清影」生视频的能力。「清影

AIGCRank:2024年7月AI微信公众号排行榜

AI在线 发布第 2 期「AI行业微信公众号排行榜」2024年7月月度 TOP50 榜单

ACL 2024 Oral | 大模型也会被忽悠?揭秘AI的信念之旅

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]本篇论文的第一作者是清华大学交叉信息院的二年级硕士生许融武。主要指导老师为美国东北大学 Weiyan Shi 助理教授、清华大学邱寒助理教授和徐葳教授。地球是平的吗?当然不是。自古希腊数学

错误率从10%降至0.01%,领英全面分享LLM应用落地经验

随着大型语言模型(LLM)技术日渐成熟,各行各业加快了 LLM 应用落地的步伐。为了改进 LLM 的实际应用效果,业界做出了诸多努力。近期,领英(LinkedIn)团队分享了他们在构建生成式 AI 产品的过程中总结的宝贵经验。领英表示基于生成式人工智能构建产品并非一帆风顺,他们在很多地方都遇到了困难。以下是领英博客原文。过去六个月,我们 LinkedIn 团队一直在努力开发一种新的人工智能体验,试图重新构想我们的会员如何进行求职和浏览专业内容。生成式人工智能的爆发式增长让我们停下来思考,一年前不可能实现的事情现在有

科大讯飞发布智能办公本Air 2,打造更懂你的办公AI助手

更懂你的AI助手,让办公轻得自在。8月6日,科大讯飞举行“AI懂你,轻得自在”智能办公本新品发布会,正式发布科大讯飞智能办公本Air 2系列。Air 2深度融合了讯飞星火大模型能力,带来会议纪要、笔记分析、AI写作三大AI绝招;Air 2也首次使用了语义转折点识别算法,大幅提升多人会议的分角色转写准确率;此外,Air 2还拥有88.5%超大视觉屏占比,在轻薄便携的同时带来墨水屏视野“大”体验。轻薄超便携,88.5%超大屏占比Air 2采用了8.2英寸E Ink墨水屏,并拥有88.5%超大视觉屏占比,同时依然保持了5