资讯列表

DenseNet共一作者刘壮官宣新去向,将任普林斯顿大学助理教授

「还离这世界上最棒的地儿不远。」最新消息,DenseNet 作者之一刘壮将于 2025 年 9 月加盟普林斯顿大学,担任计算机科学系助理教授一职。刘壮主导了 DenseNet 和 ConvNeXt 的开发,这两款模型如今已成为深度学习和计算机视觉领域最主流的神经网络架构之一。

以图灵机为师:通过微调训练让大语言模型懂执行计算过程

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

卷起来!让智能体评估智能体,Meta发布Agent-as-a-Judge

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

X 平台修改隐私政策,11 月 15 日起第三方公司可将用户内容用于训练 AI 模型

感谢X 平台本周宣布,该平台将从 11 月 15 日起更新其服务条款和隐私政策,新增与 AI 和机器学习相关的内容,允许第三方使用该平台的内容来训练 AI 模型。新版服务条款中明确指出,X 平台可以利用用户发布的文字或提供的信息来改善服务,包括用于训练公司的机器学习和 AI 模型。此外,AI在线注意到新版隐私政策还增加了与第三方合作的条款,指出如果用户选择分享数据,X 平台“可能”会向第三方披露其信息,而第三方“可能”会利用这些信息来训练 AI 模型。

清华开源全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶HF具身热榜

今天,世界见证了 RDT 大模型的诞生,它就像 “小脑” 一样负责控制机器人的运动。无需人类背后操作,RDT 即可指挥机器人双臂并用,完美调出如晚霞般梦幻的鸡尾酒 Malibu Sunset。和人类调酒师一样,首先,RDT 将冰块稳稳倒入高脚杯中,不撒不漏,一套动作行云流水。

从今天起,Windows用户也能使用桌面版ChatGPT了,直接访问最强o1模型

今年 6 月,OpenAI 宣布推出适用于 macOS 的应用程序,让 Mac 用户可以免费安装桌面版 ChatGPT。这也让 Windows 用户大呼羡慕,询问何时才能用上 Windows 版 ChatGPT。近四个月后,OpenAI 终于推出了适用于 Windows 系统的 ChatGPT 应用程序。

日企正开发 AI 系统,帮客服应对客户辱骂等问题

《今日日本》于 10 月 15 日发布博文,报道称 NTT 通讯公司和软银公司正开发 AI 系统能够,以帮助客服应对恶劣客户。这一创新旨在缓解员工的心理压力,同时提高客户服务的质量。NTT 通讯公司研发了新型 AI 客服系统,实时监控客户与客服之间的交流后,并在客服的屏幕前显示恰当的回应语言。

微软将终止中国个人 Azure OpenAI 服务,仅企业客户可用

感谢据第一财经 10 月 17 日报道,多位开发者收到微软邮件称,由于当地监管要求,微软 Azure OpenAI 服务将于 10 月 21 日关停,未来在中国大陆只有企业客户才能订阅 Azure 的 OpenAI 服务。多数开发者是 17 日早上收到了邮件。有开发者表示,“这是个人身份在国内能合规使用 OpenAI 的唯一窗口,现在也关闭了。

诺奖得主迈克尔・莱维特:ChatGPT 比我 IQ 高很多,我啥事都问它

“2024 ESG 全球领导者大会”于 10 月 16 日-18 日在上海召开。2013 年诺贝尔化学奖得主、美国国家科学院院士、英国皇家学会院士、美国斯坦福大学结构生物学教授迈克尔・莱维特(Michael Levitt)出席并演讲。迈克尔・莱维特在演讲中表示,他特别喜欢跨学科教育,比如说他学了很多物理、化学,都是用于医学当中,所以当谈论到全球变暖的时候,全世界其实都非常关注可持续发展。

开普勒发布人形机器人先行者 K2:单手负载 15kg,100TOPS 算力

上海开普勒机器人有限公司自主研发的全尺寸通用人形机器人先行者 K2 全球发布,并在 10 月 14 日开幕的 GITEX GLOBAL 2024 上首度公开亮相。官方表示,通过基于云端大模型的大脑 具身小脑的组合,模仿学习 强化学习的技能训练,K2 基本实现了自主完成特定场景工作任务的能力,具身智能训练效率也得到大幅提升。先行者 K2 的四肢主体结构均采用一体化设计,刚性更好,易于制造和维护;单手 11 个自由度(主动 被动),单手负载能力达 15 公斤,每个指尖配备 96 个触点的柔性传感器。

OpenAI 推出 Windows 版 ChatGPT 客户端:支持热键调用、暂仅限付费用户测试

感谢继苹果 macOS 版后,OpenAI 目前已为微软 Windows 用户推出 ChatGPT 应用桌面客户端,目前这款应用正进行测试,订阅了 ChatGPT Plus / Enterprise / Team / Edu 版本的付费用户可以在微软应用商店中下载使用应用。这款应用本质上是网页版 ChatGPT 套上了外壳,用户可以在窗口中询问 AI 各种功能、上传各种照片文档、访问 OpenAI o1 模型,同时支持通过“Alt  空格”热键快速调出应用,不过AI在线注意到目前“高级语音模式”功能暂时缺席。▲ 图源 OpenAIOpenAI 表示,这款应用将在测试完成后向所有用户开放,预计今年晚些时候完成测试。

Siri 将更聪明:苹果加速整合 ChatGPT,正推进生成文本 / 图像技能

科技媒体 MacRumors 昨日(10 月 17 日)发布博文,报道称苹果正在全力以赴为 iOS 18、iPadOS 18 和 macOS 15 添加全新的 Apple Intelligence 特性,最新发现的后端代码显示苹果公司正努力在 Siri 中整合 ChatGPT。根据最新发现的 Siri 后端代码,提到了调用 ChatGPT 生成文本和图像两个选项,意味着苹果公司即将部署这两项生成功能。ChatGPT 具备卓越的生成文本和图像能力,超越苹果现有的写作工具和文生图 Image Playground 功能,因此可以为用户提供更高级的内容创建能力。

RTX 4090 笔记本 0.37 秒直出大片:英伟达联手 MIT 清华祭出 Sana 架构,速度秒杀 FLUX

一台 4090 笔记本,秒生 1K 质量高清图。英伟达联合 MIT 清华团队提出的 Sana 架构,得益于核心架构创新,具备了惊人的图像生成速度,而且最高能实现 4k 分辨率。一台 16GB 的 4090 笔记本,仅需 0.37 秒,直接吐出 1024×1024 像素图片。

英伟达开源模型 Nemotron-70B 超越 GPT-4o 和 Claude 3.5,仅次于 OpenAI o1

刚刚,英伟达开源了超强模型 Nemotron-70B,后者一经发布就超越了 GPT-4o 和 Claude 3.5 Sonnet,仅次于 OpenAI o1!AI 社区惊呼:新的开源王者又来了?业内直呼:用 Llama 3.1 训出小模型吊打 GPT-4o,简直是神来之笔!

从威尔・史密斯鬼畜吃面到「Her」,这些幕后技术正在推动AI视频时代的到来

还记得「威尔・史密斯吃意大利面」的 AI 鬼畜视频吗?在这些视频里,威尔・史密斯的面部表情、动作都非常夸张,还充满了扭曲、变形。一年多以前,大部分 AI 视频生成模型确实只能达到这样的水平。

英伟达开源最新大模型Nemotron 70B后,只有OpenAI o1一个对手了

英伟达不仅要做显卡领域的领先者,还要在大模型领域逐渐建立起自己的优势。今天,英伟达又开源了一个性能超级强大的模型 —— Llama-3.1-Nemotron-70B-Instruct,它击败了 OpenAI 的 GPT-4o 等闭源模型和 Anthropic 的 Claude-3.5 sonnet 等开源模型。从命名来看,显然 Llama-3.1-Nemotron-70B-Instruct 是基于 Llama-3.1-70B 打造而成。

LoD-Loc:利用城市白模进行无人机六自由度定位!

论文信息论⽂全称:LoD-Loc: Aerial Visual Localization using LoD 3D Map with Neural Wireframe Alignment录⽤会议:NeurIPS 2024论⽂地址::: 基于三维城市⽩模地图(LoD 3D Map) 的⼀种使⽤神经线框对⻬进⾏空中视觉定位的新⽅法论⽂概要:LoD-Loc 基于城市⽩模模型Level of Detail 3D Map (LoD 3D Map)提出⼀种城市⽆⼈机空中定位新范式。 区别于基于SfM / SLAM / Mesh等复杂三维地图的传统定位⽅法 ,LoD 三维地图具有储存容量低 ,能提供隐私保护等优点。然⽽ , 由于 LoD 地图缺乏纹理,使⽤之前传统定位基线进⾏ LoD 地图空中定位并不简单。