AI在线 AI在线

资讯列表

李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪

人类的沟通交流充满了多模态的信息。 为了与他人进行有效沟通,我们既使用言语语言,也使用身体语言,比如手势、面部表情、身体姿势和情绪表达。 因此,为了理解和生成人类动作,理解这些多模态的行为至关重要,而且这一研究方向最近受到的关注也越来越多。
12/18/2024 1:40:00 PM
机器之心

Scaling Law撞墙?预训练终结?亚马逊云科技为什么还在做基础大模型

12 月 2-6 日,亚马逊云科技在美国拉斯维加斯举办了今年度的 re:Invent 大会。 会上,亚马逊云科技发布了相当多东西,其中之一便是新的大模型系列 Nova。 说实话,这确实出乎了相当多人的意料 —— 毕竟亚马逊已经重金押注 Anthropic,似乎没有必要再自起炉灶了。
12/18/2024 1:40:00 PM
机器之心

英伟达下代RTX 50系列显卡规格被泄露,旗舰5090显存达32GB

自 2022 年 10 月以来,高端显卡性能终于又将迎来大幅度升级。 明年的国际消费类电子产品展览会(CES 2025)将在北京时间 1 月 8 日至 11 日举行,包括英特尔、英伟达和 AMD 在内的各大 CPU、GPU 厂商将带着自家最新产品闪亮登场。 大家最期待的应该当属英伟达的最新 RTX 50 系列显卡了,到时候肯定会成为全场的焦点。
12/18/2024 1:33:00 PM
机器之心

Meta 推出 Apollo 开源模型,让 AI “看懂”视频

Meta携手斯坦福大学,推出全新AI模型系列Apollo,显著提升机器对视频的理解能力。Apollo的研发解决了AI领域长期存在的难题,并为视频理解领域树立了新的标杆。
12/18/2024 1:31:06 PM
故渊

Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
12/18/2024 1:31:00 PM
机器之心

见证历史!AI想的科研idea,真被人类写成论文发表了

天啦撸! ! AI想出来的idea,还真有人写成论文了。
12/18/2024 1:30:00 PM
量子位

让多视角图像生成更轻松!北航和VAST推出MV-Adapter

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
12/18/2024 1:28:00 PM
机器之心

大模型超强内存优化:成本削减高达75%,性能不减弱!成果出自日本一初创AI公司之手;网友:电力可能够用了!

出品 | 51CTO技术栈(微信号:blog51cto)一项逆天的大模型优化技术来了! 东京初创公司Sakana AI的研究人员开发了一种新技术,让大模型能够更有效地使用内存,不仅最多节省75%的内存占用,还甚至性能也有所提升! 这种名为“通用Transformer内存”的技术使用特殊的神经网络优化LLM,保留重要的信息并丢弃冗余的细节。
12/18/2024 1:24:55 PM

谷歌发布 FACTS Grounding 基准:Gemini、GPT-4o、Claude 当评委,成 AI 大语言模型“幻觉照妖镜”

12 月 18 日消息,谷歌 DeepMind 团队于 12 月 17 日发布博文,宣布推出 FACTS Grounding 基准测试,评估大型语言模型(LLMs)根据给定材料是否准确作答,并避免“幻觉”(即捏造信息)的能力,从而提升 LLMs 的事实准确性,增强用户信任度,并拓展其应用范围。 数据集在数据集方面,ACTS Grounding 数据集包含 1719 个示例,涵盖金融、科技、零售、医疗和法律等多个领域,每个示例包含一篇文档、一条要求 LLM 基于文档的系统指令和随附的提示词。 示例文档长度不一,最长可达 32000 个 token(约 20000 字)。
12/18/2024 1:24:30 PM
故渊

谷歌逆风翻盘暴击OpenAI,90天王者归来!44页报告押注25年三大技术前沿

逆袭之战开启,谷歌用90天重回巅峰! 短短90天,谷歌就从业内笑柄,逆袭成突破最大、产品最颠覆的科技大公司。 用AI初创创始人Ole Lehmann的话说,「我们正在见证2024年最大的科技转变」。
12/18/2024 1:20:18 PM

国产开源模型顶流「通义」,被曝应用团队已“离开”阿里云,并入阿里智能信息事业群! 阿里吴嘉回归的第一把火,能燃起来吗?

编辑 | 伊风媒体爆料了阿里系大模型“通义”的大新闻:近期,AI应用“通义”已经从阿里云被分拆出来,并入到阿里智能信息事业群! 乍一看有点懵,因为被分拆出来的不是全部的“通义”,而是 To C 的应用层“通义”。 而模型层的“通义”大模型家族相关业务,仍然保留在阿里云体系内的通义实验室中。
12/18/2024 1:18:47 PM
伊风

老黄厨房又整活,端出掌上迷你超级AI计算机,售价只要1700,学生党福利

老黄又开始在厨房整活了,还记得上次吗? 老黄从烤箱端出来超大GPU,震撼全世界这次端出来是一个掌上超级AI计算机,售价只有249美金,1700RMB2024 年 12 月 17 日,英伟达正式发布了新款紧凑型生成式 AI 超级计算机——Jetson Orin Nano Super 开发套件。 这款产品在价格更亲民的同时,通过软件升级实现了性能的显著提升,旨在为人工智能爱好者、开发者和学生党提供强大的 AI 运算能力性能提升,价格降低新款 Jetson Orin Nano Super 开发套件体积小巧,可以轻松握在手中。
12/18/2024 1:00:00 PM
AI寒武纪

用 AI 帮助“打灰”,缪昌文院士目标将混凝土的设计寿命延长到 200 年

建筑材料专家、中国工程院院士、东南大学教授缪昌文透露,目前重大工程使用的混凝土材料的设计寿命为 100—120 年,他们希望通过人工智能技术,将混凝土的设计寿命延长到 200 年。
12/18/2024 12:45:23 PM
汪淼

OpenAI 发布 o1 及开发者新工具:模型升级、实时 API 优化、偏好微调等重磅更新

OpenAI 12天发布会Day9, 今日宣布推出一系列针对开发者的强大模型、全新定制工具以及性能、灵活性和成本效益的升级,旨在助力开发者构建更智能、更强大的 AI 应用。 本次更新涵盖以下关键内容:1. API 中的 OpenAI o1:OpenAI o1 模型正式在 API 中向 5 级使用用户开放。
12/18/2024 12:20:15 PM
AI寒武纪

字节发布豆包视觉理解、3D 生成等新模型,豆包音乐模型可生成 3 分钟作品

豆包3D生成模型也在本次活动中正式亮相。将其与火山引擎数字孪生平台veOmniverse结合使用,可完成智能训练、数据合成和数字资产制作,官方称之为“一套支持 AIGC 创作的物理世界仿真模拟器”。
12/18/2024 11:33:56 AM
清源

消息称“通义”应用团队从阿里云分拆,并入阿里智能信息事业群

有知情人士称,此次调整包括通义 To C 方向的产品经理,以及相关的工程团队,一并调整至阿里智能信息事业群。(智能涌现)
12/18/2024 10:48:13 AM
汪淼

万物皆可高斯!清华最新GaussianAD:以高斯为中心的端到端自动驾驶,完爆当前SOTA!

写在前面 & 笔者的个人理解基于视觉的自动驾驶因其令人满意的性能和低成本而显示出巨大的潜力。 大多数现有方法采用密集表示(如鸟瞰图)或稀疏表示(如实例框)进行决策,这会在全面性和效率之间进行权衡。 本文探索了一个以高斯为中心的端到端自动驾驶(GaussianAD)框架,并利用3D语义高斯来广泛而稀疏地描述场景。
12/18/2024 10:30:00 AM
Wenzhao Zheng等

Omni-Scene:Gaussian统一表征下的自动驾驶多模态生成新SOTA!

写在前面 & 笔者的个人理解西湖大学和浙大的工作,利用3DGS的统一表征,结合扩散模型打通自动驾驶场景的多模态生成。 近期生成 重建的算法越来越多,这说明单重建或者单生成可能都没有办法很好的cover闭环仿真,所以现在的工作尝试两者结合,这块应该也是后面闭环仿真落地的方向。 先前采用基于像素的高斯表示的工作已经证明了前馈稀疏视图重建的有效性。
12/18/2024 9:34:13 AM
Dongxu Wei等