Occ预测最新SOTA!清华团队提出基于高斯世界模型的GaussianWorld算法~
写在前面&笔者的个人理解以视觉信息作为输入的3D占用预测任务最近因其在自动驾驶中的关键应用而受到来自工业界和学术界的广泛关注。 3D占用预测任务旨在根据视觉输入估计 3D 环境中每个体素的占用状态和语义标签。 该任务提供了更细粒度的场景语义和结构描述,这对于开发安全且强大的自动驾驶系统非常重要。- 970
- 0
3D世界的新视角:以Object为中心的占用补全技术(港中文&小米)
写在前面 && 笔者理解传统的感知主要采用3D对象边界框(bboxes)来表征感知,但是这样的表示其实是有局限性的,它无法捕捉物体形状的精确细节,特别是对于具有不规则几何形状的物体,因为它本质上是一个包含物体的长方体。 比如下图1(a)所示,起重机被一个3D边界框完美包围。 但是,其相对于驾驶室的长突出部分在3D边界框内产生了大量未占用的空间。- 970
- 0
颠覆GPT!Meta推出大型概念模型LCM: 从“猜词”到“理解”
今天要跟大家分享一个来自Meta AI的重磅消息:他们开发了一种全新的语言模型——大型概念模型(LCM),它有可能会彻底改变我们对语言模型的理解! 现在市面上的语言模型,比如大家熟悉的GPT,虽然能写诗、写代码、聊天,但它们本质上还是一个字一个字地“猜”出来的。 想象一下,就像一个只会背诵但不懂意思的鹦鹉,虽然能流利地说话,但缺乏真正的理解。- 970
- 0
使用LLaMA 3.1、Firebase和Node.js,构建一个音控的智能厨房应用程序
译者 | 布加迪审校 | 重楼这篇指南逐步介绍了创建一个自动化的厨房助理的过程,附有语音命令、实时购物清单管理以及食谱建议。 我在本教程中将介绍创建一个智能厨房应用程序(Chent),它可以根据个性化偏好简化杂货清单管理。 该应用程序通过语音命令操作,简化了人机交互和添加商品。- 970
- 0
使用 MediaPipe 检测面部五官
面部识别和检测已成为许多现代应用中不可或缺的组成部分,包括用于设备解锁和社交媒体应用中实时效果的添加。 然而,准确高效地检测面部特征,包括鼻子、嘴巴、眼睛甚至虹膜,可能是一个挑战性的过程。 幸运的是,由Google开发的开源框架MediaPipe提供了一个解决方案,它提供了强大的预训练机器学习模型,允许开发者以高精度跟踪和分析面部标志点。- 971
- 0
火山引擎论文入选国际会议ACM MM’24|对齐人类主观偏好的图像质量评价方法
会议背景2024年10月28日至11月1日,ACM Multimedia(ACM MM) 2024在澳大利亚墨尔本召开,该会议是中国计算机学会(CCF)推荐的多媒体领域的A类国际学术会议。 2024年共4395篇参与审稿,最终录用1149篇论文,录用率26.1%。 火山引擎-流媒体技术与湖南工商大学、湘江实验室合作的论文"Align-IQA: Aligning Image Quality…- 971
- 0
ABCoder 在大模型编程领域的探索
前言大语言模型(以下简称大模型或 LLM) 真正意义上火出圈,应该算是 OpenAI 发布 ChatGPT 后(22 年底)。 从这个时间开始,到现在为止,已经过了很长一段时间了,市面上也出现了一些编程工具,比如 MarsCode、Copilot 或者 Cursor 等比较火的结合 IDE 的插件和工具。 而实际上:经过了这么长时间的 LLM 产品发展,大家的编程方式真的被改变了吗?- 974
- 0
NeurIPS 2024 | 从单图到3D:HumanSplat 基于Gaussian Splatting实现高保真人体3D生成
在虚拟和增强现实中,构建写实风格的虚拟人体形象已成为实现自然交互和逼真体验的关键技术之一,并且在社交媒体、游戏、电商、远程交流等领域拥有广泛应用。 然而,现有的人体重建方法通常依赖大量的多视图图像输入或需要对每个实例进行耗时的优化处理,这不仅限制了其在实际场景中的适用性和效率,也难以满足快速和高质量建模的需求。 因此,仅从单张输入图像生成高保真度的人体模型仍然是一个充满挑战的课题。- 973
- 0
时序预测再出新范式!华东师大提出DUET:「双向聚类」新设计,性能刷新SOTA!| KDD 2025
多变量时间序列预测(MTSF)在金融投资、能源管理、天气预测和交通优化等领域具有重要应用。 然而,现实中的时间序列通常面临两大挑战:1. 时间模式的异质性,即由于外部因素的影响,真实时间序列往往表现出非平稳性(Temporal Distribution Shift, TDS),导致其分布和模式发生显著变化;2.- 973
- 0
麦吉尔大学Ding Lab基于深度学习开发单细胞水平转座子位点表达定量模型,登Nature子刊
编辑丨ScineceAI该论文介绍 MATES:一种基于深度学习的单细胞水平转座子定量工具。 MATES 使用基于自编码器的模型,通过分析转座子区域周围独特比对读段的分布,概率性地将多重比对转座子读段分配到特定位点。 通过深度神经网络,MATES 学习独特读段分布与多重比对读段来自特定位点的可能性之间的关系。- 972
- 0
ScienceAl 2024「AI+蛋白&核酸&分子互作」专题年度回顾
编辑 | 萝卜皮2024年,科学界迎来了重要的突破与创新,尤其是在人工智能与结构生物学的结合领域。 正如今年诺贝尔奖颁发所体现的那样,人工智能(AI)技术的迅猛发展正在推动各学科的深度融合,揭示了生命科学研究的新机遇与前景。 在这一年里,AI 与生物学的交汇点愈发引人注目,成为推动现代生物医药、医学研究、生命科学等领域变革的重要力量。- 970
- 0
扒一扒o3-mini背后团队:3位华人核心成员,北大清华南开校友在列
比o1 mini性能更强,价格更低,性价比新王o3-mini再次引爆AI圈热议。 在官方截图中,中等o3-mini的性能和o1 mini差不多,价格却只有后者的一半,整体延迟也和GPT-4o相当。 最主要的,这表明了OpenAI可以在降低成本的同时提高性能。- 975
- 0
LeCun八年前神预言,大模型路线再颠覆?OpenAI宣告:强化学习取得稳定性突破
在2016年的NeurIPS会议上,图灵奖得主Yann LeCun首次提出著名的「蛋糕比喻」:如果智能是一块蛋糕,那么蛋糕中的大部分都是无监督学习,蛋糕上的糖霜(锦上添花)是有监督学习,蛋糕上的樱桃则是强化学习。 If intelligence is a cake, the bulk of the cake is unsupervised learning, the icing on the ca…- 977
- 0
o3并非独门秘技,谷歌已发背后关键机制,方法更简单、成本更低
o1/o3带火的推理计算Scaling,原来谷歌早在今年8月就曾探讨过。 当时,来自斯坦福、牛津以及谷歌DeepMind的团队提出通过重复采样来扩展推理计算量——结果在编码任务中将性能最多提高40%。 他们发现小模型通过生成多种答案/样本,其任务表现可能比一些大型模型单次尝试还要好。- 978
- 0
使用GenAI实现缺陷检测和分析
如果制造公司能够在缺陷发生时就准确找出原因,从而避免代价高昂的生产延误并确保一流的质量,那会怎样? 生成式人工智能(GenAI)彻底改变了制造商的质量控制和缺陷监控方式,使之成为可能。 通过GenAI,制造企业就可以进行持续的缺陷监控和根本原因分析(RCA),从而进行实时质量控制,确保更高效、更可靠的生产运营。- 973
- 0
企业为何仍挣扎于数据治理:挑战与破局之道
尽管AI和分析技术得到广泛使用,但许多企业的数据治理仍不到位,这在网络安全和合规性等多个层面都存在风险,更不用说对各种利益相关者的潜在影响了。 简而言之,随着企业对数据的依赖程度不断增加,数据治理变得越来越必要,而非减少。 Info-Tech Research Group负责数据、分析、企业架构和AI的首席研究总监Steve Willis提供了一个令人清醒的统计数字:大约50%至75%的数据治理计…- 975
- 0
麻省理工研究人员提高机器学习模型准确性
机器学习(ML)有可能通过利用大量数据进行预测洞察来改变医疗决策。 然而,当这些模型在不能充分代表所有人口群体的数据集上进行训练时,就会出现一个严重挑战。 预测疾病患者治疗计划的模型可以在主要包含男性患者的数据集上进行训练。- 970
- 0
微调 YOLO 做车辆、人员、交通标志检测 | 附代码+数据集
目标检测在计算机视觉中是一个至关重要的任务,而YOLO(You Only Look Once)因其速度和准确性而脱颖而出。 在本指南中,我将带你了解如何微调一个YOLO模型,以检测各种道路标志和物体,例如:车辆行人不同颜色的交通灯人行横道速度限制标志禁止标志警告标志本指南适用于使用Linux的用户。 对于Windows用户,Poetry和Cuda的安装可能会有所不同。- 973
- 0
剖析BadGPT-40背后的真相:一个从GPT模型中移除护栏的模型
译者 | 晶颜审校 | 重楼出品 | 51CTO技术栈(微信号:blog51cto)大型语言模型(LLM)风靡全球。 从通用的智能助手到代码伙伴,这些模型似乎什么都能做——除了可靠地执行其内置的安全准则。 OpenAI等公司安装的广为人知的“护栏”旨在确保负责任的行为,保护用户免受恶意输出、虚假信息和网络利用企图的影响。- 975
- 0
李飞飞谢赛宁新作「空间推理」:多模态大模型性能突破关键所在
李飞飞谢赛宁再发新成果:直接把o1式思考拉至下一个level——多模态大语言模型的空间思维! 这项研究系统评估了多模态大模型的视觉空间智能,结果发现:当前,即使是最先进的多模态大模型,在空间认知方面与人类相比仍有显著差距,测试中约71%的错误都源于空间推理方面的缺陷,即空间推理能力是当前主要瓶颈。 图片更为有趣的是,在这种情况下,思维链、思维树等常用的语言提示技术直接失灵了——不仅没有提升模型在空…- 974
- 0
雷军在线挖人,传年薪千万级!DeepSeek 关键骨干罗福莉已离职加入小米,或领军小米大模型团队;小米将在大模型上奋起直追!
编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)AI圈的大新闻,雷总在线挖人,小米要发力大模型了! 知情人士称,雷军认为小米在大模型领域发力太晚,于是亲自挖人,重金招募能够领军小米大模型的人才,支付的薪酬水平在千万元级别。 而且雷总已经初战告捷——帮小米赢得了DeepSeek的关键骨干罗福莉。- 972
- 0
大模型检索增强生成之向量数据库的问题
作为技术人员我想大家或多或少应该都接触过数据库技术,数据库技术的历史可以说是由来已久了;但数据库的发展也是一路曲折,特别是随着互联网体量的快速增加,对数据库的要求也变得越来越多。 而且为了适应各种不同的业务场景,数据库系统也是紧跟潮流发展出多种类型的数据库;比如说传统的关系型数据库,缓存数据库,以及大数据处理的数据库;直到今天的向量数据库。 关系型和缓存数据库就不用说了,今天我们就来聊聊向量数据库…- 973
- 0
全球首个AI圣彼得大教堂上线,40万照片毫米级3D还原文艺复兴巅峰!
不用排队、不用签证,现在只需打开屏幕,就能探索圣彼得大教堂的一切——从壮美的圆顶到鲜有人见的教皇墓地,全方位感受这座文艺复兴与巴洛克建筑巅峰之作的震撼。 梵蒂冈联手Iconem和微软,仅用不到一个月的时间,就打造了这座教堂的数字双胞胎,并推出沉浸式展览和互动网站——La Basilica di San Pietro(意大利语:圣彼得大教堂)。 探索地址:,圣彼得大教堂见证了米开朗基罗与贝尔尼尼的建…- 976
- 0
素数分布规律又有新发现!赵宇飞学生与牛津教授合作成果
赵宇飞高材生、哥伦比亚大学助理教授Mehtaab Sawhney(索尼),又为数学界贡献了一项重要成果——与牛津大学教授Ben Green(格林)一起,证明了一项关于素数分布的新规律。 关键是证明中用到了与Gowers范数相关的技术,而Gowers范数一开始是拿来研究等差数列的,看上去和素数规律风马牛不相及。 甚至作者索尼自己也表示,“作为一个‘局外人’,几乎不可能判断出这些事情是相关的”。- 974
- 0
理论
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!