数据

超越KL!大连理工发布Wasserstein距离知识蒸馏新方法|NeurIPS 2024

自Hinton等人的开创性工作以来,基于Kullback-Leibler散度(KL-Div)的知识蒸馏一直占主导地位。 然而,KL-Div仅比较教师和学生在相应类别上的概率,缺乏跨类别比较的机制,应用于中间层蒸馏时存在问题,其无法处理不重叠的分布且无法感知底层流形的几何结构。 为了解决这些问题,大连理工大学的研究人员提出了一种基于Wasserstein距离(WD)的知识蒸馏方法。

个人跑大模型,英伟达「皮衣刀客」新出的Project DIGITS与M4 Mac Mini到底哪个好?

前些天,英伟达发布了一大堆东西,其中包括一款 AI 超级计算机 Project DIGITS,机器之心也在第一时间进行了报道,参阅《RTX5090 震撼发布,国行 16499 元起,黄仁勋「美国队长」pose 亮翻全场》。 在这篇文章的评论区,一位读者的问题引发了不少争议。 虽然该问题的最高赞回复表示这是「英伟达被黑得最惨的一次」,但实际上使用 Mac Mini 作为个人的大模型运行平台并不是什么罕见操作。

银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!

近日,英伟达CEO黄仁勋在今年CES的演讲无疑让整个科技圈为之沸腾。 他先是向全世界展示了搭载Blackwell新架构的新一代卡皇RTX 5090,然后介绍了英伟达对于人形机器人发展的期盼和投入,并以令人印象深刻的画面结尾——「来自银河通用的全场唯一一台轮式具身大模型机器人Galbot G1将RTX 5090缓缓托起。 」发布会结束后,黄仁勋更是第一时间亲自来到银河通用所在的展区,与Galbot机器人进行真机互动。

重大突破!微软发布“自我进化”,帮小模型超OpenAI-o1

微软亚洲研究院发布了一种创新算法——rStar-Math。 rStar-Math通过代码增强CoT、蒙特卡洛树搜索等,可以帮助小参数模型在不依赖老师模型蒸馏的情况下,实现多轮自我思维深度进化,极大增强模型的数学推理能力。 在美国数学竞赛AIME 2024测试中,rStar-Math平均解决了53.3%(8/15)的难题,超过了OpenAI o1-preview的44.6%,以及所有其他开源的大模型,成为最聪明的前20%高中数学生。

我们一起聊聊如何给AI大模型喂数据?

大家好呀,我是飞鱼。 如果我想要大模型学习我的知识,怎么给他数据呢? 数据是大模型的食物,只有喂对了,模型才能更好地学习和成长。

今天起,汉字也能AI视频生成了!《滕王阁序》直接拿捏到位了

“汉字”这个难关,今天终于被AI视频生成给拿下了! 话不多说,我们直接先来看效果:这个“福”字,就这样被AI水灵灵地一笔一划滴了出来。 再如下面这个例子,我们的Prompt是:有汉字“量子位”,古风。

如何证明一个数是无理数?他们找到了欧拉和黎曼错过的证明,华人数学家唐云清参与

我们都知道,实数分为有理数和无理数,它们的定义也都很明确。 但令人惊讶的是,其实很难证明一个数究竟能否写成分数形式。 而现在,这个古老的问题有了一种广泛适用的新方法。

OpenAI智能体曝本月诞生!比谷歌Anthropic慢,竟是担心prompt攻击

2025年,智能体将是AI领域最激烈的战场。 然而,一直在AI领域「独占鳌头」的OpenAI,却迟迟没有出手。 不过,外媒最近曝出了一条好消息——OpenAI可能在本月就会发布自家的「计算机操作智能体」!

剑指专业领域零部件级3D生成!Meta联手牛津推出全新多视图扩散模型

当前AI生成的3D模型,已经拥有相当高的质量。 但这些生成结果通常只是单个物体的某种表示(比如隐式神经场、高斯混合或网格),而不包含结构信息。 对于专业应用和创意工作流来说,除了高质量的形状和纹理,更需要可以独立操作的「零部件级3D模型」。

纯视觉方案,精准操控电脑和手机!港大Aria-UI登顶,超越Claude 3.5

在当今数字时代,智能助手已成为处理跨平台任务的不可或缺工具。 然而,如何将用户的自然语言指令精准映射(grounding)到界面元素一直是该领域的核心挑战。 传统解决方案主要依赖调用无障碍API、解析HTML源码或提取后台数据,这些方法普遍存在效率低下、信息不完整、兼容性差等显著痛点,严重制约了自动化技术的广泛应用。

AAAI 2025 | 大模型推理加速新范式:加速比高达3.51倍、成本降至1/3

近日,中国电信翼支付针对大模型推理加速的最新研究成果《Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree》已被 AAAI 2025 接收。 论文中提出的 Falcon 方法是一种增强半自回归投机解码框架,旨在增强 draft model 的并行性和输出质量,以有效提升大模型的推理速度。 Falcon 可以实现约 2.91-3.51 倍的加速比,在多种数据集上获得了很好的结果,并已应用到翼支付多个实际业务中。

o1也会「想太多」?腾讯AI Lab与上海交大揭秘o1模型过度思考问题

本文的共同通讯作者为涂兆鹏和王瑞,涂兆鹏为腾讯专家研究员,研究方向为深度学习和大模型,在国际顶级期刊和会议上发表学术论文一百余篇,引用超过9000次。 担任SCI期刊NeuroComputing副主编,多次担任ACL、EMNLP、ICLR等国际顶级会议领域主席。 王瑞为上海交通大学副教授,研究方向为计算语言学。

奥特曼家里也内讧了!亲妹告他长期虐待,刻意隐瞒遗产;家里其他人联名否认

我去,OpenAI CEO奥特曼的亲妹妹,一纸状书,把她亲哥给告了! 想不到让奥特曼再次陷入舆论危机的矛头,这次居然来自家庭内部,来自小他9岁的妹妹安妮·奥特曼(Annie Altman)。 事态紧急,奥特曼立刻联名母亲和两位弟弟,共同发布回应:不,指控不实。

1/10训练数据超越GPT-4o!清华等提出隐式过程奖励模型PRIME,在线刷SOTA

告诉我,我会忘记,教我,我会记住,让我参与,我就能学会。                  ——本杰明·富兰克林  打破数据墙,我们还能做些什么? 近日,来自清华UIUC等机构的研究者提出了PRIME(Process Reinforcement through IMplicit REwards):通过隐式奖励来进行过程强化。

RTX5090震撼发布,国行16499元起,黄仁勋「美国队长」pose亮翻全场

老黄穿上了新皮衣,拿来了新 GPU。 今天上午,全世界的目光都集中在了拉斯维加斯。 北京时间 1 月 7 日上午 10 点半,英伟达 CEO 黄仁勋在拉斯维加斯 CES 2025 展会上发表了主题演讲(keynote),涉及到的话题包括 GPU、AI、游戏、机器人等等。

手机「自动驾驶」大揭秘!vivo万字综述探讨大模型手机自动化

导言你是否想过,手机能像电影钢铁侠中的智能管家贾维斯那般,一句话就能顺畅自如地完成各种复杂任务。 最近国内外的手机厂商和 AI 公司纷纷发布了手机 AI 智能体相关产品,让曾经的幻想逐渐有了可行性。 vivo 作为行业领跑者,在十月的开发者大会上推出了其手机智能体产品 “PhoneGPT",能帮用户实现一句话点咖啡、订外卖、甚至能够一句话找到最近的私房菜馆并通过 AI 实现电话预定包厢,被网友们称作 “i 人救星”。

陈丹琦团队降本大法又来了:数据砍掉三分之一,性能却完全不减

陈丹琦团队又带着他们的降本大法来了——数据砍掉三分之一,大模型性能却完全不减。 他们引入了元数据,加速了大模型预训练的同时,也不增加单独的计算开销。 在不同模型规模(600M - 8B)和训练数据来源的情况下,均能实现性能方面的提升。

复旦&字节提出layout-to-image新范式,支持基于布局的MM-DiT架构下可控图像生成!

本篇分享论文CreatiLayout: Siamese Multimodal Diffusion Transformer for Creative Layout-to-Image Generation,是由复旦大学&字节跳动提出的layout-to-image新范式,支持基于布局的MM-DiT架构下的可控图像生成! 效果示例相关链接论文地址: : : : : (Layout-to-Image, L2I) 是一种基于布局信息进行可控图像生成的技术,其中布局信息包括实体在图像中的空间位置和描述。 例如,用户指定了这些实体的描述与空间位置:钢铁侠手里拿着画板,站在岩石上,画板上用手绘字体写着“CreatiLayout”,背景是海边与日落。