资讯列表

原来,这些顶级大模型都是蒸馏的

「除了 Claude、豆包和 Gemini 之外,知名的闭源和开源 LLM 通常表现出很高的蒸馏度。 」这是中国科学院深圳先进技术研究院、北大、零一万物等机构的研究者在一篇新论文中得出的结论。 前段时间,一位海外技术分析师在一篇博客中提出了一个猜想:一些顶级的 AI 科技公司可能已经构建出了非常智能的模型,比如 OpenAI 可能构建出了 GPT-5,Claude 构建出了 Opus 3.5。

医疗具身智能发展到哪了?看这一篇综述就够了!

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

春晚小品“远程施法”,昨晚至今唤醒全球小米小爱同学超亿次

小米智能助手“小爱同学”官方账号今日分享了来自小米数据中心的信息,称昨晚到今天中午,春晚唤醒全球小爱同学超亿次(统计时间:2025 年 1 月 28 日 23:00 - 2025 年 1 月 29 日 12:00)。

意大利机构要求 DeepSeek 提供数据保护相关信息

据 Techcrunch 报道,欧洲消费者组织(Euroconsumers)与意大利数据保护机构(Italian Data Protection Authority,DPA)联合对 DeepSeek 提出投诉。这是自 DeepSeek 迅速走红以来,首次有数据保护机构对其采取重大行动。投诉的核心问题是 DeepSeek 在处理个人数据时是否符合欧洲的《通用数据保护条例》(GDPR)。

宇树科技回应春晚个别机器人“失误”:加了一些搞笑的“小彩蛋”

有细心的观众发现,在表演的时候,有个别机器人出现“失误”,比如收手绢时慢了半拍。对此,据九派新闻报道,宇树科技市场部的工作人员陈女士表示,确实在表演里加了一些搞笑的“小彩蛋”,人形机器人的“怪异”“犯错”或“故障”能给大家带来欢乐。

通义千问 Qwen 2.5-Max 超大规模 MoE 模型发布:号称优于 Deepseek V3 等竞品,暂未开源

据介绍,通义千问 Qwen 2.5-Max 使用超过 20 万亿 token 的预训练数据及精心设计的后训练方案进行训练。

DeepSeek 梁文锋回应冯骥赞誉(更新:回答真实性存疑)

昨日游戏科学创始人、黑神话悟空制作人冯骥力推 DeepSeek 大模型,其认为 DeepSeek 可能是国运级别的科技成果。冯骥在发文中详细列举了 DeepSeek 的六大卓越特性,每一项都堪称业界突破。

OpenAI 推出 ChatGPT Gov:专为美国政府机构打造的高安全 AI 平台

OpenAI 今日宣布推出 ChatGPT Gov,这是自企业版 ChatGPT 推出以来该公司最重要的产品发布。ChatGPT Gov 专门为美国政府机构设计,旨在提供比 ChatGPT 企业版更高层次的安全性。

再加一把火、造福全人类,Hugging Face 号召打造完全开源版 DeepSeek R1 大模型

Hugging Face 称这项工作非常重要,因为 DeepSeek R1 非常高效,可以作为创新的基础模型。它也可以被研究人员、科学家和企业用作促进创新和突破的负担得起的模型。

仿生机器人新突破:液压流体电池驱动的“水母”与“蠕虫”问世

康奈尔大学的研究人员于本周一展示了一种新型的仿生机器人技术,这些机器人采用了一种基于液压流体的氧化还原液流电池(RFB)作为动力源。这种电池不仅能够为机器人提供动力,还模仿了生物体的功能,通过释放电解液并利用化学反应产生能量。

法国 AI 聊天机器人上线两天就下架:简单数学题答错,还让用户吃“牛蛋”

由法国政府支持的一款开源法语人工智能聊天机器人 Lucie 因在回答简单数学问题时给出荒谬答案,甚至建议用户食用“牛蛋”,上线两天被迅速下架。

英特尔前 CEO 基辛格力挺 DeepSeek:将推动 AI 普及

基辛格认为,DeepSeek 的出现应该让科技行业牢记三个最重要的教训:降低成本意味着更广泛的采用;在限制条件下,创造力会蓬勃发展;“开放即胜利”。他指出,DeepSeek 将有助于打破基础 AI 模型工作日益封闭的局面。

阿里云通义开源Qwen2.5-VL,视觉理解能力全面超越GPT-4o

1月28日凌晨,阿里云通义千问开源全新的视觉模型Qwen2.5-VL,推出3B、7B和72B三个尺寸版本。 其中,旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,全面超越GPT-4o与Claude3.5。 新的Qwen2.5-VL能够更准确地解析图像内容,突破性地支持超1小时的视频理解,无需微调就可变身为一个能操控手机和电脑的AI视觉智能体(Visual Agents),实现给指定朋友送祝福、电脑修图、手机订票等多步骤复杂操作。

CityDreamer4D: 下一个世界模型,何必是视频生成模型?

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

模型参数作知识通用载体,MergeNet离真正的异构知识迁移更进一步

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

OpenAI 阿尔特曼:DeepSeek-R1 令人印象深刻,将推出更好的模型

OpenAI CEO 阿尔特曼今日在 X 上发文称,DeepSeek-R1 令人印象深刻,尤其是考虑到其价格和功能性后。另外,他还表示将新的对手令人振奋,推出更好的模型。

英伟达市值蒸发近6000亿美元,而DeepSeek刚刚又开源新模型

机器之心报道,编辑:亚鹂、Panda。

阿里通义千问全新视觉理解模型 Qwen2.5-VL 开源:三尺寸版本、支持理解长视频和捕捉事件等能力

阿里通义千问官方今日发文宣布,开源全新的视觉理解模型 Qwen2.5-VL——Qwen 模型家族的旗舰视觉语言模型,推出了 3B、7B 和 72B 三个尺寸版本。