资讯列表

微软承认必应 AI 图像生成器 PR16“开倒车”,现回滚至 PR13 版本

科技媒体 Windows Latest 昨日(1 月 8 日)发布博文,报道称微软必应图像生成器(Bing Image Creator)所用 DALL-E 3 模型升级至 PR16 版本后效果不佳,现已回滚至 PR13 版本。

具身智能新高度!智元机器人推出全球首个4D世界模型EnerVerse

如何让机器人在任务指引和实时观测的基础上规划未来动作,一直是具身智能领域的核心科学问题。 然而,这一目标的实现受两大关键挑战制约:模态对齐:需在语言、视觉和动作等多模态空间中建立精确的对齐机制。 数据稀缺:缺乏规模化、多模态且具备动作标签的数据集。

通义万相视频生成重磅升级,成功登顶VBench,运镜、质感直达专业级

2025 才刚开始,AI 视频生成就要迎来技术突破了? 今天上午,阿里旗下通义万相视频生成模型宣布了 2.1 版重磅升级。 新发布的模型有两个版本,分别是通义万相 2.1 极速版和专业版,前者注重高效性能,后者瞄准卓越表现力。

引领人机交互革命?微软研究团队发布80页的大模型GUI智能体综述

本论文的主要作者 Chaoyun Zhang、Shilin He、Liqun Li,Si Qin 等均来自 Data, Knowledge, and Intelligence (DKI) 团队,为微软 Windows GUI Agent UFO 的核心开发团队的成员。 图形用户界面(Graphical User Interface, GUI)作为数字时代最具代表性的创新之一,大幅简化了人机交互的复杂度。 从简单的图标、按钮、窗口到复杂的多应用工作流程,GUI 为用户提供了直观、友好的操作体验。

一秒内从单个图像生成3D对象,支持实时编辑,Stability AI推出3D生成新方法SPAR3D

2D 升维成 3D 的过程中,可见部分和不可见部分可以分开建模。 2025 年来了,3D 生成也迎来了新突破。 刚刚,Stability AI 在 CES 上宣布为 3D 生成推出一种两阶段新方法 ——SPAR3D(Stable Point Aware 3D),旨在为游戏开发者、产品设计师和环境构建者开拓 3D 原型设计新方式。

如何证明一个数是无理数?他们找到了欧拉和黎曼错过的证明,华人数学家唐云清参与

我们都知道,实数分为有理数和无理数,它们的定义也都很明确。 但令人惊讶的是,其实很难证明一个数究竟能否写成分数形式。 而现在,这个古老的问题有了一种广泛适用的新方法。

量子力学100岁了:一场颠覆物理学的“速战速决”

一个温知识:联合国宣布,今年是“量子科学与技术之年”。 因为整100年前的1925年,正是以德国物理学家海森堡发表一篇名为《运动学和力学关系的量子力学重新诠释》的论文为起点,量子力学的现代时代,齿轮开始转动。 △图源:维基百科再来一个冷知识:1925年,量子力学居然是在在短短几个月之内,掀起了彼时对物理学基本理解的惊人革命,影响直至今日。

表格处理神器登上Nature!开箱即用,平均2.8s解读任意表格

电子表格也迎来了自己的ChatGPT时刻。 就在这两天,一个名为TabPFN的表格处理模型登上Nature,随后在数据科学领域引发热烈讨论。 图片据论文介绍,TabPFN专为小型表格而生,在数据集样本量不超过10,000时性能达到新SOTA。

黄仁勋一句“量子计算还需20年才实用”,概念股应声腰斩

老黄只需一句话,让一众概念股应声暴跌! 他表示,量子计算还有20年才实用。 随后IonQ、Rigetti和其他量子计算股票暴跌了40%-50%——IonQ下跌约45%,Rigetti股价上午下跌逾48%,D-Wave Quantum下跌约47%,Quantum Computing下跌了49%,D-Wave Quantum则下跌了约47%。

讯飞商业生态平台2.0来了!构建大模型应用服务新体系

AI时代的聚光灯已经由“模型参数”转移到“应用价值”,引领千行百业发掘大模型刚需场景,构建新质生产力。 据智能超参数发布的《中国大模型中标项目监测报告(2024)》显示,2024年有披露的大模型中标项目达到1520个,相比去年增长了15.5倍。 1月8日,科大讯飞AI服务市场行业伙伴生态大会在北京中关村国际会议中心成功举办。

雷蛇推出“AI 游戏伴侣”Project AVA:支持实时指导 + 赛后复盘

该 AI 助手可在 MOBA、FPS 类型游戏中给出实时指导和赛后复盘,在 ARPG 游戏中即时提供专业的游戏攻略。

未来的监控大屏是给AI智能体看的,你知道吗?

有很多企业在做数据库的监控大屏,监控大屏这个东西在中国信息系统发展的二三十年里一直是在不断的演进的。 大屏做得越来越漂亮,上面的数据也越来越有价值,但是我觉得监控大屏的发展已经走到了一个瓶颈点上。 因为随着信息化的发展速度越来越快,信息系统的建设也越来越复杂,无论是信息系统的数量还是指标的复杂程度都已经超出了视觉分析的极限了。

京东方 CES 2025 发布行业首款 65 英寸 4K 超高清“AI 视听中心”

通过搭载设备端计算机视觉和 AI 聊天机器人,“AI 视听中心”能够支持远程“一起看”、视频通话实时翻译、旅行规划、智能家居管理、生成故事书内容等智能体验。

一文看懂推理并行的定义及其工作原理

译者 | 布加迪审校 | 重楼近年来,我们见证了两个反复出现的趋势:发布的GPU功能越来越强大,以及拥有数十亿、乃至数万亿个参数和加长型上下文窗口的大语言模型(LLM)层出不穷。 许多企业正在利用这些LLM,或进行微调,或使用RAG构建具有特定领域知识的应用程序,并将其部署在专用GPU服务器上。 现在说到在GPU上部署这些模型,需要注意的一点是模型大小,即相比GPU上的可用内存,将模型加载到GPU内存中所需的空间(用于存储参数和上下文token)实在太大了。

从零开始构建 DINO:自监督视觉 Transformer

DINO模型输出的狗冲刺无标签自蒸馏(DINO)《从几个“补丁”中重建完整图像 | 构建可扩展学习器的掩模自编码器》这边文章讲了如何构建可扩展学习器,这是我对视觉变换器系列的继续,其中我解释了最重要的架构及其从零开始的实现。 自监督学习自监督学习(SSL)是一种机器学习类型,模型通过无需手动标记的示例来学习理解数据。 相反,它从数据本身生成其监督信号。

从数据孤岛到智能系统:RAG和知识图谱的协同作用

译者 | 晶颜审校 | 重楼RAG和知识图谱集成可以释放出更大的潜力,实现更深入的理解、推理和准确性。 在当今信息驱动的时代,数据是企业、研究人员和个人的重要资源。 然而,这些数据通常分散在跨系统的孤岛中,它们是非结构化的,并且无法进行有效的分析。

Google发布新AI工具Whisk:使用图像提示代替文本,快速完成视觉构思

Google发布了新的AI工具Whisk,Whisk 是 Google Labs 的一项新实验,可使用图像进行快速而有趣的创作过程。 Whisk不会生成带有长篇详细文本提示的图像,而是使用图像进行提示。 只需拖入图像,即可开始创建。

供应链管理需要实用的人工智能和智能文件处理技术

人工智能(AI)在改善商业运营方面具有无可辩驳的潜力,但并不总是以人们想象的方式。 对一些人来说,供应链中的人工智能让人联想起机器人管理传送带或无人机加速交货时间的画面。 虽然这可能最终会成为现实,但人工智能在现代供应链管理策略中的应用要实际得多。