资讯列表

华为昇腾 AI 处理器等 151 个上榜,人工智能赋能新型工业化典型应用案例名单公布

据工信部今日公告,根据《关于组织开展人工智能赋能新型工业化典型应用案例征集工作的通知》(工信厅科函〔2024〕301 号),经单位推荐、专家评审和网上公示等环节,确定了 151 项人工智能赋能新型工业化典型应用案例。

4o-mini 只有 8B、o1 也才 300B,微软论文意外曝光 GPT 核心机密

英伟达 2024 年初发布 B200 时,就摊牌了 GPT-4 是 1.8T MoE 也就是 1800B,这里微软的数字更精确,为 1.76T。

多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格

GPT-4o仅得分64.5,其余模型均未及格! 全面、细粒度评估模型多模态长文档理解能力的评测集来了~名为LongDocURL,集成了长文档理解、数值推理和跨元素定位三个主任务,并包含20个细分子任务。 LongDocURL主打多模态、长上下文,专注于篇幅在50~150页的英文文档,平均页数和文档标记数分别为85.6和43622.6。

4o-mini只有8B,o1也才300B!微软论文意外曝光GPT核心机密

微软又把OpenAI的机密泄露了? ? 在论文中明晃晃写着:o1-preview约300B参数,GPT-4o约200B,GPT-4o-mini约8B……英伟达2024年初发布B200时,就摊牌了GPT-4是1.8T MoE也就是1800B,这里微软的数字更精确,为1.76T。

Drone-YOLO:一种有效的无人机图像目标检测

01 前景概要今天分享中,我们提出了Drone-YOLO,这是一系列基于YOLOv8模型的多尺度无人机图像目标检测算法,旨在克服与无人机图像目标检测相关的特定挑战。 为了解决大场景大小和小检测对象的问题,我们对YOLOv8模型的颈部组件进行了改进。 具体而言,我们采用了三层PAFPN结构,并结合了一个使用大规模特征图为小型目标量身定制的检测头,显著增强了算法检测小型目标的能力。

艾维·维格森、杰弗里·辛顿、汤晓鸥……盘点2024那些站在AI背后的科学家

2024年,人工智能的发展势头异常迅猛。 这一年,GPT-4o、Sora、o1以及最近的DeepSeek V3等广为大众所知的重大突破相继发布,每一次都引发了广泛的讨论热潮,也让Sam Altman、黄仁勋、马斯克等业界领袖频频登上媒体热搜榜。 但在科研领域,还有一群鲜为大众所知、但在业内享有极高赞誉,却一直默默耕耘为AI进步贡献力量的科学家,同样值得铭记。

优于FCOS:在One-Stage和Anchor-Free目标检测中以最小的成本实现最小的错位

一、前言Non keypoint-based的目标检测模型由分类和回归分支组成,由于不同的任务驱动因素,这两个分支对来自相同尺度级别和相同空间位置的特征具有不同的敏感性。 point-based的预测方法,在基于高分类置信点具有高回归质量的假设上,导致错位问题。 我们的分析表明,该问题进一步具体由尺度错位和空间错位组成。

OpenAI o1-preview操纵游戏文件,战胜国际象棋引擎Stockfish

12月31日消息,据外媒报道,OpenAI的“推理”模型o1-preview能够在规则之外的游戏中获胜。 o1-preview并没有与专门的国际象棋引擎Stockfish进行一场正式的国际象棋比赛,而是想出了如何破解其测试环境以强制获胜的方法。 根据人工智能安全研究公司Palisade Research的说法,该系统在所有五次测试中都做到了这一点——没有人告诉它这样做。

美国四大科技巨头疯狂建设AI数据中心,2024年总投资约2180亿美元

由于算力和先进技术的需求增加,国外科技巨头在2024年继续疯狂建设数据中心。 2024年1-8月,微软、Meta、谷歌、亚马逊总计向AI数据中心投入1250亿美元,包括AI资本支出、总数据中心运营成本,现金运营费用、软件、折旧和电费也纳入统计。 在固定AI资产投资方面,微软花钱最多,比如采购GPU及其它芯片,维护AI数据中心。

GitHub 7.5k star量,各种视觉Transformer的PyTorch实现合集整理好了

近一两年,Transformer 跨界 CV 任务不再是什么新鲜事了。 自 2020 年 10 月谷歌提出 Vision Transformer (ViT) 以来,各式各样视觉 Transformer 开始在图像合成、点云处理、视觉 - 语言建模等领域大显身手。 之后,在 PyTorch 中实现 Vision Transformer 成为了研究热点。

日本罗森便利店将雇佣“海外店员”,以虚拟形象服务深夜顾客

据日经1月1日报道,日本便利店连锁品牌罗森将启用“远程海外员工”模式,通过数字化虚拟形象为深夜顾客提供服务,以应对劳动力短缺问题。

OpenAI o1「作弊」修改系统,强行击败专业象棋AI!全程无需提示

OpenAI的推理模型o1-preview最近展示了它不按常理出牌的能力。 o1-preview在与专用国际象棋引擎Stockfish比赛时,为了强行取得胜利,居然采用了入侵测试环境的卑劣手段。 而这一切都不需要任何对抗性提示。

潞晨尤洋:视频生成的GPT-4时刻,3年后可以见证 | MEET 2025

奥特曼说,Sora代表了视频生成大模型的GPT-1时刻。 从开年到现在,国内外、初创独角兽到互联网大厂,都纷纷投入视频生成领域,带来一个个新鲜模型的同时,视频、影视行业也随之发生巨变。 不可否认,当下的视频生成模型还遇到诸多问题,比如对空间、对物理规律的理解,我们都期待着视频生成的GPT-3.5/4时刻到来。

世界模型再进化!DrivingWorld:通过视频GPT构建自动驾驶世界模型(港科技&地平线)

写在前面 & 笔者的个人理解最近自回归(AR)生成模型的成功,如自然语言处理中的GPT系列,促使人们努力在视觉任务中复制这一成功。 一些工作试图通过构建能够生成逼真的未来视频序列和预测自车状态的基于视频的世界模型,将这种方法扩展到自动驾驶。 然而,先前的工作往往产生不令人满意的结果,因为经典的GPT框架旨在处理1D上下文信息,如文本,并且缺乏对视频生成所必需的空间和时间动态进行建模的固有能力。

伦敦大学学院、华盛顿大学研究:AI 写作工具正不断进步,但仍无法媲美人类创造力

研究发现,人类在诗歌、小说和演讲领域的表现明显优于 AI,分别高出 80%、100% 和 150%。

多模态RAG技术:从语义抽取到VLM应用与规模化挑战

一、基于语义抽取的多模态 RAG多模态 RAG 的发展方向旨在构建一个高度集成的系统,能够无缝融合文本、图像和其它多媒体元素,为用户提供更丰富的信息交互体验。 实现多模态 RAG 系统的三种主要技术路径如下:传统对象识别与解析(雕花路线)传统的多模态文档处理首先会运用图像识别技术,如 OCR(Optical Character Recognition,光学字符识别),从图像中抽取出文字、表格和图片等元素。 之后,这些独立的对象会被进一步解析,转换成文本格式,以便于后续的信息检索与分析。

Switch 2 发布之际,任天堂“机器学习超分”专利公开

专利示例显示,假设某款游戏原生支持 4K 纹理,可能需要60GB的存储空间,而1080p版本仅需20GB,从而可以装入目前最大容量为32GB的 Switch 游戏卡带。在设备端,游戏将实时进行4倍分辨率升级。

本科学历但创造出GPT,奥特曼盛赞为「爱因斯坦级」天才,OpenAI总裁:他想要的,我们都给

奥特曼称他是爱因斯坦级别的天才;OpenAI总裁更是直言:只要他想要的,我们都给。 Alec Radford大神离职OpenAI,现在牵出更多细节:改变世界的GPT,竟然是在Jupyter notebook上诞生的。 而他只负责提供背后的灵感,剩下的由工程师来解决。