AI在线 AI在线

资讯列表

超图计算+目标检测,性能新SOTA!清华发布Hyper-YOLO:用超图捕捉高阶视觉关联

YOLO(You Only Look Once)系列是目标检测领域中的主流方法,以其高效性和实时性而著称。 然而,现有的YOLO模型在处理跨层特征融合和复杂的高阶特征关系时存在局限,无法充分捕捉跨位置和跨尺度的复杂特征关联。 为了解决这一难点,清华大学提出了Hyper-YOLO:一种基于超图计算的目标检测方法。
12/12/2024 11:58:29 AM
新智元

AI科技,正在重新定义国防事务

AI科技正在改变国防战略,增强包括决策、自主系统、后勤与网络安全方面的能力。 随着全球各国面临日益复杂的地缘政治与不断演变的威胁形势,将AI融入国防事务已然成为一种战略必需。 从决策支持系统到自主武器,从后勤优化再到网络安全,AI科技正在增强军事能力中的各个层面。
12/12/2024 11:32:51 AM

OpenAI深夜被狙,谷歌Gemini 2.0掀翻牌桌!最强智能体组团击毙o1

OpenAI Day 5,风头被谷歌再一次抢了。 就在刚刚,谷歌CEO劈柴、DeepMind CEO哈萨比斯、DeepMind CTO Kavukcuoglu三位大佬联手官宣:新一代原生多模态模型Gemini 2.0 Flash正式发布! 至此,Gemini正式进入2.0时代!
12/12/2024 11:29:51 AM
新智元

OpenAI推出适用于iPhone的ChatGPT,与Apple实现具有里程碑意义的AI整合

在iOS 18.2向用户推送的周三,OpenAI展示了其新款iPhone集成功能,将ChatGPT直接融入Siri、写作工具和相机功能中。 在OpenAI“Shipmas 12天”产品发布的第五天展示的这项功能更新,标志着苹果罕见地向外部软件开放了其核心iPhone功能。 ChatGPT现在可以通过Siri处理命令,并在整个操作系统中处理任务。
12/12/2024 11:28:29 AM
Michael Nuñez

谷歌:“AI 概览”功能计划明年面向更多国家、更多语言开放

谷歌首席执行官桑达尔·皮查伊表示,会将Gemini 2.0的高级推理能力融入AI Overviews(AI概览),未来将能够处理“更复杂的主题”以及“多模态”和“多步骤”的搜索,包括高级数学问题和编程问题。
12/12/2024 10:57:08 AM
清源

贾樟柯李少红都用AI拍电影了,还传递经验:哪个功能最实用?

AI生成视频的风,还是吹到了影视名导的圈子里。 用全球最火的AI视频工具:快手可灵。 联手国内最知名的9名影视工作者:李少红(《大明宫词》)、贾樟柯(《三峡好人》)、叶锦添(《英雄本色》)、薛晓路(《不要和陌生人说话》)、俞白眉(《战狼2》)、董润年(《年会不能停!
12/12/2024 10:30:00 AM
量子位

超越所有SOTA!最新UniScene:视频点云Occ三大生成任务全部暴力提升~

本文是对 UniScene: Unified Occupancy-centric Driving Scene Generation的解读,UniScene 在Video、LiDAR 和Occupancy生成方面超过了所有之前的SOTA方法。 此外,UniScene生成的数据可显着增强下游任务,包括Occupancy预测、3D检测和BEV分割。 论文链接::、可控、带注释的训练数据对于自动驾驶至关重要。
12/12/2024 10:20:00 AM
自动驾驶之心

OpenAI 就 ChatGPT 宕机致歉:部分服务已恢复,Sora 仍为瘫痪状态

北京时间今日9时50分,该公司进一步更新事故报告称,正在继续进行修复工作。API和ChatGPT服务部分恢复,Sora仍处于瘫痪状态。
12/12/2024 10:11:00 AM
清源

Sora/可灵/海螺/混元等大PK!多场景对比,现在谁是最强视频生成模型?

OpenAI的正式版Sora终于上线了! 不过,在Sora缺席的10个月里,Runway、可灵、海螺、混元等等模型都横空出世,有的甚至都卷出了自己的特色风格和功能,比如Runway的多帧修改、可灵生成的表情更加自然、海螺的二次元风格等等。 接下来我们就来一起看看,Sora和这些模型的对比效果究竟如何吧!
12/12/2024 10:00:00 AM
量子位

谷歌推出“深度研究”AI 工具,可一键生成调研报告

谷歌今日推出了一款名为“深度研究”(Deep Research)的全新人工智能工具,该工具能够利用其 Gemini 大型语言模型进行网络信息检索,并为用户生成详细的调研报告。
12/12/2024 9:43:11 AM
远洋

OpenAI ChatGPT 全球范围内宕机,苹果 iOS 18.2 Siri 受牵连

OpenAI 已证实其人工智能聊天机器人 ChatGPT 目前正经历全球范围的宕机,导致用户无法使用。这一问题也影响了 iOS 18.2 与 Siri 的集成功能。
12/12/2024 9:27:22 AM
远洋

小型语言模型与大型语言模型:2025年对企业的影响

小型语言模型 (SLM) 提供了比大型语言模型 (LLM) 更具成本效益的特定领域解决方案。 译自Small Language Models vs. LLMs: What They'll Mean for Businesses in 2025,作者 Souvik Das。
12/12/2024 9:11:58 AM
岱军

抢跑OpenAI!谷歌Gemini 2.0震撼登场:全面转向Agent,多模态输入输出,免费随便玩

Gemini 2.0 Flash是2.0家族第一个模型,主推原生多模态输入输出 Agent,速度比 1.5 Pro 快两倍,关键性能指标甚至超过了 1.5 Pro! 支持原生工具调用、以及实时音视频流输入等新功能谷歌CEO劈柴哥,谷歌DeepMind CEO 诺奖获得者Demis Hassabis,谷歌DeepMind CTO罕见齐下场共同撰文为Gemini 2.0 Flash的推出当啦啦队重点功能:更强性能: 速度更快,多模态、文本、代码、视频、空间理解和推理能力全面提升! 新能力比如空间理解,视频理解等可以通过Googele AI Studio 的Starter Apps来体验例如1,Gemini 2.0对空间的理解,利用Spatial Understanding,上传一张图片,Gemini快速进行图像中的物体检测(2D和3D形式都可以)和标注,并生成结构化的数据(JSON格式)。
12/12/2024 9:09:24 AM
AI寒武纪

豆包 Marscode 优秀实践

毫无疑问,Marscode 能解决非常多基础问题,特别对于编程新手而言,它能相对准确地生成各种代码,完成编程任务,但其底层并不神秘,本质上就是在传统 IDE 基础上,搭配足够好的交互与足够好的 LLM,从而超越传统 IDE。 交互方面,它在 VS Code 基础上,补充提供了:提供了几乎毫无门槛的代码自动补全能力,并且支持多行编辑,这在一些场景,如修改变量名时,非常好用。 行内、独立问答面板,可用于快速解答问题。
12/12/2024 9:02:35 AM
范文杰

谷歌测试 Gemini AI 游戏助手:实时分析屏幕以提供游戏建议

谷歌今日发布了 Gemini 2.0,并透露正在探索如何利用该模型构建 AI 游戏助手来理解视频游戏规则,从而为用户提供帮助。谷歌 DeepMind 首席执行官 Demis Hassabis 和首席技术官 Koray Kavukcuoglu 在一篇博文中表示,这些 AI 助手能够“仅基于屏幕上的画面对游戏进行推理,并通过实时对话为玩家提供后续操作建议。”他们还提到,这些助手还可以“利用谷歌搜索,将玩家与网络上丰富的游戏知识连接起来。”
12/12/2024 9:02:04 AM
远洋

全球首个“AI 程序员”Devin 全面开放:可独立开发 / 修复 bug,月费 500 美元

Devin 能够熟练运用多种编程语言,独立完成网站和应用程序的构建与部署,甚至能够自主发现并修复代码缺陷。官方表示,其已通过多家 AI 公司的实践性工程师面试,并成功在 Upwork 等自由职业平台上完成实际项目。
12/12/2024 8:31:35 AM
清源

谷歌推出 AI 代码助手 Jules,可帮助开发者修复代码错误

谷歌今日宣布推出一款名为“Jules”的实验性 AI 代码助手,旨在帮助开发者自动修复代码错误。该工具今日与 Gemini 2.0 一同发布,其使用更新后的谷歌人工智能模型来创建多步骤计划,以解决问题、修改多个文件,并为 GitHub 工作流中的 Python 和 Javascript 编码任务准备拉取请求。
12/12/2024 8:30:42 AM
远洋

3DDFA-V3:引领三维人脸重建新纪元

一、引言从二维图像中重建三维人脸是计算机视觉和图形学领域的一项重要任务,它在虚拟现实(VR)、增强现实(AR)、计算机生成图像(CGI)等领域有着广泛的应用。 近年来,随着深度学习技术的不断发展,三维人脸重建技术取得了显著的进步。 本文将对最新提出的3DDFA-V3算法进行详细介绍,展示其如何凭借创新的几何引导策略和面部区域分割技术,实现高精度和高鲁棒性的三维人脸重建。
12/12/2024 8:28:11 AM
AGI