视觉提醒新突破,IDEA研究院宣布T-Rex模型,可在图上直接选取“Prompt”

视觉提醒的新突破。

继火爆出圈的Grounded SAM之后,IDEA研究院团队携重磅新作归来:全新视觉提醒(Visual Prompt)模型T-Rex,以图识图,开箱即用,开启开集检测新天地。视觉提醒新突破,IDEA研究院宣布T-Rex模型,可在图上直接选取“Prompt”

拉框、检测、完成!在刚刚结束的2023IDEA大会上,IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋展示了基于视觉提醒的标的检测新体验,并宣布了全新视觉提醒模型T-Rex的模型实验室(playground), Interactive Visual Prompt(iVP),掀起现场一波试玩小高潮。

视觉提醒新突破,IDEA研究院宣布T-Rex模型,可在图上直接选取“Prompt”

在iVP上,用户可以亲自解锁“一图胜千言”的prompting体验:在图片上标记感兴趣的对象,向模型供给视觉示例,模型随即检测出标的图片中与之相似的所有实例。整套流程交互便利,只需几步操作就可轻松完成。

视觉提醒新突破,IDEA研究院宣布T-Rex模型,可在图上直接选取“Prompt”

IDEA研究院4月份宣布的Grounded SAM (Grounding DINO + SAM) 曾在Github上火爆出圈,至今已狂揽11K星。有别于只支持笔墨提醒的Grounded SAM,此次宣布的T-Rex模型供给着重打造强交互的视觉提醒功能。

T-Rex具备极强的开箱即用特性,无需重新训练或微调,即可检测模型在训练阶段从未见过的物体。该模型不仅可应用于包括计数在内的所有检测类任务,还为智能交互标注场景供给新的解决方案。

视觉提醒新突破,IDEA研究院宣布T-Rex模型,可在图上直接选取“Prompt”

团队透露,研发视觉提醒技巧是源自对真实场景中痛点的观察。有合作方希望利用视觉模型对卡车上的货物数量进行统计,然而,仅通过笔墨提醒,模型无法单独识别出每一个货物。其原因是工业场景中的物体在日常生活中较为罕见,难以用语言描述。在此情况下,视觉提醒显然是更高效的方法。与此同时,直觉的视觉反应与强交互性,也有助于提升检测的效率与精准度。

基于对实际使用需求的洞察,团队将T-Rex设计成可接受多个视觉提醒的模型,且具备跨图提醒能力。除了最基本的单轮提醒形式,目前模型还支持以下三种进阶形式.

视觉提醒新突破,IDEA研究院宣布T-Rex模型,可在图上直接选取“Prompt”

多轮正例形式:合用于视觉提醒不够精准造成漏检的场景正例+负例形式:合用于视觉提醒带有二义性造成误检的场景跨图形式:合用于通过单张参考图提醒检测他图的场景

在同期宣布的技巧报告中,团队总结了T-Rex模型的四大特性:

视觉提醒新突破,IDEA研究院宣布T-Rex模型,可在图上直接选取“Prompt”

开放集:不受预定义类别限制,具有检测一切物体的能力视觉提醒:利用视觉示例指定检测标的,克服罕见、复杂物体难以用笔墨充分表达的问题,提高提醒效率直觉的视觉反应:供给边界框等直觉视觉反应,帮助用户高效评估检测结果交互性:用户便利参与检测过程,对模型结果进行纠错

研究团队指出,在标的检测场景中,视觉提醒的加入能够补足文本提醒的部分缺陷。未来,两者的结合将进一步释放CV技巧在更多垂直领域的落地潜能。

有关T-Rex模型的技巧细节,请参考同期宣布的技巧报告。

视觉提醒新突破,IDEA研究院宣布T-Rex模型,可在图上直接选取“Prompt”

iVP模型实验室:https://deepdataspace.com/playground/ivp

Github链接:trex-counting.github.io

本项工作来自IDEA研究院计算机视觉与机器人研究中心。该团队此前开源的标的检测模型DINO是首个在COCO标的检测上取得榜单第一的DETR类模型;在Github上大火的零样本检测器Grounding DINO与能够检测、分割一切的Grounded SAM,同样为该团队作品。

给TA打赏
共{{data.count}}人
人已打赏
AI

腾讯Angel呆板进修框架晋级,反对单任务万卡级别超大规模训练,超300个腾讯产品及场景接入内测

2023-11-23 20:05:00

AI

OpenAI内斗时,Karpathy在录视频:《大型语言模型初学》上线

2023-11-24 15:02:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索