MM-Vid

微软用GPT-4V解读视频,看懂电影还能讲给盲人听,1小时不是问题

差不多已经掌握语言能力的大模型正在进军视觉领域,但具有里程碑意义的 GPT-4V 也仍有诸多不足之处,参阅《试过 GPT-4V 后,微软写了个 166 页的测评报告,业内人士:高级用户必读》。近日,微软 Azure AI 将 GPT-4V 与一些专用工具集成到一起,打造出了更强大的 MM-Vid,其不仅具备其它 LMM 的基本能力,还能分析长达一小时的长视频以及解说视频给视障人士听。世界各地的人们每天都会创造大量视频,包括用户直播的内容、短视频、电影、体育比赛、广告等等。视频是一种多功能媒介,可以通过文本、视觉和音
  • 1