BLIP

华人一作统一「视觉-语言」理解与生成:一键生成图像标注,完成视觉问答,Demo可玩

这个 BLIP 模型可以「看图说话」,提取图像的主要内容,不仅如此,它还能回答你提出的关于图像的问题。
  • 1