小而强!微软发布小型模型LLaVA-Rad,实现精准放射学报告生成

近日,微软研究院联合华盛顿大学、斯坦福大学、南加州大学、加利福尼亚大学戴维斯分校以及加利福尼亚大学旧金山分校的研究人员共同推出了 LLaVA-Rad,这是一种新型的小型多模态模型(SMM),旨在提升临床放射学报告的生成效率。 该模型的推出不仅标志着医学图像处理技术的一大进步,也为放射学的临床应用带来了更多的可能性。 在生物医学领域,基于大规模基础模型的研究已经展现出良好的应用前景,尤其是在多模态生成 AI 的发展下,可以同时处理文本与图像,从而支持视觉问答和放射学报告生成等任务。

近日,微软研究院联合华盛顿大学、斯坦福大学、南加州大学、加利福尼亚大学戴维斯分校以及加利福尼亚大学旧金山分校的研究人员共同推出了 LLaVA-Rad,这是一种新型的小型多模态模型(SMM),旨在提升临床放射学报告的生成效率。该模型的推出不仅标志着医学图像处理技术的一大进步,也为放射学的临床应用带来了更多的可能性。

db73a539-416b-4dd8-acfe-b9a708b61f59.png

在生物医学领域,基于大规模基础模型的研究已经展现出良好的应用前景,尤其是在多模态生成 AI 的发展下,可以同时处理文本与图像,从而支持视觉问答和放射学报告生成等任务。然而,目前仍然存在诸多挑战,例如大模型的资源需求过高,难以在临床环境中广泛部署。小型多模态模型虽然在效率上有所提高,但与大型模型相比,性能仍存在显著差距。此外,缺乏开放源代码模型以及可靠的事实准确性评估方法也使得临床应用受到限制。

LLaVA-Rad 模型的训练基于来自七个不同来源的697,435对放射学图像与报告的数据集,专注于胸部 X 光(CXR)成像,这是最常见的医学影像检查类型。该模型的设计采用了一种模块化的训练方式,包括单模态预训练、对齐和微调三个阶段,利用高效的适配器机制将非文本模态嵌入文本嵌入空间。尽管 LLaVA-Rad 的规模小于一些大型模型,如 Med-PaLM M,但在性能上却表现优异,尤其是在 ROUGE-L 和 F1-RadGraph 等关键指标上,相较于其他同类模型提升了12.1% 和10.1%。

值得一提的是,LLaVA-Rad 在多个数据集上均保持了优越的性能,即便是在未见过的数据测试中也表现稳定。这一切都归功于其模块化设计和高效的数据利用架构。此外,研究团队还推出了 CheXprompt,一个用于自动评分事实正确性的指标,进一步解决了临床应用中的评估难题。

LLaVA-Rad 的发布,无疑是推动基础模型在临床环境中应用的一大步,为放射学报告生成提供了一种轻量级且高效的解决方案,标志着技术与临床需求之间的进一步融合。

项目地址:https://github.com/microsoft/LLaVA-Med

划重点:  

🌟 LLaVA-Rad 是微软研究团队推出的小型多模态模型,专注于放射学报告的生成。  

💻 该模型经过697,435对胸部 X 光图像与报告的训练,实现了高效且优越的性能。  

🔍 CheXprompt 是配套推出的自动评分指标,帮助解决临床应用中的评估难题。

相关资讯

突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

LLaVA-Mini来了!每张图像所需视觉token压缩至1个,兼顾效率内存

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

通用视觉推理显现,UC伯克利炼出单一纯CV大模型,三位资深学者参与

仅靠视觉(像素)模型能走多远?UC 伯克利、约翰霍普金斯大学的新论文探讨了这一问题,并展示了大型视觉模型(LVM)在多种 CV 任务上的应用潜力。最近一段时间以来,GPT 和 LLaMA 等大型语言模型 (LLM) 已经风靡全球。 另一个关注度同样很高的问题是,如果想要构建大型视觉模型 (LVM) ,我们需要的是什么? LLaVA 等视觉语言模型所提供的思路很有趣,也值得探索,但根据动物界的规律,我们已经知道视觉能力和语言能力二者并不相关。比如许多实验都表明,非人类灵长类动物的视觉世界与人类的视觉世界非常相似,尽管