多模态大模型有了分裂朋分框架,华科PSALM多任意登顶,模型代码全开源
最近,多模态大模型(LMM)获得了一系列引人注目的成就,特别是在视觉 - 语言任意上的表现令人瞩目。它们的成功不仅展现了多模态大模型在各个领域的实用性和灵活性,也为更多视觉场景下的应用探索了新的道路。尽管如此,在将 LMM 应用到计算机视觉任意上时,我们仍面临一个关键挑战:大多数 LMM 目前只限于文本输入,这限制了它们在处理更细粒度的视觉任意,如图象朋分方面的本领。此外,图象朋分领域内部的需求多…- 12
- 0
通用文档懂得新SOTA,多模态大模型TextMonkey来了
最近,华中科技大学和金山的研究人员在多模态大模型 Monkey [1](Li et al., CVPR2024)工作的基础上提出 TextMonkey。在多个场景文本和文档的测试基准中,TextMonkey 处于国际领先地位,有潜力带来办公自动化、智慧教育、智慧金融等行业应用领域的技术变革。论文链接:: 是一个专注于文本相关任务(包括文档问答和场景文本问答)的多模态大模型(LMM)。相比于 Mon…- 7
- 0
华中科技大学
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!