TextMonkey - AI在线

通用文档理解新SOTA，多模态大模型TextMonkey来了

最近，华中科技大学和金山的研究人员在多模态大模型 Monkey [1]（Li et al., CVPR2024）工作的基础上提出 TextMonkey。在多个场景文本和文档的测试基准中，TextMonkey 处于国际领先地位，有潜力带来办公自动化、智慧教育、智慧金融等行业应用领域的技术变革。论文链接：：是一个专注于文本相关任务（包括文档问答和场景文本问答）的多模态大模型（LMM）。相比于 Monkey，TextMonkey 在多个方面进行改进：通过采用零初始化的 Shifted Window Attention，