亮相CCIG2024,合合信息文档剖析技能破解大模型语料“饥荒”难题

近日,2024中国图象图形大会在古都西安盛大开幕。本届大会由中国图象图形学学会主办,空军军医大学、西安交通大学、西北工业大学承办,通过二十多场论坛、百余项成果,集中展示了生成式人工智能、大模型、机械学习、类脑计算等多个图象图形规模的进展。大模型技能正随着科技革新实现广泛运用,满足多行业图象解决需求。大会期间,由CSIG文档图象阐明与辨别专委会与上海合合信息科技股份有限公司(简称“合合信息”)联合主办了《大模型技能及其前沿运用》论坛,来自华南理工大学、上海交通大学、清华大学、复旦大学、上海人工智能实验室、合合信息等高

近日,2024中国图象图形大会在古都西安盛大开幕。本届大会由中国图象图形学学会主办,空军军医大学、西安交通大学、西北工业大学承办,通过二十多场论坛、百余项成果,集中展示了生成式人工智能、大模型、机械学习、类脑计算等多个图象图形规模的进展。

大模型技能正随着科技革新实现广泛运用,满足多行业图象解决需求。大会期间,由CSIG文档图象阐明与辨别专委会与上海合合信息科技股份有限公司(简称“合合信息”)联合主办了《大模型技能及其前沿运用》论坛,来自华南理工大学、上海交通大学、清华大学、复旦大学、上海人工智能实验室、合合信息等高校、钻研机构及企业的专家代表就大模型技能在图象规模的发展、运用进行了深入研讨。

亮相CCIG2024,合合信息文档剖析技能破解大模型语料“饥荒”难题

图说:行业关注者聆听《大模型技能及其前沿运用》论坛分享

大模型一路“高歌猛进”的背后,隐藏着一场关于模型训练语料的“能源危机”。根据人工智能钻研人员小组Epoch钻研估计,机械学习数据集可能会在2026年前耗尽所有“高质量语言数据”。现阶段,大量的高质量语料数据存在于书籍、论文、研报、企业文档等文档之中,复杂的版面结构制约了大模型的训练语料解决及大模型文档问答的运用能力。文档剖析技能的进步,让机械能够辨别文档中的多种元素,更好地解决文本、表格、图象等多类型数据,复原文档阅读次序,加速大模型训练与运用。论坛上,合合信息智能创新事业部研发总监常扬分享了合合信息智能文档解决技能在文档剖析规模的工作,给与会者带来了新的技能视角。

“文档剖析的难点在于如何准确辨别文档中的各个元素,并理解其之间的逻辑关系,需要关注'物理版面阐明'和'逻辑版面阐明。' ”据常扬介绍,物理版面阐明侧重于视觉特征、文档部署,主要恣意是把相关性高的笔墨聚合到一个区域,比如一个段落,一个表格等等,并选用目标检测恣意进行建模,使用基于回归的单阶段检测模型进行拟合,从而获得文档中各种各样的部署方式;逻辑版面阐明侧重于对语义特征的阐明,主要恣意是把不同的笔墨块根据语义建模,例如通过语义的层次关系,形成一个目录树结构。

文档剖析技能中文档元素检测、笔墨表格辨别、文档版面阐明、阅读次序复原等恣意涉及对版面元素和版面整体部署的判断,是文档解决规模典型的技能难题。通过十几年技能积淀,合合信息打通了电子档剖析、扫描档图象解决、笔墨辨别、表格辨别、版面阐明、版面复原和排版部署等文档智能化解决的全流程,面对电子文档及扫描件,能够灵活地辨别笔墨、表格、无线表、跨页表格、页眉、页脚、公式、图象、流程图等版面元素,准确地复原文档阅读次序,为大模型规模提供了精准的训练语料与文档问答运用体验。

亮相CCIG2024,合合信息文档剖析技能破解大模型语料“饥荒”难题

图说:高校钻研者、学生排队体验智能文档解决技能

“我们钻研过程中发现,真实世界的文档有着极为丰富的部署类型,没法单纯地用单栏,双栏、三栏等类别去定义。”常扬表示,近年来的开放词汇目标检测(OVD),视觉语义对齐(Alignment)等工作,以及生成式模型等前沿进展,将给版面阐明带来新的钻研思路,合合信息技能团队也将持续在智能文档解决规模深耕,让新技能在行业中更快速地产生价值。

给TA打赏
共{{data.count}}人
人已打赏
应用

首搭第五代DM手艺,“工业奇迹”秦L DM-i震撼上市

2024-5-28 22:42:00

应用

ACL 2024 | 提升大模型断续进修性能,哈工大、度小满提出同享注意力框架SAPT

2024-5-29 15:01:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索