当前位置: 首页 > news >正文

嘉兴网站制作案例兰州网络运营公司

嘉兴网站制作案例,兰州网络运营公司,开发小程序多少报价,做国外网站探索图像数据中的隐藏信息#xff1a;语义实体识别和关系抽取的奇妙之旅 1. 简介 1.1 背景 关键信息抽取 (Key Information Extraction, KIE)指的是是从文本或者图像中#xff0c;抽取出关键的信息。针对文档图像的关键信息抽取任务作为OCR的下游任务#xff0c;存在非常…探索图像数据中的隐藏信息语义实体识别和关系抽取的奇妙之旅 1. 简介 1.1 背景 关键信息抽取 (Key Information Extraction, KIE)指的是是从文本或者图像中抽取出关键的信息。针对文档图像的关键信息抽取任务作为OCR的下游任务存在非常多的实际应用场景如表单识别、车票信息抽取、身份证信息抽取等。然而使用人力从这些文档图像中提取或者收集关键信息耗时费力怎样自动化融合图像中的视觉、布局、文字等特征并完成关键信息抽取是一个价值与挑战并存的问题。 对于特定场景的文档图像其中的关键信息位置、版式等较为固定因此在研究早期有很多基于模板匹配的方法进行关键信息的抽取考虑到其流程较为简单该方法仍然被广泛应用在目前的很多场景中。但是这种基于模板匹配的方法在应用到不同的场景中时需要耗费大量精力去调整与适配模板迁移成本较高。 文档图像中的KIE一般包含2个子任务示意图如下图所示。 1SER: 语义实体识别 (Semantic Entity Recognition)对每一个检测到的文本进行分类如将其分为姓名身份证。如下图中的黑色框和红色框。2RE: 关系抽取 (Relation Extraction)对每一个检测到的文本进行分类如将其分为问题 (key) 和答案 (value) 。然后对每一个问题找到对应的答案相当于完成key-value的匹配过程。如下图中的红色框和黑色框分别代表问题和答案黄色线代表问题和答案之间的对应关系。 1.2 基于深度学习的主流方法 一般的KIE方法基于命名实体识别(Named Entity Recognition,NER)来展开研究但是此类方法仅使用了文本信息而忽略了位置与视觉特征信息因此精度受限。近几年大多学者开始融合多个模态的输入信息进行特征融合并对多模态信息进行处理从而提升KIE的精度。主要方法有以下几种 1基于Grid的方法此类方法主要关注图像层面多模态信息的融合文本大多大多为字符粒度对文本与结构结构信息的嵌入方式较为简单如Chargrid[1]等算法。2基于Token的方法此类方法参考NLP中的BERT等方法将位置、视觉等特征信息共同编码到多模态模型中并且在大规模数据集上进行预训练从而在下游任务中仅需要少量的标注数据便可以获得很好的效果。如LayoutLM[2], LayoutLMv2[3], LayoutXLM[4], StrucText[5]等算法。3基于GCN的方法此类方法尝试学习图像、文字之间的结构信息从而可以解决开集信息抽取的问题训练集中没有见过的模板如GCN[6]、SDMGR[7]等算法。4基于End-to-end的方法此类方法将现有的OCR文字识别以及KIE信息抽取2个任务放在一个统一的网络中进行共同学习并在学习过程中相互加强。如Trie[8]等算法。 更多关于该系列算法的详细介绍请参考“动手学OCR·十讲”课程的课节六部分文档分析理论与实践。 2. 关键信息抽取任务流程 PaddleOCR中实现了LayoutXLM等算法基于Token同时在PP-StructureV2中对LayoutXLM多模态预训练模型的网络结构进行简化去除了其中的Visual backbone部分设计了视觉无关的VI-LayoutXLM模型同时引入符合人类阅读顺序的排序逻辑以及UDML知识蒸馏策略最终同时提升了关键信息抽取模型的精度与推理速度。 下面介绍怎样基于PaddleOCR完成关键信息抽取任务。 在非End-to-end的KIE方法中完成关键信息抽取至少需要2个步骤首先使用OCR模型完成文字位置与内容的提取然后使用KIE模型根据图像、文字位置以及文字内容提取出其中的关键信息。 2.1 训练OCR模型 2.1.1 文本检测 1数据 PaddleOCR中提供的模型大多数为通用模型在进行文本检测的过程中相邻文本行的检测一般是根据位置的远近进行区分如上图使用PP-OCRv3通用中英文检测模型进行文本检测时容易将”民族“与“汉”这2个代表不同的字段检测到一起从而增加后续KIE任务的难度。因此建议在做KIE任务的过程中首先训练一个针对该文档数据集的检测模型。 在数据标注时关键信息的标注需要隔开比上图中的 “民族汉” 3个字相隔较近此时需要将”民族“与”汉“标注为2个文本检测框否则会增加后续KIE任务的难度。 对于下游任务一般来说200~300张的文本训练数据即可保证基本的训练效果如果没有太多的先验知识可以先标注 200~300 张图片进行后续文本检测模型的训练。 2模型 在模型选择方面推荐使用PP-OCRv3_det关于更多关于检测模型的训练方法介绍请参考OCR文本检测模型训练教程与PP-OCRv3 文本检测模型训练教程。 2.1.2 文本识别 相对自然场景文档图像中的文本内容识别难度一般相对较低背景相对不太复杂因此优先建议尝试PaddleOCR中提供的PP-OCRv3通用文本识别模型(PP-OCRv3模型库链接)。 1数据 然而在部分文档场景中也会存在一些挑战如身份证场景中存在着罕见字在发票等场景中的字体比较特殊这些问题都会增加文本识别的难度此时如果希望保证或者进一步提升模型的精度建议基于特定文档场景的文本识别数据集加载PP-OCRv3模型进行微调。 在模型微调的过程中建议准备至少5000张垂类场景的文本识别图像可以保证基本的模型微调效果。如果希望提升模型的精度与泛化能力可以合成更多与该场景类似的文本识别数据从公开数据集中收集通用真实文本识别数据一并添加到该场景的文本识别训练任务过程中。在训练过程中建议每个epoch的真实垂类数据、合成数据、通用数据比例在1:1:1左右这可以通过设置不同数据源的采样比例进行控制。如有3个训练文本文件分别包含1W、2W、5W条数据那么可以在配置文件中设置数据如下 Train:dataset:name: SimpleDataSetdata_dir: ./train_data/label_file_list:- ./train_data/train_list_1W.txt- ./train_data/train_list_2W.txt- ./train_data/train_list_5W.txtratio_list: [1.0, 0.5, 0.2]...2模型 在模型选择方面推荐使用通用中英文文本识别模型PP-OCRv3_rec关于更多关于文本识别模型的训练方法介绍请参考OCR文本识别模型训练教程与PP-OCRv3文本识别模型库与配置文件。 2.2 训练KIE模型 对于识别得到的文字进行关键信息抽取有2种主要的方法。 1直接使用SER获取关键信息的类别如身份证场景中将“姓名“与”张三“分别标记为name_key与name_value。最终识别得到的类别为name_value对应的文本字段即为我们所需要的关键信息。 2联合SER与RE进行使用这种方法中首先使用SER获取图像文字内容中所有的key与value然后使用RE方法对所有的key与value进行配对找到映射关系从而完成关键信息的抽取。 2.2.1 SER 以身份证场景为例 关键信息一般包含姓名、性别、民族等我们直接将对应的字段标注为特定的类别即可如下图所示。 注意 标注过程中对于无关于KIE关键信息的文本内容均需要将其标注为other类别相当于背景信息。如在身份证场景中如果我们不关注性别信息那么可以将“性别”与“男”这2个字段的类别均标注为other。标注过程中需要以文本行为单位进行标注无需标注单个字符的位置信息。 数据量方面一般来说对于比较固定的场景50张左右的训练图片即可达到可以接受的效果可以使用PPOCRLabel完成KIE的标注过程。 模型方面推荐使用PP-StructureV2中提出的VI-LayoutXLM模型它基于LayoutXLM模型进行改进去除其中的视觉特征提取模块在精度基本无损的情况下进一步提升了模型推理速度。更多教程请参考VI-LayoutXLM算法介绍与KIE关键信息抽取使用教程。 2.2.2 SER RE 该过程主要包含SER与RE 2个过程。SER阶段主要用于识别出文档图像中的所有key与valueRE阶段主要用于对所有的key与value进行匹配。 以身份证场景为例 关键信息一般包含姓名、性别、民族等关键信息在SER阶段我们需要识别所有的question (key) 与answer (value) 。标注如下所示。每个字段的类别信息label字段可以是question、answer或者other与待抽取的关键信息无关的字段 在RE阶段需要标注每个字段的的id与连接信息如下图所示。 每个文本行字段中需要添加id与linking字段信息id记录该文本行的唯一标识同一张图片中的不同文本内容不能重复linking是一个列表记录了不同文本之间的连接信息。如字段“出生”的id为0字段“1996年1月11日”的id为1那么它们均有[[0, 1]]的linking标注表示该id0与id1的字段构成key-value的关系姓名、性别等字段类似此处不再一一赘述。 注意 标注过程中如果value是多个字符那么linking中可以新增一个key-value对如[[0, 1], [0, 2]] 数据量方面一般来说对于比较固定的场景50张左右的训练图片即可达到可以接受的效果可以使用PPOCRLabel完成KIE的标注过程。 模型方面推荐使用PP-StructureV2中提出的VI-LayoutXLM模型它基于LayoutXLM模型进行改进去除其中的视觉特征提取模块在精度基本无损的情况下进一步提升了模型推理速度。更多教程请参考VI-LayoutXLM算法介绍与KIE关键信息抽取使用教程。 3. 参考文献 [1] Katti A R, Reisswig C, Guder C, et al. Chargrid: Towards understanding 2d documents[J]. arXiv preprint arXiv:1809.08799, 2018. [2] Xu Y, Li M, Cui L, et al. Layoutlm: Pre-training of text and layout for document image understanding[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery Data Mining. 2020: 1192-1200. [3] Xu Y, Xu Y, Lv T, et al. LayoutLMv2: Multi-modal pre-training for visually-rich document understanding[J]. arXiv preprint arXiv:2012.14740, 2020. [4]: Xu Y, Lv T, Cui L, et al. Layoutxlm: Multimodal pre-training for multilingual visually-rich document understanding[J]. arXiv preprint arXiv:2104.08836, 2021. [5] Li Y, Qian Y, Yu Y, et al. StrucTexT: Structured Text Understanding with Multi-Modal Transformers[C]//Proceedings of the 29th ACM International Conference on Multimedia. 2021: 1912-1920. [6] Liu X, Gao F, Zhang Q, et al. Graph convolution for multimodal information extraction from visually rich documents[J]. arXiv preprint arXiv:1903.11279, 2019. [7] Sun H, Kuang Z, Yue X, et al. Spatial Dual-Modality Graph Reasoning for Key Information Extraction[J]. arXiv preprint arXiv:2103.14470, 2021. [8] Zhang P, Xu Y, Cheng Z, et al. Trie: End-to-end text reading and information extraction for document understanding[C]//Proceedings of the 28th ACM International Conference on Multimedia. 2020: 1413-1422. 参考链接 https://github.com/PaddlePaddle/PaddleOCR/tree/release/2.7 更多优质内容请关注公号汀丶人工智能会提供一些相关的资源和优质文章免费获取阅读。
http://www.dnsts.com.cn/news/109993.html

相关文章:

  • 无锡seo网站推广费用网站建设与设计教程
  • 个人网站的需求分析网页策划案的范文
  • 集团微网站建设湛江网站建设公司哪家好
  • 学校网站建设公司psd模板怎么做网站
  • 樟木头东莞网站建设在哪里查公司名字有没有注册
  • 简历模板免费网站水产网站模板
  • 专业的网站建设公哪家专业罗湖网站制作多少钱
  • 平度市网站建设烟台市做网站找哪家好
  • 网站建设分为哪几种类型西安电商平台网站
  • p2p网站建设多少钱株洲手机网站建设
  • dede网站模板青岛做外贸网站哪家好
  • 专业做ea的网站张店做网站公司
  • 海外短视频平台网站水库信息化网站建设
  • 站长统计免费下载长春优惠做网站
  • 扬中网站推广托管福田庆三鼻子案例
  • 企业网站建设内容报价将自己做的网站发布到
  • 网站程序开发的基本步骤网站后台字体安装
  • 网站没内容可以备案吗描述个人网站的建站过程
  • 素材天下网站直播软件开发一个多少钱
  • 上饶做网站公司seo兼职论坛
  • 淘宝类网站开发广州番禺区酒店
  • 浙江网站建设情况凡科建站相关链接
  • 网站底部加备案号网站备案 公司注销
  • 深圳开发网站建设手机网站打不开
  • 沙漠网站建设成都设计咨询集团官网
  • 网站开发技术可行性分析怎么写商城式网站具备哪些功能吗
  • 直播网站建设费用网站商务通js代码
  • 网站大部分都是jsp做的wordpress循环
  • 济南高端网站设计策划深圳市公司有哪些公司
  • 在线做托福的网站化妆品应如何网站建设定位