云南交投集团公路建设有限公司网站,做公司网站的企业,网页设计公司名称,常州网约车哪个平台最好文章目录 前言现有大模型文档解析问题表格无法解析无法按照阅读顺序解析文档编码错误 诉求文档解析技术技术难点技术架构关键技术回根溯源 文本向量化模型结语 前言
随着人工智能技术的持续演进#xff0c;大语言模型在我们日常生活中正逐渐占据举足轻重的地位。大模型语言通… 文章目录 前言现有大模型文档解析问题表格无法解析无法按照阅读顺序解析文档编码错误 诉求文档解析技术技术难点技术架构关键技术回根溯源 文本向量化模型结语 前言
随着人工智能技术的持续演进大语言模型在我们日常生活中正逐渐占据举足轻重的地位。大模型语言通常需要庞大的知识库来支持其生成和理解自然语言的能力。文档解析技术可以帮助从各种来源如学术论文、技术文档、新闻报道等中提取和整合信息构建出全面且准确的知识库。这些知识库是模型进行语言理解和生成的基础。
那么什么是文档解析技术呢文档解析技术是指对文档进行深入分解、分析和理解的过程目的是从中提取和整合有用的信息。这个过程通常涉及对文档的标题、段落、段落关系以及文档中的其他关键元素进行详细的分析。通过文档解析我们可以更好地理解文档的结构、内容和主题从而更有效地利用这些信息。
现有大模型文档解析问题
既然文档解析这么重要那他的发展应该引起大家足够的重视我们先来看一下目前市场上的现有大模型在文档解析领域都出现了哪些问题呢
表格无法解析 如上图所示我们将一篇文档输入给ChatGPT4并让它根据文件来回答一下“精氨酸在40度的水中溶解度是多少”。右图明确指出该答案是“31.9”而ChatGPT4却给出了错误答案这就意味着ChatGPT4并没有对提供的文档进行准确地解析。
无法按照阅读顺序解析
无法按照阅读顺序解析通常指的是在文档解析或内容呈现过程中系统无法按照人类阅读的自然顺序如从左到右、从上到下来正确解析或展示文档内容。来看个例子 我们依旧给ChatGPT4提供了一篇文章并让它根据文档内容回答一下本书致谢环节提到的致谢对象它给出的结果依旧不理想。
文档编码错误
如下图所示ChatGPT4在解析文档的过程中出现了文档编码错误这表明在大模型训练或者应用过程中仍然存在文档编码问题。 诉求
当然出现以上问题都是我们所不能忍受的毕竟我们不仅仅需要大模型帮我们提高工作的效率更重要的是我们需要让他对准确度负责因为准确性是使用他的前提。如果连准确度都不能做保证的话那一切都将没有任何意义。 我认为我们对高效获取高质量数据的要求是希望在大模型训练和应用的部分可以将PDF、Word、扫描件的阅读顺序还原准确、识别速度快、支持论文等多种排版文档、元素识别准确尤其是表格、段落、公式、标题等多个方面。
说到这儿我就不得不提一下合合信息推出的TextIn 平台了如下图所示TextIn不仅包含文档解析技术还包括文本向量化模型技术。接下来阿Q将对他们依次进行介绍。 文档解析技术
在了解TextIn文档解析技术之前我们先来说一下他的大模型在训练和应用过程中都对哪些文档进行了分析吧据我所知他的大模型训练所使用的文档种类比较丰富比如合同、书籍、论文、产品说明书、公文函、财报等。
技术难点
要想将以上多种文档进行准确无误的识别并且解析在大模型的训练和应用过程中需要克服和解决各种各样的技术难点
版面检测元素遮盖重叠、元素本身有多样性、复杂版式双栏、跨页、三栏阅读顺序还原困难多栏的影响、多栏和插入表格的影响表格还原无线表格识别、合并单元格识别公式识别单行公式与行内公式、表格内公式
技术架构
为了克服以上提到的种种技术难点合合信息设计出了以下TextIn文档解析技术架构。 该技术架构底层是基于测评工具链和数据工具链的基建层算法层分为文档解析引擎、检测引擎和图像识别引擎算法层主要用来完成一个文档将多页拆分成单页同时将其中的每一个元素进行检测和图像识别。 至于应用层的话可以分为以下三步走
第一步将多页文档进行拆分并且将其中的电子档和扫描档经过不同的解析引擎进行解析并最终形成了文档表征的基础特征。第二步将基础的文档的表征比如表格、页眉、页脚、目录、文字、图形等做版面分析、跨页合并、图层分离、处理多节点关系最终的目的是将一个多元的不同格式的文档输出为大模型可以理解的顺序的文档第三步文档的重建输出成一个markdown文件。 接入层的话为应用的最终形态用于对外提供API、SDK、私有化镜像以及web端的产品。
关键技术
Layout-engine版面分析框架将电子档和扫描档经过不同的物理和逻辑版面分析拿到文档中所有的元素段落、公式、目录、页眉、页脚等在整合成可以被大模型顺利阅读的有顺序性的内容。
Catelog-engine文档树提取技术
通过输入整份文档的段落内容以序列化形式传入模型。文档树引擎提取当前段落的embedding值预测每个段落和上一个段落的关系分为子标题、子段落、合并、旁系、主标题、表格标题等。如果是旁系类型则再往上找父节点并判断其层级关系直到找到最终的父节点。最后基于每个段落的情况构造该文档的文档树并按 JSON 结构输出。 回根溯源
有了以上技术的加持之后我们再来对ChatGPT4来进行下测验此时我们不再上传PDF格式的文件而是将被TextIn技术处理后得到的markdown文件整理成txt文件进行上传通过下图我们可以看出ChatGPT4已经可以完全回答正确了。 至于其他两个问题咱们直接上图不做太多解释就是这么自信。 文本向量化模型
近期合合信息发布了文本向量化模型acge_text_embedding简称“acge模型”获得MTEB中文榜单C-MTEB第一的成绩相关成果将有助于大模型更快速地在行业中产生应用价值。 结语
合合信息是一家深耕人工智能与大数据领域的科技企业凭借独特的智能文字识别与商业大数据核心技术为全球的个人用户C端和各行各业的企业客户B端提供前沿的数字化、智能化解决方案。
TextIn是合合信息推出的智能文档处理产品旨在为全球用户提供智能图像处理、文字表格识别、文档内容提取产品。希望所有对技术充满热情的朋友们前往TextIn的官方网站来亲身体验图像处理的智能化、文字与表格识别的精准度以及文档内容的高效提取。更多精彩功能等待您的探索快来开启您的智能化体验之旅吧