当前位置: 首页 > news >正文

网站 开发 语言企业建设营销型网站步骤

网站 开发 语言,企业建设营销型网站步骤,免费的h5,小程序开发需求方案今天给大家分享一个端到端的开源 OCR 模型#xff0c;号称 OCR 2.0#xff01; 支持场景文本、文档、乐谱、图表、数学公式等内容识别#xff0c;拿到了 BLEU 0.972 高分。 从给出的演示图来看#xff0c;一些非常复杂的数学公式都能正确的识别#xff0c;颇为强大。模型…今天给大家分享一个端到端的开源 OCR 模型号称 OCR 2.0 支持场景文本、文档、乐谱、图表、数学公式等内容识别拿到了 BLEU 0.972 高分。 从给出的演示图来看一些非常复杂的数学公式都能正确的识别颇为强大。模型大小仅 1.43GB感兴趣的小伙伴可以试试。 OCR一直是离落地最近的研究方向之一是AI-1.0时代的技术结晶。到了以LLMLVLM为核心的AI-2.0时代OCR成了多模大模型的一项基本能力各家模型甚至有梭哈之势。多模态大模型作为通用模型总有种降维打击OCR模型的感觉。那么纯OCR的研究真的到头了吗我们想说当然没有没准才刚刚开始。首先盘一下AI-1.0 OCR系统和LVLM OCR的缺点 首先是AI-1.0流水线式的OCR系统缺点不用多说各个模块比较独立局部最优维护成本也大。最重要的是不通用不同OCR任务需路由不同模型不太方便。那么多模态大模型在pure OCR任务上有什么缺陷呢我们认为有以下两点 为Reasoning让路必然导致image token数量过多进而导致在纯OCR任务上存在bottle-neck。ReasoningVQA-like能力来自LLMdecoder要想获得更好的VQA能力至少在刷点上就要充分利用起LLM来那么image token就得越像text token至少高维上这样就会让LLM更舒服。试想一下100个text token在LLM词表上能编码多少文字那么一页PDF的文字又需要多少token呢不难发现保VQA就会导致在做OCR任务上尤其是dense OCR任务上模型搞得比较丑陋。 例如一页PDF图片只有A4纸大小很多LVLM要都需要切图做OCR切出几千个image token。单张都要切图拿出多页PDF拼接图阁下又当如何应对我们认为对于OCR模型这么多token大可不必。 非常直观的一点就是模型太大迭代困难。要想引入新OCR feature如支持一项新语言不是SFT一下就能训进模型的得打开vision encoder做pre-training或者post-training这都是相当耗资源的。对于OCR需求来说太浪费了。有人会说小模型能同时做好这么多OCR任务吗我们的答案是肯定的而且甚至还能更好。 相关链接 论文地址https://arxiv.org/abs/2409.0170 代码地址https://github.com/Ucas-HaoranWei/GOT-OCR2.0/tree/main 模型下载huggingface.co/ucaslcl/GOT-OCR2_0 GOT: Towards OCR-2.0 通用OCR模型须要够通用体现在输入输出都要通用上。我们可以笼统地将人造的所有信号都叫字符基于此我们提出通用或者广义OCR也就是OCR-2.0的概念并设计开源了第一个起步OCR-2.0模型GOT该模型名字就是由General OCR Theory的首字母组成。 在输入方面模型支持图1中全部的OCR任务输出方面模型同时支持plain texts输出以及可读性强、可编辑的formatted文本输出如markdown等。 图2. GOT结构与训练流程图 模型的结构和训练方法如图2所示采用vision encoderinput embedding layerdecoder的pipeline。Encoder主体采用带local attention的VITDet架构这不至于CLIP方案的全程global attention在高分辨率下激活太大炸显存。Encoder后两层采用Vary的双卷积设计方案。整个Encoder将1024×1024×3的图像压缩为256×1024的image tokens这足以做好A4纸级别的dense OCR。 整个训练过程分为3个步骤没有一个阶段锁LLM也就是不会存在图像到文本的对齐阶段进而导致损害image token的文字压缩率。3个训练阶段分别为 高效预训练encoderGOT在整个训练过程中没有A100级别的卡为了节省资源该阶段使用小型OPT-125M作为decoder为encoder提供优化方向快速灌入大量数据。 联合训练encoder-decoder该阶段GOT的基本结构搭建完成为上一阶段预训练好的encoder以及Qwen团队预训练好的Qwen0.5B。我们稍稍加大了decoder的大小因为该阶段需要喂入大量OCR-2.0的知识而不少数据如化学式的OCR其实也是带点reasoning的更小的decoder未敢尝试。 锁住encoder加强decoder以适配更多的OCR应用场景如支持坐标或者颜色引导的细粒度OCR点读笔可能会用到支持动态分辨率OCR技术超大分辨率图可能会用到多页OCR技术该feature主要是为了后续follower能更好地训练Arxiv这种数据我们的设想是多页PDF直接训练无须再对.tex断页而苦恼 图3. GOT使用到的数据渲染工具 当然整个GOT模型设计最困难的还是数据工程。为了构造各种各样的数据我们学习了众多数据渲染工具如图3所示包括LatexMathpix-markdown-itMatplotlibTikzVerovio Pyecharts等等。 结果可视化 多说无用效果才是一切GOT的输出可视化效果如下 例1最常用的PDF image转markdown能力 例2双栏文本感知能力 例3自然场景以及细粒度OCR能力 例4动态分辨率OCR能力 例5多页OCR能力 例6更多符号的OCR能力 总结 尽管GOT模型表现不错但也存在一些局限如更多的语言支持更复杂的几何图更复杂的表格。OCR-2.0的研究还远的很GOT也还有不小提升空间该项目在数据和算力资源上都是非常受限的正是因为深知GOT以及OCR-2.0的潜力我们希望通过开源GOT吸引更多的人放弃VQA再次投向强感知。都说纯OCR容易背锅但也正好说明做的不够work不是吗
http://www.dnsts.com.cn/news/223048.html

相关文章:

  • 化妆品品牌网站如何做汕头免费建站公司
  • 网站建设业务前景云溪网络建站宝盒
  • 珠海建设企业网站的公司去百度建网站
  • 世界网站制作宠物网站建设策划报告
  • 如何发布自己的网站淄博建设银行网站
  • 住房和城乡建设部网站城市稽查vue开发视频网站
  • 黄金路网站建设公司西安做网站公司玖佰网络
  • dw怎么做网站注册登入页面内蒙古中汇建设有限公司网站
  • 做租车行网站有没有学做衣服的网站
  • 微信网站收钱吗传奇手游发布网址传奇
  • 浏览器怎么打开网站服务器seo查询排名软件
  • 用做网站使用的图片关注清远发布
  • asp 手机网站安徽全网优化
  • 做册子模板素材有哪些网站优普道建筑网校
  • 网站建设培训价格小学学校网站建设情况资料
  • 石家庄手机模板建站wordpress 编辑器文字大小
  • 百度网站提交收录入口重庆丙图网络科技有限公司
  • 杭州市建设工程公示网站企查查企业信息查询在线
  • 做捐款网站原画培训机构排行榜
  • 濮阳的网站建设东莞市官网网站建设品牌
  • 深圳建设很行住房公积金网站安阳网站制作 网络服务
  • dede织梦php文章图片网站源码 完整后台 带在线音乐搜索热词排名
  • 新加坡网站开发公司网站建设销售工作内容
  • 网站备案 假通信地址5080电影电视剧大全
  • 网站开发常用标签app源码网站
  • 怎么在主机上的建设网站wordpress 页面怎么添加表格
  • 网站建设柚子网络科技官网网页qq登录入口官网官方
  • 网站模板 数据库网站群 意义
  • 建设银行网站不能登录密码如何做商业推广网站
  • 莒县网站制作做门户网站主要技术哪一块