当前位置: 首页 > news >正文

国外网站平台有哪些wordpress关闭GZIP

国外网站平台有哪些,wordpress关闭GZIP,网上注册公司需要什么材料和手续,wordpress四级级分类目录文章用于学习记录 文章目录 前言一、PDF 文件转换为图片二、OCR 图片文字识别提取三、服务器端下载运行 PaddleOCR四、下载权重文件总结 前言 文字识别#xff08;Optical Character Recognition#xff0c;简称OCR#xff09;是指将图片、扫描件或PDF、OFD文档中的打印字符… 文章用于学习记录 文章目录 前言一、PDF 文件转换为图片二、OCR 图片文字识别提取三、服务器端下载运行 PaddleOCR四、下载权重文件总结 前言 文字识别Optical Character Recognition简称OCR是指将图片、扫描件或PDF、OFD文档中的打印字符进行检测识别成可编辑的文本格式。 一、PDF 文件转换为图片 import datetime import osimport fitz #pip install PyMuPDFdef pyMuPDF_fitz(pdfPath, imagePath):startTime_pdf2img datetime.datetime.now() # 开始时间print(imagePath imagePath)pdfDoc fitz.open(pdfPath)for pg in range(pdfDoc.pageCount):page pdfDoc[pg]rotate int(0)# 每个尺寸的缩放系数为1.3这将为我们生成分辨率提高2.6的图像。# 此处若是不做设置默认图片大小为792X612, dpi96zoom_x 1.33333333 # (1.33333333--1056x816) (2--1584x1224)zoom_y 1.33333333mat fitz.Matrix(zoom_x, zoom_y).preRotate(rotate)pix page.getPixmap(matrixmat, alphaFalse)if not os.path.exists(imagePath): # 判断存放图片的文件夹是否存在os.makedirs(imagePath) # 若图片文件夹不存在就创建pix.writePNG(imagePath / images_%s.png % pg) # 将图片写入指定的文件夹内endTime_pdf2img datetime.datetime.now() # 结束时间print(pdf2img时间, (endTime_pdf2img - startTime_pdf2img).seconds)if __name__ __main__:# 1、PDF地址pdfPath ./pdf/note.pdf# 2、需要储存图片的目录imagePath pdfpyMuPDF_fitz(pdfPath, imagePath)AttributeError: ‘Document‘ object has no attribute ‘pageCount‘ PyMuPDF库由于 PyMuPDF 库更新导致的里面的一些函数名发生了变化将 pageCount 改为 page_count 将 preRotate 改为 prerotate 将 getPixmap 改为 get_pixmap 将 writePNG 改为 save这是要转换的 PDF 文件 修改后 import datetime import osimport fitz # fitz就是pip install PyMuPDFdef pyMuPDF_fitz(pdfPath, imagePath):startTime_pdf2img datetime.datetime.now() # 开始时间print(imagePath imagePath)pdfDoc fitz.open(pdfPath)for pg in range(pdfDoc.page_count):page pdfDoc[pg]rotate int(0)# 每个尺寸的缩放系数为1.3这将为我们生成分辨率提高2.6的图像。# 此处若是不做设置默认图片大小为792X612, dpi96zoom_x 1.33333333 # (1.33333333--1056x816) (2--1584x1224)zoom_y 1.33333333mat fitz.Matrix(zoom_x, zoom_y).prerotate(rotate)pix page.get_pixmap(matrixmat, alphaFalse)if not os.path.exists(imagePath): # 判断存放图片的文件夹是否存在os.makedirs(imagePath) # 若图片文件夹不存在就创建pix.save(imagePath / images_%s.png % pg) # 将图片写入指定的文件夹内endTime_pdf2img datetime.datetime.now() # 结束时间print(pdf2img时间, (endTime_pdf2img - startTime_pdf2img).seconds)if __name__ __main__:# 1、PDF地址pdfPath rD:\BaiduNetdiskDownload\PaddleOCR-release-2.7\PaddleOCR-release-2.7\pdf\note.pdf# 2、需要储存图片的目录imagePath rD:\BaiduNetdiskDownload\PaddleOCR-release-2.7\PaddleOCR-release-2.7\pdfpyMuPDF_fitz(pdfPath, imagePath)这是转换后的两张图片 二、OCR 图片文字识别提取 from paddleocr import PaddleOCR, draw_ocr# Paddleocr目前支持的多语言语种可以通过修改lang参数进行切换 # 例如ch, en, fr, german, korean, japan ocr PaddleOCR(use_angle_clsTrue, langch) # need to run only once to download and load model into memory img_path ./pdf/images_0.png result ocr.ocr(img_path, clsTrue) for idx in range(len(result)):res result[idx]for line in res:print(line)# 显示结果 # 如果本地没有simfang.ttf可以在doc/fonts目录下下载 from PIL import Imageresult result[0] image Image.open(img_path).convert(RGB) boxes [line[0] for line in result] txts [line[1][0] for line in result] scores [line[1][1] for line in result] im_show draw_ocr(image, boxes, txts, scores, font_pathdoc/fonts/simfang.ttf) im_show Image.fromarray(im_show) im_show.save(result.jpg)三、服务器端下载运行 PaddleOCR git clone https://github.com/PaddlePaddle/PaddleOCR.git# 进入 pytorch 虚拟环境 conda activate pytorch# 命令行进入 PaddleOCR 文件夹下 cd PaddleOCR# 识别单张图片 python tools/infer/predict_system.py --image_dir./doc/imgs/11.jpg --det_model_dir./inference/ch_ppocr_mobile_v2.0_det_infer/ --rec_model_dir./inference/ch_ppocr_mobile_v2.0_rec_infer/ --cls_model_dir./inference/ch_ppocr_mobile_v2.0_cls_infer/ --use_angle_clsTrue --use_space_charTrue --use_gpuFalse报错 not find model.pdmodel or inference.pdmodel in ./inference/ch_ppocr_mobile_v2.0_det_infer/四、下载权重文件 权重链接地址 # 检测权重 https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_det_infer.tar# 方向分类权重 https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_cls_infer.tar# 识别权重 https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_rec_infer.tar创建一个 inference 文件夹把前面解压后的三个文件夹放入 inference 中再把 inference 文件夹放入 PaddleOCR 中最终树形目录结构效果如下 再次检测报错问题解决 总结 以上就是 Python 实现 PDF 文件转换为图片以及快速使用 PaddleOCR 过程。
http://www.dnsts.com.cn/news/126054.html

相关文章:

  • 做苗木比较好的网站中国广告网
  • 北京网站建设有哪些浩森宇特邢台专业网站建设推荐
  • 想学做网站需要学什么个体工商户年审营业执照
  • php网站后台制作烟台做网站公司
  • 无锡微网站开发怎么把微信公众号的文章wordpress
  • 做折页的网站上海网站建设seo
  • 上海模板网站建站网络营销导向企业网站建设的原则包括
  • 企业网站推广和营销网页推广区别云南省建设厅网站二级建造师
  • 供水开发建设公司网站龙岩属于哪里
  • 哪个学校有网站建设公司企业模板wordpress模板
  • 做网站用什么开源程序营销型网站手机端
  • 在国外怎么做网站建立学校网站需要多少钱?
  • 嘉兴网站建设方案咨询百度账号申请注册
  • 有哪些做平面设计好素材网站全国企业信息查询网
  • 深圳市企业网站seo联系方式专业建网站价格
  • 赤峰是住房和城乡建设局网站响应式布局代码
  • 做淘宝网站如何提取中间的提成html登录页面制作
  • 别人用我公司营业执照备案做网站泉州人才网
  • 利川住房和城乡建设局网站网站登录注册页面模板
  • 国外做调查问卷的网站个人备案网站内不能出现什么内容
  • 有哪些做废品的网站北京哪家网站建设公司比较好
  • 网站安全事件应急处置机制建设c 网站开发 vs2012
  • 网站建设好的公司哪家好优化大师电脑版
  • 管理咨询公司网站WordPress验证邮箱
  • 对网站建设的认识注册工作室流程及费用
  • vue做的小网站扬中经济
  • 青岛网站设计选哪家贵州省建设监理协会网站
  • 小说网站怎么用html做网站建设如何更改背景图片
  • 微信端网站页面设计wordpress style标签
  • 用sqlite3做网站wordpress即时聊天插件