当前位置: 首页 > news >正文

精品建站教程天津网站快速排名提升

精品建站教程,天津网站快速排名提升,网页设计师联盟网站,微信网站建设模板最近工作中经常遇到收到其他人提供的pdf文档#xff0c;想要编辑修改下或者复制部分内容比较困难#xff0c;想通过现有的pdf工具软件转换文档格式#xff0c;基本都要充钱#xff0c;为了免费实现pdf转换工具#xff0c;网上查了下相关技术方案#xff0c;整理了下代码想要编辑修改下或者复制部分内容比较困难想通过现有的pdf工具软件转换文档格式基本都要充钱为了免费实现pdf转换工具网上查了下相关技术方案整理了下代码测试真实有效分享下。 第一步安装相关第三方库 pip install PyMuPDF -i https://mirrors.aliyun.com/pypi/simple pip install pdf2docx -i https://mirrors.aliyun.com/pypi/simple 第二步编写代码 pdfConverter.py: import datetime import os # fitz就是pip install PyMuPDF import fitz # pdf2docx 也是封装 fitz 模块为基础开发的 from pdf2docx import Converter pdf 转换工具包 pdf 转成 word pdf 转成 图片 pdf 转成 html def pdf2word(file_path):方法名称: pdf转word中文注释: pdf转word入参:param file_path str pdf文件路径出参:返回状态:return 0 失败或异常return 1 成功返回错误码返回错误信息param doc_file str word文件名作 者: PandaCode辉创建时间: 2023-10-16使用范例: pdf2word(test.pdf)try:if (not type(file_path) is str):return [0, 111111, pdf文件路径参数类型错误,不为字符串, [None]]# 开始时间startTime datetime.datetime.now()# 提取文件名去除文件后缀file_name file_path.split(.)[0]print(file_name)# word文件名doc_file f{file_name}.docxprint(doc_file)p2w Converter(file_path)convert(doc_file,start,end)函数中doc_file转化完成后文件名start转化开始页面end转化结束页面注意点①若不给startend参数则默认转化全篇②对于不连续的页面也可写作convert(doc_file , pages [2,4,6])p2w.convert(doc_file, start0, endNone)p2w.close()endTime datetime.datetime.now() # 结束时间print(pdf转word耗时 %s 秒 % (endTime - startTime).seconds)print(pdf转word成功)# 返回容器return [1, 000000, pdf转word成功, [doc_file]]except Exception as e:p2w.close()print(pdf转word异常, str(e))return [0, 999999, pdf转word异常, str(e), [None]]def pdf2image(file_path, image_path):方法名称: pdf转图片中文注释: pdf转图片入参:param file_path str pdf文件路径param image_path str 输出图片路径出参:返回状态:return 0 失败或异常return 1 成功返回错误码返回错误信息param image_path str 输出图片路径作 者: PandaCode辉创建时间: 2023-10-16使用范例: pdf2image(test.pdf, ./images)try:if (not type(file_path) is str):return [0, 111111, pdf文件路径参数类型错误,不为字符串, [None]]if (not type(image_path) is str):return [0, 111112, 输出图片路径参数类型错误,不为字符串, [None]]# 开始时间startTime datetime.datetime.now()print(pdfPath file_path)# 提取文件名去除文件后缀file_name file_path.split(.)[0]print(file_name)print(imagePath imagePath)# 打开pdf文档pdfDoc fitz.open(file_path)# 判断存放图片的文件夹是否存在if not os.path.exists(image_path):# 若图片文件夹不存在就创建os.makedirs(image_path)# Document.page_count 页数 (int)# 循环页数for pg in range(pdfDoc.page_count):print(%s % (pg 1))页面(Page)处理是MuPDF功能的核心。您可以将页面呈现为光栅或矢量SVG图像可以选择缩放、旋转、移动或剪切页面。您可以提取多种格式的页面文本和图像并搜索文本字符串。对于PDF文档可以使用更多的方法向页面添加文本或图像。page pdfDoc[pg]rotate int(0)# 每个尺寸的缩放系数为1.3这将为我们生成分辨率提高2.6的图像。# 此处若是不做设置默认图片大小为792X612, dpi96zoom_x 1.33333333 # (1.33333333--1056x816) (2--1584x1224)zoom_y 1.33333333mat fitz.Matrix(zoom_x, zoom_y).prerotate(rotate)pix是一个Pixmap对象它在本例中包含页面的RGB图像可用于多种用途。方法Page.get_pixmap()提供了许多用于控制图像的变体分辨率、颜色空间例如生成灰度图像或具有减色方案的图像、透明度、旋转、镜像、移位、剪切等。 例如创建RGBA图像即包含alpha通道指定pixpage.get_pixmapalphaTrue。 Pixmap包含以下引用的许多方法和属性。其中包括整数宽度、高度每个像素和跨距一个水平图像行的字节数。属性示例表示表示图像数据的矩形字节区域Python字节对象。 还可以使用page.get_svg_image()创建页面的矢量图像。pix page.get_pixmap(matrixmat, alphaFalse)# 将图片写入指定的文件夹内pix.save(image_path / file_name _%s.png % (pg 1))endTime datetime.datetime.now() # 结束时间print(pdf转图片耗时 %s 秒 % (endTime - startTime).seconds)print(pdf转图片成功)# 返回容器return [1, 000000, pdf转图片成功, [image_path]]except Exception as e:print(pdf转图片异常, str(e))return [0, 999999, pdf转图片异常, str(e), [None]]def pdf2html(file_path):方法名称: pdf转html中文注释: pdf转html入参:param file_path str pdf文件路径出参:返回状态:return 0 失败或异常return 1 成功返回错误码返回错误信息param out_file str html文件名作 者: PandaCode辉创建时间: 2023-10-16使用范例: pdf2html(test.pdf)try:if (not type(file_path) is str):return [0, 111111, pdf文件路径参数类型错误,不为字符串, [None]]# 开始时间startTime datetime.datetime.now()print(pdfPath pdfPath)# 打开pdf文档pdfDoc fitz.open(pdfPath)# 提取文件名去除文件后缀file_name pdfPath.split(.)[0]print(file_name)out_file f{file_name}.htmlprint(out_file)# 打开文件首次创建写入fo open(out_file, w, encodingutf-8)# Document.page_count 页数 (int)# 循环页数for pg in range(pdfDoc.page_count):print(%s % (pg 1))页面(Page)处理是MuPDF功能的核心。您可以将页面呈现为光栅或矢量SVG图像可以选择缩放、旋转、移动或剪切页面。您可以提取多种格式的页面文本和图像并搜索文本字符串。对于PDF文档可以使用更多的方法向页面添加文本或图像。page pdfDoc[pg]提取文本和图像 page.get_text(opt) 我们还可以以多种不同的形式和细节级别提取页面的所有文本、图像和其他信息对opt使用以下字符串之一以获取不同的格式text默认带换行符的纯文本。无格式、无文字位置详细信息、无图像blocks生成文本块段落的列表words生成单词列表不包含空格的字符串html创建页面的完整视觉版本包括任何图像。这可以通过internet浏览器显示dict / json与HTML相同的信息级别但作为Python字典或resp.JSON字符串。rawdict / rawjsondict / json的超级集合。它还提供诸如XML之类的字符详细信息。xhtml文本信息级别与文本版本相同但包含图像。xml不包含图像但包含每个文本字符的完整位置和字体信息。使用XML模块进行解释# html 格式保存原PDF文本和图片样式还行# text page.get_text(html)# xhtml 格式保存原PDF文本和图片样式更好text page.get_text(xhtml)# 写入文件fo.write(text)# 关闭文件fo.close()endTime datetime.datetime.now() # 结束时间print(pdf转html耗时 %s 秒 % (endTime - startTime).seconds)print(pdf转html成功)# 返回容器return [1, 000000, pdf转html成功, [out_file]]except Exception as e:# 关闭文件fo.close()print(pdf转html异常, str(e))return [0, 999999, pdf转html异常, str(e), [None]]if __name__ __main__:# PDF地址pdfPath test.pdf# 1pdf转wordpdf2word(pdfPath)# 储存图片的目录imagePath ./images# 2pdf转图片pdf2image(pdfPath, imagePath)# 3pdf转htmlpdf2html(pdfPath)第三步运行查看效果
http://www.dnsts.com.cn/news/2291.html

相关文章:

  • 网站策划软件推销网站
  • 松江做网站需要多少钱百度网盘免费下载
  • 做食品的采购员常用网站企业qq官网
  • 建设通网站会员免费吗百度pc网页版入口
  • 有专门做试吃的网站吗网站在线生成app
  • 四平网站建设哪家好宁海关键词优化怎么优化
  • 找供应商去哪个网站软件开发外包公司
  • 如何建设网站的外接 以及在增加外接的时应当注意什么郑州百度快照优化
  • wordpress 套件正规seo排名多少钱
  • 做浏览单的网站有哪些恶意点击推广神器
  • 网络营销品牌推广公司哪家好sem优化服务公司
  • 南昌建设吉林seo关键词
  • 网页导航条制作教程seo是什么化学名称
  • 外贸网站建设模板下载友情链接交换软件
  • 给人家做的网站想改怎么改seo的作用是什么
  • 一般网站海报做一张多久百度竞价价格查询
  • 青海省教育厅门户网站官网sem数据分析
  • 祁东网站开发网站推广找哪家公司好
  • 数学网站怎么做的免费seo在线优化
  • 做网站的模板网络营销案例实例
  • 在哪个网站做流程图比较好看chrome 谷歌浏览器
  • 网站打不开 别人能打开爱站网长尾挖掘工具
  • 做网站怎么选关键词发布新闻稿
  • 销售平台网站建设方案模板百度知道问答
  • 宁波网站推广厂家51链
  • 网站开发 项目计划书网络营销推广总结
  • 做阿里巴巴怎么进公司网站电商平台开发需要多少钱
  • 简单门户网站开发成人大学报名官网入口
  • WordPress朗读百度网站怎样优化排名
  • 网站 需求 文档中国2022年重大新闻