当前位置：首页 > news >正文

精品建站教程天津网站快速排名提升

news 2026/2/3 7:14:57

精品建站教程,天津网站快速排名提升,网页设计师联盟网站,微信网站建设模板最近工作中经常遇到收到其他人提供的pdf文档#xff0c;想要编辑修改下或者复制部分内容比较困难#xff0c;想通过现有的pdf工具软件转换文档格式#xff0c;基本都要充钱#xff0c;为了免费实现pdf转换工具#xff0c;网上查了下相关技术方案#xff0c;整理了下代码想要编辑修改下或者复制部分内容比较困难想通过现有的pdf工具软件转换文档格式基本都要充钱为了免费实现pdf转换工具网上查了下相关技术方案整理了下代码测试真实有效分享下。第一步安装相关第三方库 pip install PyMuPDF -i https://mirrors.aliyun.com/pypi/simple pip install pdf2docx -i https://mirrors.aliyun.com/pypi/simple 第二步编写代码 pdfConverter.py: import datetime import os # fitz就是pip install PyMuPDF import fitz # pdf2docx 也是封装 fitz 模块为基础开发的 from pdf2docx import Converter pdf 转换工具包 pdf 转成 word pdf 转成图片 pdf 转成 html def pdf2word(file_path):方法名称: pdf转word中文注释: pdf转word入参:param file_path str pdf文件路径出参:返回状态:return 0 失败或异常return 1 成功返回错误码返回错误信息param doc_file str word文件名作者: PandaCode辉创建时间: 2023-10-16使用范例: pdf2word(test.pdf)try:if (not type(file_path) is str):return [0, 111111, pdf文件路径参数类型错误,不为字符串, [None]]# 开始时间startTime datetime.datetime.now()# 提取文件名去除文件后缀file_name file_path.split(.)[0]print(file_name)# word文件名doc_file f{file_name}.docxprint(doc_file)p2w Converter(file_path)convert(doc_file,start,end)函数中doc_file转化完成后文件名start转化开始页面end转化结束页面注意点①若不给startend参数则默认转化全篇②对于不连续的页面也可写作convert(doc_file , pages [2,4,6])p2w.convert(doc_file, start0, endNone)p2w.close()endTime datetime.datetime.now() # 结束时间print(pdf转word耗时 %s 秒 % (endTime - startTime).seconds)print(pdf转word成功)# 返回容器return [1, 000000, pdf转word成功, [doc_file]]except Exception as e:p2w.close()print(pdf转word异常, str(e))return [0, 999999, pdf转word异常, str(e), [None]]def pdf2image(file_path, image_path):方法名称: pdf转图片中文注释: pdf转图片入参:param file_path str pdf文件路径param image_path str 输出图片路径出参:返回状态:return 0 失败或异常return 1 成功返回错误码返回错误信息param image_path str 输出图片路径作者: PandaCode辉创建时间: 2023-10-16使用范例: pdf2image(test.pdf, ./images)try:if (not type(file_path) is str):return [0, 111111, pdf文件路径参数类型错误,不为字符串, [None]]if (not type(image_path) is str):return [0, 111112, 输出图片路径参数类型错误,不为字符串, [None]]# 开始时间startTime datetime.datetime.now()print(pdfPath file_path)# 提取文件名去除文件后缀file_name file_path.split(.)[0]print(file_name)print(imagePath imagePath)# 打开pdf文档pdfDoc fitz.open(file_path)# 判断存放图片的文件夹是否存在if not os.path.exists(image_path):# 若图片文件夹不存在就创建os.makedirs(image_path)# Document.page_count 页数 (int)# 循环页数for pg in range(pdfDoc.page_count):print(%s % (pg 1))页面(Page)处理是MuPDF功能的核心。您可以将页面呈现为光栅或矢量SVG图像可以选择缩放、旋转、移动或剪切页面。您可以提取多种格式的页面文本和图像并搜索文本字符串。对于PDF文档可以使用更多的方法向页面添加文本或图像。page pdfDoc[pg]rotate int(0)# 每个尺寸的缩放系数为1.3这将为我们生成分辨率提高2.6的图像。# 此处若是不做设置默认图片大小为792X612, dpi96zoom_x 1.33333333 # (1.33333333--1056x816) (2--1584x1224)zoom_y 1.33333333mat fitz.Matrix(zoom_x, zoom_y).prerotate(rotate)pix是一个Pixmap对象它在本例中包含页面的RGB图像可用于多种用途。方法Page.get_pixmap()提供了许多用于控制图像的变体分辨率、颜色空间例如生成灰度图像或具有减色方案的图像、透明度、旋转、镜像、移位、剪切等。例如创建RGBA图像即包含alpha通道指定pixpage.get_pixmapalphaTrue。 Pixmap包含以下引用的许多方法和属性。其中包括整数宽度、高度每个像素和跨距一个水平图像行的字节数。属性示例表示表示图像数据的矩形字节区域Python字节对象。还可以使用page.get_svg_image()创建页面的矢量图像。pix page.get_pixmap(matrixmat, alphaFalse)# 将图片写入指定的文件夹内pix.save(image_path / file_name _%s.png % (pg 1))endTime datetime.datetime.now() # 结束时间print(pdf转图片耗时 %s 秒 % (endTime - startTime).seconds)print(pdf转图片成功)# 返回容器return [1, 000000, pdf转图片成功, [image_path]]except Exception as e:print(pdf转图片异常, str(e))return [0, 999999, pdf转图片异常, str(e), [None]]def pdf2html(file_path):方法名称: pdf转html中文注释: pdf转html入参:param file_path str pdf文件路径出参:返回状态:return 0 失败或异常return 1 成功返回错误码返回错误信息param out_file str html文件名作者: PandaCode辉创建时间: 2023-10-16使用范例: pdf2html(test.pdf)try:if (not type(file_path) is str):return [0, 111111, pdf文件路径参数类型错误,不为字符串, [None]]# 开始时间startTime datetime.datetime.now()print(pdfPath pdfPath)# 打开pdf文档pdfDoc fitz.open(pdfPath)# 提取文件名去除文件后缀file_name pdfPath.split(.)[0]print(file_name)out_file f{file_name}.htmlprint(out_file)# 打开文件首次创建写入fo open(out_file, w, encodingutf-8)# Document.page_count 页数 (int)# 循环页数for pg in range(pdfDoc.page_count):print(%s % (pg 1))页面(Page)处理是MuPDF功能的核心。您可以将页面呈现为光栅或矢量SVG图像可以选择缩放、旋转、移动或剪切页面。您可以提取多种格式的页面文本和图像并搜索文本字符串。对于PDF文档可以使用更多的方法向页面添加文本或图像。page pdfDoc[pg]提取文本和图像 page.get_text(opt) 我们还可以以多种不同的形式和细节级别提取页面的所有文本、图像和其他信息对opt使用以下字符串之一以获取不同的格式text默认带换行符的纯文本。无格式、无文字位置详细信息、无图像blocks生成文本块段落的列表words生成单词列表不包含空格的字符串html创建页面的完整视觉版本包括任何图像。这可以通过internet浏览器显示dict / json与HTML相同的信息级别但作为Python字典或resp.JSON字符串。rawdict / rawjsondict / json的超级集合。它还提供诸如XML之类的字符详细信息。xhtml文本信息级别与文本版本相同但包含图像。xml不包含图像但包含每个文本字符的完整位置和字体信息。使用XML模块进行解释# html 格式保存原PDF文本和图片样式还行# text page.get_text(html)# xhtml 格式保存原PDF文本和图片样式更好text page.get_text(xhtml)# 写入文件fo.write(text)# 关闭文件fo.close()endTime datetime.datetime.now() # 结束时间print(pdf转html耗时 %s 秒 % (endTime - startTime).seconds)print(pdf转html成功)# 返回容器return [1, 000000, pdf转html成功, [out_file]]except Exception as e:# 关闭文件fo.close()print(pdf转html异常, str(e))return [0, 999999, pdf转html异常, str(e), [None]]if __name__ __main__:# PDF地址pdfPath test.pdf# 1pdf转wordpdf2word(pdfPath)# 储存图片的目录imagePath ./images# 2pdf转图片pdf2image(pdfPath, imagePath)# 3pdf转htmlpdf2html(pdfPath)第三步运行查看效果

查看全文

http://www.dnsts.com.cn/news/2291.html