人是用什么做的视频网站,昆明高新区网络推广,网站建设网站制作公司,窝窝网工作任务#xff1a;PDF文档中有资料来源这一行#xff0c;比如#xff1a;
资料来源#xff1a;moomoo tech、The Information、Bloomberg、Reuters#xff0c;浙商证券研究所
数据来源#xff1a;CSDN、浙商证券研究所
数据来源#xff1a;CSDN、arXiv、浙商证券研…工作任务PDF文档中有资料来源这一行比如
资料来源moomoo tech、The Information、Bloomberg、Reuters浙商证券研究所
数据来源CSDN、浙商证券研究所
数据来源CSDN、arXiv、浙商证券研究所
数据来源秘塔AI搜索官网SimilarwebEpic Connector东吴证券研究所
来源Github《面向深度学习的多模态融合技术研究综述》《Make-a-video: text-to-video generation without text-video data》浙商证券研究所
来源GithubOSCHINA浙商证券研究所
希望提取文件中几百个PDF文档中的资料来源 在kimi中输入提示词
你是一个Python编程专家完成一个脚本编写任务具体步骤如下
打开文件夹F:\研报下载\AIGC研报
用pdfplumber 库读取文件夹中所有的PDF文件
遍历PDF文档中的每行文本查找以“资料来源”开头、以“数据来源”开头和以“来源”开头的这一行文本内容
保存这些文本内容到文件夹“F:\AI自媒体内容\AI行业数据分析”下的Excel文件中
注意
每一步都要输出信息
处理异常和错误确保你的代码能够处理可能遇到的异常如文件损坏、权限问题或格式不一致等。 Kimi生成的源代码
import os
import re
import pdfplumber
from openpyxl import Workbook
# 定义要搜索的关键词
keywords [资料来源, 数据来源, 来源]
# 定义源文件夹和目标文件夹路径
source_folder rF:\研报下载\AIGC研报
target_folder rF:\AI自媒体内容\AI行业数据分析
# 确保目标文件夹存在
os.makedirs(target_folder, exist_okTrue)
# 创建Excel工作簿
workbook Workbook()
sheet workbook.active
# 遍历源文件夹中的所有文件
for filename in os.listdir(source_folder):
if filename.endswith(.pdf):
print(f正在处理文件{filename})
# 构建完整的文件路径
file_path os.path.join(source_folder, filename)
try:
# 使用pdfplumber打开PDF文件
with pdfplumber.open(file_path) as pdf:
# 遍历PDF文档中的每页
for page in pdf.pages:
text page.extract_text()
# 使用正则表达式搜索关键词
for keyword in keywords:
pattern re.compile(re.escape(keyword) .*)
matches pattern.findall(text)
for match in matches:
print(f找到匹配的文本{match})
# 将找到的文本写入Excel
sheet.append([match])
except Exception as e:
print(f处理文件{filename}时发生错误{e})
# 保存Excel文件
excel_file_path os.path.join(target_folder, AI_Industry_Analysis.xlsx)
workbook.save(excel_file_path)
print(f所有数据已保存到{excel_file_path})