当前位置: 首页 > news >正文

如何进行营销型企业网站的优化现在开发个网站多少钱

如何进行营销型企业网站的优化,现在开发个网站多少钱,搭建平台的高级说法,wordpress 缓存时间文章目录 一、整体思路二、代码三、小结Reference 一、整体思路 非常简单的一个v1版本 利用langchain和pdfminer切分pdf文档为k块#xff0c;设置overlap等参数先利用prompt1对每个chunk文本块进行摘要生成#xff0c;然后利用prompt2对多个摘要进行连贯组合/增删模型可以使… 文章目录 一、整体思路二、代码三、小结Reference 一、整体思路 非常简单的一个v1版本 利用langchain和pdfminer切分pdf文档为k块设置overlap等参数先利用prompt1对每个chunk文本块进行摘要生成然后利用prompt2对多个摘要进行连贯组合/增删模型可以使用chatglm2-6b或其他大模型 评测标准信息是否涵盖pdf主要主题、分点和pdf一二级标题比大体是否一致、摘要是否连贯、通顺 Prompt1分段总结 prompt1 你是一个摘要生成器。请根据下文进行分段总结,请注意1.输入数据为从pdf读入的文本一句话可能存在跨越多行;2.要求每段内容不丢失主要信息, 每段的字数在50字左右;3.每段生成的摘要开头一定不要含有第几段的前缀文字;4.对下文进行分段总结:Prompt2内容整合 prompt2 你是一个文章内容整合器请注意1.输入数据中含有多个已经总结好的段落;2.有的段落开头有这是第几段或者摘要的字样;2.请将每段信息进行优化,使得每段之间显得更加连贯,且保留每段的大部分信息;4.输入的的文章如下二、代码 #!/usr/bin/env python # -*- coding: utf-8 -*-Author : andy Date : 2023/8/23 10:09 Contact: 864934027qq.com File : chunk_summary.pyimport json from langchain.text_splitter import CharacterTextSplitter from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LAParams, LTTextBoxHorizontal from pdfminer.pdfpage import PDFPage import os import pandas as pddef split_document_by_page(pdf_path):resource_manager PDFResourceManager()codec utf-8laparams LAParams()device PDFPageAggregator(resource_manager, laparamslaparams)interpreter PDFPageInterpreter(resource_manager, device)split_pages []with open(pdf_path, rb) as file:for page in PDFPage.get_pages(file):interpreter.process_page(page)layout device.get_result()text_blocks []for element in layout:if isinstance(element, LTTextBoxHorizontal):text element.get_text().strip()text_blocks.append(text)page_text \n.join(text_blocks)split_pages.append(page_text)return split_pagesdef callChatGLM6B(prompt):passdef summary(pdf_path, num):# 使用示例# pdf_path /Users/guomiansheng/Desktop/LLM/LangChain-ChatLLM/pdf_test.pdf# pdf_path example.pdf # 替换为你的 PDF 文件路径one_dict {}pages split_document_by_page(pdf_path)add_page_data page_ans print(f这是第{num}个pdf\n)for i, page_text in enumerate(pages):# page_ans page_ans f这是第{i}页pdf:\n page_textpage_ans page_ans page_textprint(fPage {i 1}:, 当前page的字数:, len(page_text))print(page_text)print(--------------------)# 文本分片text_splitter CharacterTextSplitter(separator\n,chunk_size1500,chunk_overlap150,length_functionlen)chunks text_splitter.split_text(page_ans)# chunksprompt0 请根据下文进行分段总结, 要求每段内容不丢失主要信息, 每段的字数在50字左右:prompt 你是一个摘要生成器。请根据下文进行分段总结,请注意1.输入数据为从pdf读入的文本一句话可能存在跨越多行;2.要求每段内容不丢失主要信息, 每段的字数在50字左右;3.每段生成的摘要开头一定不要含有第几段的前缀文字;4.对下文进行分段总结:prompt3 你是一个文章内容整合器请注意1.输入数据中含有多个已经总结好的段落;2.有的段落开头有这是第几段或者摘要的字样;2.请将每段信息进行优化,使得每段之间显得更加连贯,且保留每段的大部分信息;4.输入的的文章如下ans for i in range(len(chunks)):# response callChatGLM66B(prompt chunks[i])response callChatGLM6B(prompt chunks[i])if data not in response.keys():print(response.keys(), \n)print(this chunk has problem\n)continuetemp_ans response[data][choices][0][content] \nans temp_ansans ans.replace(\\n, \n)# save txt# save_path /Users/guomiansheng/Desktop/LLM/LangChain-ChatLLM/save_6b_ans3_allsave_path /Users/guomiansheng/Desktop/LLM/LangChain-ChatLLM/gpt_dictionwith open(save_path /ans str(num) .txt, w, encodingutf-8) as file:file.write(ans)print(ans:\n, ans)one_dict {input: page_ans, output: ans}return ans, one_dictdef main():# find 10 filedef find_files_with_prefix(folder_path, prefix):matching_files []for root, dirs, files in os.walk(folder_path):for file in files:if file.startswith(prefix) and file.endswith(.pdf):matching_files.append(os.path.join(root, file))return matching_files# 示例用法folder_path /Users/guomiansheng/Desktop/LLM/LangChain-ChatLLM/pdf_data_all # 替换为你的大文件夹路径# prefixes [pdf_0, pdf_1, pdf_2] # 替换为你想要匹配的前缀列表prefixes []for i in range(10):prefixes.append(pdf_ str(i))matching_files []for prefix in prefixes:matching_files.extend(find_files_with_prefix(folder_path, prefix))# del matching_files[0]# del matching_files[0]ans_lst []for i in range(len(matching_files)):one_ans, one_dict summary(matching_files[i], i)ans_lst.append(one_dict)# pdf_path /Users/guomiansheng/Desktop/LLM/LangChain-ChatLLM/pdf_test.pdf# summary(pdf_path)return ans_lstdef preprocess_data(ans_lst):json_path /Users/guomiansheng/Desktop/LLM/LangChain-ChatLLM/summary_ft_data.jsonwith open(json_path, w, encodingutf-8) as fout:for dct in ans_lst:line json.dumps(dct, ensure_asciiFalse)fout.write(line)fout.write(\n)def read_data():json_path /Users/guomiansheng/Desktop/LLM/LangChain-ChatLLM/summary_ft_data.jsonwith open(json_path, r, encodingsutf-8) as f:lst [json.loads(line) for line in f]df pd.json_normalize(lst)if __name__ __main__:ans_lst main()preprocess_data(ans_lst)随便找了个介绍某个课程内容的pdf结果如下概括了课程的三天主题内容同时也将pdf中的数据湖理念等概念进行分点概括 教育即将推出名为“数据湖大数据的下一场变革”的超强干货课程。该课程分为三天第一天的主题是“数据湖如何助力企业大数据中台架构的升级”内容包括数据处理流程和大数据平台架构以及数据湖和数据仓库的理念对比和应用第二天的主题是“基于 Apache Hudi 构建企业级数据湖”将介绍三个开源数据湖技术框架比较Apache Hudi 的核心概念和功能以及基于 Hudi 构建企业级数据湖的方法第三天的主题是“基于 Apache Iceberg 打造新一代数据湖”将深入探讨 Apache Iceberg 的核心思想、特性和实现细节以及如何基于 Iceberg 构建数据湖分析系统。该课程由前凤凰金融大数据部门负责人王端阳主讲他具有多年的大数据架构经验擅长 Hadoop、Spark、Storm、Flink 等大数据生态技术授课特点为拟物化编程 强案例支撑旨在帮助学生快速建立完备的大数据生态知识体系。课程将在今晚 20:00 准时开课。 1.开放性Lakehouse 使用开放式和标准化的存储格式提供 API 供各类工具和引擎直接访问数据。 2.数据类型支持Lakehouse 支持从非结构化数据到结构化数据的多种数据类型。 3.BI 支持Lakehouse 可直接在源数据上使用 BI 工具。 4.工作负载支持Lakehouse 支持数据科学、机器学习以及 SQL 和分析等多种工作负载。 5.模式实施和治理Lakehouse 有 Schema enforcement and governance 功能未来能更好的管理元数据schema 管理和治理。 6.事务支持Lakehouse 支持 ACID 事务确保了多方并发读写数据时的一致性问题。 7.端到端流Lakehouse 需要一个增量数据处理框架例如 Apache Hudi。 8.数据湖和数据仓库对比数据湖采用读时模式满足上层业务的高效分析需求且无成本修改 schema。 9.数据湖落地方案包括基于 Hadoop 生态的大数据方案基于云平台数据湖方案基于商业产品的数据湖方案。 10.数据湖助力数仓解决痛点数据湖可以解决离线数仓和实时数仓的痛点问题提高数据处理效率。 11.数据湖帮助企业大数据中台升级数据湖可以实现底层存储标准统一化构建实时化标准层提高数据存储的安全性、全面性和可回溯性。 12.大数据中台实时数据建设要求开源数据湖架构 Day02 基于 Apache Hudi 构建企业级数据湖。三、小结 之前存在的问题生成重复、杜撰了事件中的时间、截断现象、每个chunk文本块之间的摘要不太连贯等优化点使用pdfminer和Langchain切分chunk文本块对文本块进行摘要生成然后将分块的摘要结合prompt2进行内容整合使得语句连贯并且控制字数top_p0.5 temperature0.8等后续可继续优化的点使用streamlist提取pdf中的表格对象内容、使用篇章分析discourse parsing更加细粒度地切分文档等 Reference [1] 基于LLM向量库的文档对话痛点及解决方案 [2] LangChain - 打造自己的GPT二simple-chatpdf [3] 徒手使用LangChain搭建一个ChatGPT PDF知识库 [4] LangChainChatGPT三分钟实现基于pdf等文档问答应用 [5] pdfminer: https://euske.github.io/pdfminer/ [6] PythonStreamlit在网页中提取PDF中文字、表格对象
http://www.dnsts.com.cn/news/65997.html

相关文章:

  • 做网站是怎么挣钱的管理咨询收费标准
  • 网站案例分析湖南企业安全文化宣传标语
  • 展馆设计网站推荐重庆关键词自动排名
  • dreamware做网站首页网站案例介绍
  • 未来做那些网站能致富怎么做qq业务网站
  • 广州网站到首页排名张家港网站推广
  • 12306网站建设团队wordpress getshell
  • o2o网站设计公司住房和城乡建设部门户
  • 美容手机网站模板合肥关键词网站排名
  • 江门制作公司网站线上拓客渠道有哪些
  • 上蔡网站建设用wordpress做官网
  • 网站开发工作介绍深圳制作网页公司
  • 手机回收站.湖南省建设厅规范网站
  • 河北 石家庄 网站建设建设银行的网站是什么字体
  • 建立 网站服务器西安 网站 高端 公司
  • 购物网站用那个软件做学做投资网站
  • 拖拽式制作网站可以做会员吗网站自助建设
  • 芜湖有哪些招聘网站小程序需要租服务器吗
  • 化妆品网站设计方案互联网个人用户网站
  • 环球贸易网站网络游戏开发成本
  • 长沙网站建设q.479185700強网络推广的定义
  • 开发app的网站有哪些网站建设是怎么挣钱
  • 有什么做酒和水果茶教程的网站免费安装app
  • 浙江建设厅网站怎么进不去深圳罗湖企业网站优化
  • 海南做网站制作简易网站模板
  • 网站开发商城1688网站开发工具排名
  • 福州最好的网站建设网络公司为什么要创建网站子目录
  • 郑州建站软件网站编辑年终总结
  • 公司网站 免费模板电影影视网站模板免费下载
  • 企业营销网站建设步骤wordpress cms主题 怎么用