当前位置: 首页 > news >正文

上海猎头公司电话seo搜索引擎优化视频

上海猎头公司电话,seo搜索引擎优化视频,wordpress教程 gofair,广西模板十大名牌排名榜分类目录#xff1a;《自然语言处理从入门到应用》总目录 当我们需要处理长文本时#xff0c;有必要将文本分割成块。虽然这听起来很简单#xff0c;但这里存在很多潜在的复杂性。理想情况下#xff0c;我们希望将语义相关的文本块保持在一起#xff0c;但什么是语义…分类目录《自然语言处理从入门到应用》总目录 当我们需要处理长文本时有必要将文本分割成块。虽然这听起来很简单但这里存在很多潜在的复杂性。理想情况下我们希望将语义相关的文本块保持在一起但什么是语义相关可能取决于文本的类型。本文就展示了几种实现这一目标的方法。 在高层次上文本分割器的工作原理如下 将文本分割成小的、语义有意义的块通常是句子。开始将这些小块组合成较大的块直到达到一定的大小由某个函数衡量。一旦达到该大小将该块作为自己的文本片段然后开始创建一个具有一定重叠的新文本块以保持块之间的上下文。 这意味着有两个不同的方向可以定制文本分割器 文本如何被分割块的大小如何衡量 默认推荐的文本分割器是RecursiveCharacterTextSplitter。该文本分割器接受一个字符列表作为参数。它尝试根据第一个字符进行分块但如果有任何分块过大它将继续尝试下一个字符依此类推。默认情况下它尝试进行分割的字符是\n\n、\n等。除了控制分割的字符之外我们还可以控制其他一些内容 length_function如何计算分块的长度。默认只计算字符数但通常在这里传递一个标记计数器。chunk_size分块的最大大小由长度函数测量。chunk_overlap分块之间的最大重叠量。保持一些重叠可以保持分块之间的连续性例如使用滑动窗口。add_start_index是否在元数据中包含每个分块在原始文档中的起始位置。 # This is a long document we can split up. with open(../../state_of_the_union.txt) as f:state_of_the_union f.read() from langchain.text_splitter import RecursiveCharacterTextSplitter text_splitter RecursiveCharacterTextSplitter(# Set a really small chunk size, just to show.chunk_size 100,chunk_overlap 20,length_function len,add_start_index True, ) texts text_splitter.create_documents([state_of_the_union]) print(texts[0]) print(texts[1])输出 page_contentMadam Speaker, Madam Vice President, our First Lady and Second Gentleman. Members of Congress and metadata{start_index: 0} page_contentof Congress and the Cabinet. Justices of the Supreme Court. My fellow Americans. metadata{start_index: 82}我们还可以使用文本分割器分割下列类型的文件 CharacterHTMLLatexMarkdownNLTKPythonRecursive CharacterspaCytiktokenOpenAI 参考文献 [1] LangChain官方网站https://www.langchain.com/ [2] LangChain ️ 中文网跟着LangChain一起学LLM/GPT开发https://www.langchain.com.cn/ [3] LangChain中文网 - LangChain 是一个用于开发由语言模型驱动的应用程序的框架http://www.cnlangchain.com/
http://www.dnsts.com.cn/news/58482.html

相关文章:

  • 用dedecms织梦做中英文网站白金域名的特点
  • 中煤第一建设公司网站科技公司主要经营什么
  • 建站推广文案山西网站建设 哪家好
  • 玩具网站开发背景连江福州网站建设
  • 网站建设v5star进销存管理软件哪个好
  • 网站设计的优点wordpress描述代码
  • 企业网站的建设原则是什么?梁志天室内设计公司官网
  • 平面设计素材网站大全北京网站建站推
  • 汉口网站建设制作洛阳专业网站设计开发制作建站公司
  • 微信客户端网站建设m99ww094cn 苍井空做的网站
  • 网站不收录排名会降吗苏中建设南京区域公司
  • 建设通官方网站正在为您跳转中
  • 中国建设部网站四库平台拼图式网站开发
  • 如何搭建微网站微信推广网站
  • 网站建设营销口号做网站写的代号好跟不好的区别
  • 做餐厅网站的需求分析报告阜新市建设学校管方网站
  • 肥西县城乡建设局网站wordpress 3.9 wp_editor not work
  • 高端网站建设好处网页界面设计中交互设计是指
  • 花都网站建设价格企业怎么建立网站
  • 沈阳地区精神文明建设网站计算机专业主要学什么科目
  • 网站制作价格表网站没有织梦后台
  • 大山子网站建设百度小说风云榜排名
  • 郑州网站高端设计网站的数据库选择
  • 哪些大型网站用python做的网站上做旅游卖家要学什么条件
  • 网站建设七点网站浏览量提升
  • 微网站平台二级域名网站可以做关键词优化吗
  • 武昌网站建设制作外贸电商网站模板
  • 汽车网站建设的基本功能网站建设公司华网天
  • 台州网站建设哪家便宜山东电商网站建设
  • 如何自己做网站网络营销师在哪里报名考试