当前位置: 首页 > news >正文

西安网站建设那家强深圳吧

西安网站建设那家强,深圳吧,建设银行官方网首页,网站制作哪家公司好分类目录#xff1a;《自然语言处理从入门到应用》总目录 当我们需要处理长文本时#xff0c;有必要将文本分割成块。虽然这听起来很简单#xff0c;但这里存在很多潜在的复杂性。理想情况下#xff0c;我们希望将语义相关的文本块保持在一起#xff0c;但什么是语义…分类目录《自然语言处理从入门到应用》总目录 当我们需要处理长文本时有必要将文本分割成块。虽然这听起来很简单但这里存在很多潜在的复杂性。理想情况下我们希望将语义相关的文本块保持在一起但什么是语义相关可能取决于文本的类型。本文就展示了几种实现这一目标的方法。 在高层次上文本分割器的工作原理如下 将文本分割成小的、语义有意义的块通常是句子。开始将这些小块组合成较大的块直到达到一定的大小由某个函数衡量。一旦达到该大小将该块作为自己的文本片段然后开始创建一个具有一定重叠的新文本块以保持块之间的上下文。 这意味着有两个不同的方向可以定制文本分割器 文本如何被分割块的大小如何衡量 默认推荐的文本分割器是RecursiveCharacterTextSplitter。该文本分割器接受一个字符列表作为参数。它尝试根据第一个字符进行分块但如果有任何分块过大它将继续尝试下一个字符依此类推。默认情况下它尝试进行分割的字符是\n\n、\n等。除了控制分割的字符之外我们还可以控制其他一些内容 length_function如何计算分块的长度。默认只计算字符数但通常在这里传递一个标记计数器。chunk_size分块的最大大小由长度函数测量。chunk_overlap分块之间的最大重叠量。保持一些重叠可以保持分块之间的连续性例如使用滑动窗口。add_start_index是否在元数据中包含每个分块在原始文档中的起始位置。 # This is a long document we can split up. with open(../../state_of_the_union.txt) as f:state_of_the_union f.read() from langchain.text_splitter import RecursiveCharacterTextSplitter text_splitter RecursiveCharacterTextSplitter(# Set a really small chunk size, just to show.chunk_size 100,chunk_overlap 20,length_function len,add_start_index True, ) texts text_splitter.create_documents([state_of_the_union]) print(texts[0]) print(texts[1])输出 page_contentMadam Speaker, Madam Vice President, our First Lady and Second Gentleman. Members of Congress and metadata{start_index: 0} page_contentof Congress and the Cabinet. Justices of the Supreme Court. My fellow Americans. metadata{start_index: 82}我们还可以使用文本分割器分割下列类型的文件 CharacterHTMLLatexMarkdownNLTKPythonRecursive CharacterspaCytiktokenOpenAI 参考文献 [1] LangChain官方网站https://www.langchain.com/ [2] LangChain ️ 中文网跟着LangChain一起学LLM/GPT开发https://www.langchain.com.cn/ [3] LangChain中文网 - LangChain 是一个用于开发由语言模型驱动的应用程序的框架http://www.cnlangchain.com/
http://www.dnsts.com.cn/news/274716.html

相关文章:

  • 设计师网站十大网站推荐wordpress 自动安装 插件怎么用
  • 网站开发公对公转账合同模板普陀做网站
  • 宁波网站建设企业网站制作昆山建设企业网站
  • 盐城企业网站建设asp网站建设制作
  • perl php 网站开发花都建站
  • 网站建设部门管理制度商贸公司网站建设极致发烧
  • 个人摄影网站模板保定北京网站建设
  • 欧美网站欣赏最近的重要新闻
  • 滕州手机网站建设电影网站开发现状
  • 网站设计流程软件做相册本哪个网站好用吗
  • 微商城网站建设公司的价格wordpress 2 s
  • 电商网站开发面试题Wordpress找不到外观选项
  • 动态ip建网站在线制作免费生成图片logo
  • 水冶那里有做网站的免费个人微网站模板
  • 个人做收费网站网站建设常熟
  • 网站改版 百度收录腾讯有做淘宝客网站吗
  • 管理网站建设源代码程序焊工培训技术学校
  • 做网站能用本地的数据库嘛海报设计在线生成
  • 网站建设规划方案模板docker wordpress
  • 青岛网站建设推进wordpress导购页面
  • python兼职网站开发万能素材库
  • 黄页88登录重庆百度推广seo
  • 网站模糊效果移动端网站推广
  • 哪个网站做攻略比较好wordpress后台wp-admin目录加密
  • 找人做网站 多少钱半透明主题 wordpress
  • 商会信息平台网站建设方案tomcat做网站属于什么
  • 丝芙兰网站做的好差大学生简历制作网站
  • 泉州市建设工程质量监督站网站网站开发详情
  • 简述一下网站的设计流程河北省工程建设信息网
  • 网站空间到期影响网站建设电话销售开场白