当前位置: 首页 > news >正文

南京那些公司做网站asp 微信网站

南京那些公司做网站,asp 微信网站,大连网络备案做网站,刚做的网站怎么快速搜索到elasticsearch hanlp插件远程词典配置 背景远程词典配置新增远程词典文件修改hanlp-remote.xml自动加载词典 远程词典测试 背景 在使用elasticsearch的过程中#xff0c;总会遇到与分词相关的需求#xff0c;这里将针对常用的elasticsearch hanlp#xff08;后面统称为 es … elasticsearch hanlp插件远程词典配置 背景远程词典配置新增远程词典文件修改hanlp-remote.xml自动加载词典 远程词典测试 背景 在使用elasticsearch的过程中总会遇到与分词相关的需求这里将针对常用的elasticsearch hanlp后面统称为 es hanlp分词插件进行讲解演示配置自定义业务字典提高es hanlp分词的准确性同时也提高查询效率。关于es hanlp通过更改关键词文件配置自定义词典的内容可以参考文章https://developer.aliyun.com/article/1163240本文主要是讲述另外一种自定义词典内容的操作配置远程词典。 远程词典配置 新增远程词典文件 es hanlp关于远程词典的文件配置方式参考官方文档即可文档地址https://github.com/KennFalcon/elasticsearch-analysis-hanlp/tree/master这里我把远程词典文件放在我们的腾讯云上面主要是因为es hanlp 在加载远程词典文件时需要通过response header判断Last-Modified和 ETag来确定远程文件是否有变动进而决定是否需要加载更新而腾讯云返回的文件是直接带有Last-Modified和 ETag这里可以看一下我的文件响应的response 符合官方文档要求的远程词典文件返回两个头部(header)一个是 Last-Modified一个是 ETag 说明这里说明一下如果这两个属性都没有变化的话es hanlp插件是不会热更新关键词的 另外如果大家想要使用腾讯云COS作为远程词典文件存放位置的话需要注意必须要用文件的原始请求地址不能用有CDN缓存的地址这样才能达到1分钟热更新的目的。比如 http://存储桶名.cos.ap-beijing.myqcloud.com/ei-dongao/mywords.txt远程词典文件准备好之后就可以修改es hanlp 远程配置文件hanlp-remote.xml了 修改hanlp-remote.xml 找到hanlp-remote.xml配置文件路径ES_HOME/config/analysis-hanlp 修改hanlp-remote.xml增加远程词典配置 这里配置好远程词典路径之后需要重启es因为改动了配置文件嘛后续更改远程配置文件的内容时就无需重启es了因为你没有改动es的配置文件。 自动加载词典 配置完成远程词典内容后无需重启es等待1分钟后词典自动加载。 [2023-04-24T13:29:16,636][INFO ][c.h.d.ExtMonitor ] [ei-test-es-node190] hanlp custom dictionary isnt modified, so no need reload[2023-04-24T13:29:17,163][INFO ][c.h.d.RemoteMonitor ] [ei-test-es-node190] load hanlp remote custom dict path: http://存储桶名.cos.ap-beijing.myqcloud.com/ei-dongao/mywords.txt[2023-04-24T13:29:17,623][INFO ][c.h.d.RemoteMonitor ] [ei-test-es-node190] finish load hanlp remote custom dict path: http://存储桶名.cos.ap-beijing.myqcloud.com/ei-dongao/mywords.txt比如我在远程词典中增加关键词 腾讯云文件管理加载完成之后我们可以开始测试是否生效。 注多台es服务器配置时需保证指向相同的远程词典路径保证加载关键词文件的一致 远程词典测试 在远程词典测试之前我们需要对我们的索引开启远程词典这需要配置自定义分词并开启远程词典加载开关es hanlp 自定义分词配置参考博文https://developer.aliyun.com/article/1163285 1.当我们使用hanlp默认词典配置的时候我们测试 POST _analyze{text: 初级会计指南在这里,analyzer: hanlp}返回结果是 {tokens : [{token : 初级,start_offset : 0,end_offset : 2,type : b,position : 0},{token : 会计,start_offset : 2,end_offset : 4,type : nnt,position : 1},{token : 指南,start_offset : 4,end_offset : 6,type : n,position : 2},{token : 在,start_offset : 6,end_offset : 7,type : p,position : 3},{token : 这里,start_offset : 7,end_offset : 9,type : rzs,position : 4}]}2.我们使用自定义分词配置开启远程词典 PUT test{settings: {analysis: {analyzer: {hanlp_dongao: {tokenizer: hanlp_analyzer}},tokenizer: {hanlp_analyzer: {type: hanlp,enable_stop_dictionary: true,enable_custom_config:true,enable_remote_dict:true}}}}} 然后配置关键词 初级会计等待远程词典加载完成后再次用开启了远程词典的索引测试 加载完成之后再次验证 POST test/_analyze{text: 初级会计指南在这里,analyzer: hanlp_dongao}分词结果 {tokens : [{token : 初级会计,start_offset : 0,end_offset : 4,type : n,position : 0},{token : 指南,start_offset : 4,end_offset : 6,type : n,position : 1}]}可以看到已经将【初级会计】分成一个词了。 这里有一点需要说明新增加关键词的话热加载完成之后es分词就可以按照增加的关键词进行分词但是删除关键词的话还是会按之前增加的关键词进行分词可能是es hanlp插件有缓存机制也可能是插件版本的问题我用的是匹配es版本6.7.1的hanlp插件最新的版本可能不会存在这个问题但是鉴于升级es改动较大为了不影响业务只能采用当下版本对应的hanlp插件。这一点在使用es hanlp插件时需要考虑在内。
http://www.dnsts.com.cn/news/30978.html

相关文章:

  • 西宁seo网站怎么把自己的网站推广
  • 做海报 画册的素材网站深圳SEO网站建设优化
  • 网站如何编辑版式设计排版
  • 化妆品网站建设规划书范文wordpress 用户上传文件
  • 邢台市网站建设2024年重启核酸
  • 郑州网站seo费用桂林网萌科技有限公司
  • 搭建wap网站中小企业名录库
  • ppt制作网站高新区建网站外包
  • 做相同性质的网站算侵权吗专业网页制作什么价格
  • 宿迁城乡建设监督网站中国航发网上商城废旧物资
  • asp网站开发 基础wordpress页眉logo链接
  • 建设网站龙华谷歌浏览器手机版下载
  • 黑白色调网站中国建设银行网站的机构
  • 提供信息门户网站搭建长沙网页美工培训
  • 佛山网站优化排名推广wordpress主题绕过激活码
  • 网站建设流程书籍重庆建一个网站
  • 做网站6000左右的电脑二手房中介网站模板
  • 弹幕网站开发难么外贸网站啥需要掌握在自己手里
  • 可以做调查的网站在哪个网站上做实验仪器比较好
  • 上海域名icp海网站建设劳动人事争议仲裁网站建设
  • 迅 网站 模板谷歌外贸网站seo怎么做
  • 大型网站制作怎么样如何设计中文网站
  • node.js做企业网站广州网道营销广告有限公司
  • 做网站的基本功能建站公司最新报价
  • wordpress自定义栏目模板谷歌搜索引擎优化
  • 北京网站制作官网云主机服务器租用
  • 网站建设的后期服务要包括什么软件商会联盟网站建设方案
  • 2017网站设计趋势做一手房用什么网站
  • 我的网站是面向全国的选哪个公司的服务器比较好开原网站制作
  • 一个网站通常包含多个网页建设项目环保备案登记网站