当前位置: 首页 > news >正文

房地产销售平台网站建设腾讯街景地图全景在线

房地产销售平台网站建设,腾讯街景地图全景在线,网站优化怎么做,穷游网站 做行程 封面目录 1.中文分词 2.词典分词 #xff08;1#xff09;词的定义 #xff08;2#xff09;词典性质——齐夫定律 #xff08;3#xff09;词典 #xff08;4#xff09;加载词典 #xff08;5#xff09;hanlp词典路径 1.中文分词 中文分词#xff1a;指的是将一…目录 1.中文分词 2.词典分词 1词的定义 2词典性质——齐夫定律 3词典 4加载词典 5hanlp词典路径 1.中文分词 中文分词指的是将一段文本拆分为一系列单词的过程这些单词顺序拼接后等于原文本。中文分词算法大致分为基于词典规则与基于机器学习这两大派。词典分词是最简单、最常见的分词算法仅需一部词典和一套查词典的规则即可。给定一部词典词典分词就是一个确定的查词和输出的规则系统。 2.词典分词 1词的定义 在基于词典的中文分词中词的定义要现实得多词典中的字符串就是词。根据此定义词典之外的字符串就不是词了。这个推论或许不符合读者的期望但这就是词典分词故有的弱点。事实上语言中的词汇数量是无穷的无法用任何词典完整收录。 2词典性质——齐夫定律 齐夫定律一个单词的词频与它的词频排名成反比。就是说虽然存在很多生词但生词的词频较小趋近于0平时很难碰到。至少在常见的单词的切分上可以放心地试一试词典分词。 3词典 互联网上有许多公开的中文词库比如 搜狗实验室发布的互联网词库SogouW,其中有15万个词条https://www.sogou.com/labs/resource/w.php 清华大学开放中文词库(THUOCL)http://thunlp.org 何晗发布的千万级巨型汉语词库千万级词条http://www.hankcs.com/nlp/corpus/tens-of-millions-of-giant-chinese-word-library-share.html 4加载词典 from pyhanlp import *def load_dictionary():加载HanLP中的mini词库:return: 一个set形式的词库IOUtil JClass(com.hankcs.hanlp.corpus.io.IOUtil) # ①path HanLP.Config.CoreDictionaryPath.replace(.txt, .mini.txt) # ②dic IOUtil.loadDictionary([path]) # ③return set(dic.keySet())if __name__ __main__:dic load_dictionary()print(len(dic))print(list(dic)[0]) JClass 函数是连通Java和Python 的桥梁用来根据Java路径名得到一个Python类。 ①处利用JClass取得了HanLP中的IOUti1工具类②处则取得了HanLP的配置项Config中的词典路径。我们写在配置文件中的条目最终会被读入这个结构中比如配置文件写作CoreDictionaryPathdata/dictionary/CoreNatureDictionary.txt该配置将被读人HanLP.Config.CoreDictionaryPath。这里我们想要加载mini 词典因为其体积更小加载起来更快。于是②处将这个路径替换为mini词典的路径。在③处我们像对待普通Python 工具类一样调用了IOUti1的静态方法 loadDictionary。该方法支持将多个文件读入同一个词典中因此需要传入一个1ist。它返回一个Java Map对象前面提到过我们不关心Map中的值于是我们只取它的键keySet并将其转换为一个Python原生的set 对象。这样接下来的代码就不必考虑与Java的交互Python用户从此回到了自己熟悉的环境中。  5hanlp词典路径 路径为HanLP/data/dictionaray/CoreNatureDictionaray.mini.txt
http://www.dnsts.com.cn/news/113832.html

相关文章:

  • 东莞做外贸网站怎样说服老板做网站
  • 邳州哪家做百度推广网站wordpress音乐主题
  • dw如何制作自己的网站网络优化大师
  • 增城网站公司电话女生学数字媒体技术难吗
  • 怎么用ps做网站首页图片尺寸购物小程序有哪些
  • 宁波公司做企业网站wordpress分类显示
  • 网站开发工具有哪些视频网站建设成本
  • 服装商城的网站策划书使用php做的网站
  • 三站合一的网站怎么做教程查企业联系方式的app软件有哪些
  • 关于网站建设中原创文章的一些想法英文 wordpress淘宝客主题
  • 微信订阅号不认证可以做网站吗国家市场监督局官网
  • 网站设计优化方案什么网站可以做自媒体
  • 简述什么是网站一个公司网站备案
  • 网站开发需求分析主要内容做网站生意不赚钱
  • 网站由哪几部分组成合肥网站设计机构
  • 广东建设信息公开网站织梦网站后台模版更换
  • 做网站的宣传语中专电子商务专业就业方向
  • 河南做网站优化wordpress 主题 数据
  • 新乡网站设计公司扁平化风格网站模板
  • 成都建网站的公司久久建筑网登录
  • 惠州网站建设兼职青岛做外贸网站建设
  • 网站流量是怎么赚钱的兰州起点网站建设公司
  • 如皋做网站的公司从来没做过网站如何做
  • 做企业网站前期需要准备什么资料云主机服务器租用
  • 怎么把网站关掉中国seo第一人
  • 怎呀做网站河南网站托管优化
  • 浪漫网站建设母婴网站建设
  • wordpress写的文章代码显示方式百度关键词优化服务
  • 山西网站的公司学seo可以做网站吗
  • 徐州英文网站seo如何做网站的的关键词