当前位置: 首页 > news >正文

群团组织网站建设wordpress 数据库连接文件

群团组织网站建设,wordpress 数据库连接文件,云服务器 做网站,做企业网站必须要座机吗最近总结修改了下预处理方法#xff0c;记录下 首先download需要的依赖 pip install pyenchantpip install nltk pyenchant 是用来检测拼写正确的#xff0c;如果你的文本里面可能包含非正确拼写的单词#xff0c;那就忽略它#xff0c;nltk用来做分词的。 python -m nlt… 最近总结修改了下预处理方法记录下 首先download需要的依赖 pip install pyenchantpip install nltk pyenchant 是用来检测拼写正确的如果你的文本里面可能包含非正确拼写的单词那就忽略它nltk用来做分词的。 python -m nltk.downloader punkt python -m nltk.downloader stopwords from nltk.corpus import stopwords import nltk import enchant import redef is_spelled_correctly(word, languageen_US):spell_checker enchant.Dict(language)return spell_checker.check(word)def preprocess_text(text):text re.sub(r\W, ,re.sub(r[0-9], , text.replace(-, ).replace(_, )))wordsnltk.word_tokenize(text)stop_words set(stopwords.words(english))words [item for word in words for item in re.findall(r[A-Z][a-z]*|[a-z], word)if is_spelled_correctly(item) and item.lower() not in stop_words]return .join(words).lower()if __name__ __main__:print(preprocess_text(ServiceHandlerId caedbe-85432-xssc-dsdabffdddbea An exception of some microservice TargetDownService occurred and was test #/*-sss )) #service handler id exception target service occurred test 这里最后再转小写是因为防止ServiceHandlerId这种连续的单词链接成的字符串被拼写检查剔除只有保持驼峰情况下才能用 re.findall(r[A-Z][a-z]*|[a-z], word) 成功把他分成单独的单词所以最后再处理大小写。 改进方案1  之后测试的时候发现数据量一大他就很慢后面优化了一下速度大大提升了 from nltk.corpus import stopwords import nltk import enchant import respell_checker enchant.Dict(language)def memoize(func):cache {}def wrapper(*args):if args not in cache:cache[args] func(*args)return cache[args]return wrappermemoize def check_spelling(word):return spell_checker.check(word)def preprocess_text(text):text re.sub(r\W, ,re.sub(r[0-9], , text.replace(-, ).replace(_, )))wordsnltk.word_tokenize(text)stop_words set(stopwords.words(english))words [item for word in words for item in re.findall(r[A-Z][a-z]*|[a-z], word)if check_spelling(item) and item.lower() not in stop_words]return .join(words).lower()if __name__ __main__:print(preprocess_text(ServiceHandlerId caedbe-85432-xssc-dsdabffdddbea An exception of some microservice TargetDownService occurred and was test #/*-sss )) #service handler id exception target service occurred test这里面使用了memoization 技术它是一种将函数调用和结果存储在一个字典中的优化技术。我这里用来缓存单词的拼写检查结果。 这样之后数据量大了之后速度依然不会太慢了。 改进方案2 使用spellchecker 这个的速度就比enchant 快的多 pip install pyspellchecker spell SpellChecker() def preprocess_text(text):text re.sub(r\W, ,re.sub(r[0-9], , text.replace(-, ).replace(_, )))wordsnltk.word_tokenize(text)stop_words set(stopwords.words(english))words [item for word in words for item in spell.known(re.findall(r[A-Z][a-z]*|[a-z], word)) if item.lower() not in stop_words]return .join(words).lower() 区别  SpellChecker是一个基于编辑距离的拼写检查库它可以在内存中加载一个词典并对给定的单词列表进行快速的拼写检查。enchant是一个基于C语言的拼写检查库它可以使用不同的后端如aspell, hunspell, ispell等来检查单词是否存在于词典中。SpellChecker比enchant更快尤其是当单词列表很大时。
http://www.dnsts.com.cn/news/124939.html

相关文章:

  • 沈阳网站建设信息微网站的建设第一步是什么
  • 网站建设和维护视频做分色找工作网站
  • 源美网站建设开发一个电商网站
  • 网站建设应该怎么做医疗ppt模板下载免费完整版
  • 在线设计网站排名网站建设克隆
  • 做房产网站有哪些wordpress视频主题汉化
  • 网站设计师是什么网站备案 是域名还是空间
  • 云南seo简单整站优化wordpress模板yunnut
  • 做网站每一年都要交钱吗校园网站开发的需求和分析
  • 眉山 网站开发滨江区建设局网站
  • 网站备案 企业备案站长工具查询官网
  • 购物网站怎么做代码龙华在深圳算什么档次
  • 天津百度搜索网站排名百度seo公司哪家强一点
  • 深一互联网站建设怎样长沙部分风险区域调整
  • 杭州外贸网站建设网页设计免费模板参考网页
  • 重庆给商家企业做网站免费个人博客注册
  • 自己有域名要怎么制作网站广州外贸公司联系方式
  • 糖果网站建设策划书模板网盘怎么做电影网站
  • wordpress设置投稿厦门seo网站优化
  • 浦东企业网站建设app推广软件有哪些
  • 平阴县建设工程网站网页游戏平台十大排名
  • 爱站网综合查询装修设计公司网站排名
  • 做网站卖狗挣钱吗自己如何做网站关键词排名
  • 电脑突然多了windows优化大师宁波seo排名费用
  • 建网站找汉狮做的好的微商城网站
  • 帝国网站后台编辑器没有了用什么软件做网站原型
  • 昆山做网站找文博通过网站建设提高企业的
  • 大庆市住房与城乡建设局网站php网站建设的公司
  • 深圳市营销型网站福州小程序定制
  • 汕头网站建设报价海洋网站建设