建网站多少,推广引流方法有哪些推广方法,新西兰注册公司做网站,建设微网站的特色文章目录 情感词典中文分词单词向量化技术Word2vecGloVefastText 关键词提取算法 情感词典
英文的情感词典有#xff1a;LIWC, SentiWordNet等 中文的情感词典有#xff1a;NTUSD, 正文褒贬词典TSING, 知网HowNet等
中文分词
中文分词的工具有#xff1a;jieba(核心算法是… 文章目录 情感词典中文分词单词向量化技术Word2vecGloVefastText 关键词提取算法 情感词典
英文的情感词典有LIWC, SentiWordNet等 中文的情感词典有NTUSD, 正文褒贬词典TSING, 知网HowNet等
中文分词
中文分词的工具有jieba(核心算法是张华平的Nshort算法) SnowNLP NLPIR汉语分词系统 THULAC, PkuSeg LTP等
Pkuseg技术能对多个领域进行分词并可以针对不同的领域数据进行个性化的预训练。
LTP提供了动态链接库的接口拥有可视化功能还能以网络服务的形式进行使用。
Jieba分词则由三种分切方式是目前比较接受人欢迎的中文分词工具。
单词向量化技术
Word2vec
Word2vec存在两种最基本的模型连续词袋模型CBOW和跳字模型(Skip-gram)
GloVe
GloVe 指用词表示的全局变量(global vectors for word representation)一个基于全局词频统让的词表征工具。GloVe 是一个新的全局对数双线性回归模型用于无监督学习的单词表示它优于其他模型在单词类比、单词相似性以及命名实体识别任务。与Word2vec 可以进行在线学习GloVe 则需要统计固定语料信息;Word2vec 损失函数实质上是带权重的交叉熵权重固定GloVe的损失函数是最小平方损失函数权重可以做映射变换;GloVe 利用了全局信息使其在训练时收敛更快训练周期较Word2vec 较短且效果更好。
fastText
fastText词向量算法将词表征为向量形式并计算词与词之间相似度作为权重引入图模型。
与GloVe词向量算法相比fastText与Word2vec两种词向量算法的损失计算采用固定权重的交叉熵损失函数并且特征提取均是基于滑动窗口的。
关键词提取算法
TF-IDF, TextRank.
TextRank算法虽然借鉴了PageRank以节点权重排序的思想但二者相比存在不同之处TextRank认为在文本中词与词之间的关联无权重并且每个词并非和文本中所有其他的词都存在所谓的链接。TextRank关键词提取算法的优点是它可以不依赖于大规模的比较数据也不需要进行任何预先的训练和计算。但TextRank算法在进行关键词提取时由于窗口的限制只能考虑到局部词之间的连接关系缺少从全局角度利用词之间的依存特征。