当前位置：首页 > news >正文

做网站成都哪家公司最好百度验证网站

news 2026/1/26 18:01:21

做网站成都哪家公司最好,百度验证网站,项目申报,装修网单1. 什么是词嵌入(Word Embedding) ⾃然语⾔是⼀套⽤来表达含义的复杂系统。在这套系统中#xff0c;词是表义的基本单元。顾名思义#xff0c;词向量是⽤来表⽰词的向量#xff0c;也可被认为是词的特征向量或表征。把词映射为实数域向量的技术也叫词嵌⼊#xff08;word e… 1. 什么是词嵌入(Word Embedding) ⾃然语⾔是⼀套⽤来表达含义的复杂系统。在这套系统中词是表义的基本单元。顾名思义词向量是⽤来表⽰词的向量也可被认为是词的特征向量或表征。把词映射为实数域向量的技术也叫词嵌⼊word embedding。近年来词嵌⼊已逐渐成为⾃然语⾔处理的基础知识。在NLP(自然语言处理)领域文本表示是第一步也是很重要的一步通俗来说就是把人类的语言符号转化为机器能够进行计算的数字因为普通的文本语言机器是看不懂的必须通过转化来表征对应文本。早期是基于规则的方法进行转化而现代的方法是基于统计机器学习的方法。数据决定了机器学习的上限,而算法只是尽可能逼近这个上限在本文中数据指的就是文本表示所以弄懂文本表示的发展历程对于NLP学习者来说是必不可少的。接下来开始我们的发展历程。文本表示分为离散表示和分布式表示 2.离散表示 2.1 One-hot表示 One-hot简称读热向量编码也是特征工程中最常用的方法。其步骤如下构造文本分词后的字典每个分词是一个比特值比特值为0或者1。每个分词的文本表示为该分词的比特位为1其余位为0的矩阵表示。例如John likes to watch movies. Mary likes too John also likes to watch football games. 以上两句可以构造一个词典**{John: 1, likes: 2, to: 3, watch: 4, movies: 5, also: 6, football: 7, games: 8, Mary: 9, too: 10} ** 每个词典索引对应着比特位。那么利用One-hot表示为 **John: [1, 0, 0, 0, 0, 0, 0, 0, 0, 0] ** likes: [0, 1, 0, 0, 0, 0, 0, 0, 0, 0] .......等等以此类推。 One-hot表示文本信息的缺点随着语料库的增加数据特征的维度会越来越大产生一个维度很高又很稀疏的矩阵。这种表示方法的分词顺序和在句子中的顺序是无关的不能保留词与词之间的关系信息。 2.2 词袋模型词袋模型(Bag-of-words model)像是句子或是文件这样的文字可以用一个袋子装着这些词的方式表现这种表现方式不考虑文法以及词的顺序。文档的向量表示可以直接将各词的词向量表示加和。例如 John likes to watch movies. Mary likes too John also likes to watch football games. 以上两句可以构造一个词典**{John: 1, likes: 2, to: 3, watch: 4, movies: 5, also: 6, football: 7, games: 8, Mary: 9, too: 10} ** 那么第一句的向量表示为**[1,2,1,1,1,0,0,0,1,1]其中的2表示likes**在该句中出现了2次依次类推。词袋模型同样有一下缺点词向量化后词与词之间是有大小关系的不一定词出现的越多权重越大。词与词之间是没有顺序关系的。 2.3 TF-IDF TF-IDFterm frequency–inverse document frequency是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency)IDF意思是逆文本频率指数(Inverse Document Frequency)。字词的重要性随着它在文件中出现的次数成正比增加但同时会随着它在语料库中出现的频率成反比下降。一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章。分母之所以加1是为了避免分母为0。那么从这个公式可以看出当w在文档中出现的次数增大时而TF-IDF的值是减小的所以也就体现了以上所说的了。缺点还是没有把词与词之间的关系顺序表达出来。 2.4 n-gram模型 n-gram模型为了保持词的顺序做了一个滑窗的操作这里的n表示的就是滑窗的大小例如2-gram模型也就是把2个词当做一组来处理然后向后移动一个词的长度再次组成另一组词把这些生成一个字典按照词袋模型的方式进行编码得到结果。改模型考虑了词的顺序。例如 John likes to watch movies. Mary likes too John also likes to watch football games. 以上两句可以构造一个词典**{John likes”: 1, likes to”: 2, to watch”: 3, watch movies”: 4, Mary likes”: 5, likes too”: 6, John also”: 7, also likes”: 8, “watch football”: 9, football games: 10}** 那么第一句的向量表示为**[1, 1, 1, 1, 1, 1, 0, 0, 0, 0]其中第一个1表示John likes**在该句中出现了1次依次类推。缺点随着n的大小增加词表会成指数型膨胀会越来越大。 2.5 离散表示存在的问题由于存在以下的问题对于一般的NLP问题是可以使用离散表示文本信息来解决问题的但对于要求精度较高的场景就不适合了。无法衡量词向量之间的关系。词表的维度随着语料库的增长而膨胀。 n-gram词序列随语料库增长呈指数型膨胀更加快。离散数据来表示文本会带来数据稀疏问题导致丢失了信息与我们生活中理解的信息是不一样的。 3. 分布式表示科学家们为了提高模型的精度又发明出了分布式的表示文本信息的方法这就是这一节需要介绍的。用一个词附近的其它词来表示该词这是现代统计自然语言处理中最有创见的想法之一。当初科学家发明这种方法是基于人的语言表达认为一个词是由这个词的周边词汇一起来构成精确的语义信息。就好比物以类聚人以群分如果你想了解一个人可以通过他周围的人进行了解因为周围人都有一些共同点才能聚集起来。 3.1 共现矩阵共现矩阵顾名思义就是共同出现的意思词文档的共现矩阵主要用于发现主题(topic)用于主题模型如LSA。局域窗中的word-word共现矩阵可以挖掘语法和语义信息例如 I like deep learning. I like NLP. I enjoy flying 有以上三句话设置滑窗为2可以得到一个词典**{I like,like deep,deep learning,like NLP,I enjoy,enjoy flying,I like}**。我们可以得到一个共现矩阵(对称矩阵) image 中间的每个格子表示的是行和列组成的词组在词典中共同出现的次数也就体现了共现的特性。存在的问题向量维数随着词典大小线性增长。存储整个词典的空间消耗非常大。一些模型如文本分类模型会面临稀疏性问题。模型会欠稳定每新增一份语料进来稳定性就会变化。 4.神经网络表示 4.1 NNLM NNLM (Neural Network Language model)神经网络语言模型是03年提出来的通过训练得到中间产物--词向量矩阵这就是我们要得到的文本表示向量矩阵。 NNLM说的是定义一个前向窗口大小其实和上面提到的窗口是一个意思。把这个窗口中最后一个词当做y把之前的词当做输入x通俗来说就是预测这个窗口中最后一个词出现概率的模型。 image 以下是NNLM的网络结构图 image input层是一个前向词的输入是经过one-hot编码的词向量表示形式具有V*1的矩阵。 C矩阵是投影矩阵也就是稠密词向量表示在神经网络中是w参数矩阵该矩阵的大小为D*V正好与input层进行全连接(相乘)得到D*1的矩阵采用线性映射将one-hot表示投影到稠密D维表示。 image output层(softmax)自然是前向窗中需要预测的词。通过BPSGD得到最优的C投影矩阵这就是NNLM的中间产物也是我们所求的文本表示矩阵通过NNLM将稀疏矩阵投影到稠密向量矩阵中。 4.2 Word2Vec 谷歌2013年提出的Word2Vec是目前最常用的词嵌入模型之一。Word2Vec实际是一种浅层的神经网络模型它有两种网络结构分别是CBOWContinues Bag of Words连续词袋和Skip-gram。Word2Vec和上面的NNLM很类似但比NNLM简单。 CBOW CBOW获得中间词两边的的上下文然后用周围的词去预测中间的词把中间词当做y把窗口中的其它词当做x输入x输入是经过one-hot编码过的然后通过一个隐层进行求和操作最后通过激活函数softmax可以计算出每个单词的生成概率接下来的任务就是训练神经网络的权重使得语料库中所有单词的整体生成概率最大化而求得的权重矩阵就是文本表示词向量的结果。 image Skip-gram Skip-gram是通过当前词来预测窗口中上下文词出现的概率模型把当前词当做x把窗口中其它词当做y依然是通过一个隐层接一个Softmax激活函数来预测其它词的概率。如下图所示优化方法层次Softmax至此还没有结束因为如果单单只是接一个softmax激活函数计算量还是很大的有多少词就会有多少维的权重矩阵所以这里就提出层次Softmax(Hierarchical Softmax)使用Huffman Tree来编码输出层的词典相当于平铺到各个叶子节点上瞬间把维度降低到了树的深度可以看如下图所示。这课Tree把出现频率高的词放到靠近根节点的叶子节点处每一次只要做二分类计算计算路径上所有非叶子节点词向量的贡献即可。 **哈夫曼树(Huffman Tree)**给定N个权值作为N个叶子结点构造一棵二叉树若该树的带权路径长度达到最小称这样的二叉树为最优二叉树也称为哈夫曼树(Huffman Tree)。哈夫曼树是带权路径长度最短的树权值较大的结点离根较近。 image 负例采样(Negative Sampling)这种优化方式做的事情是在正确单词以外的负样本中进行采样最终目的是为了减少负样本的数量达到减少计算量效果。将词典中的每一个词对应一条线段所有词组成了[01间的剖分如下图所示然后每次随机生成一个[1, M-1]间的整数看落在哪个词对应的剖分上就选择哪个词最后会得到一个负样本集合。 image Word2Vec存在的问题对每个local context window单独训练没有利用包含在global co-currence矩阵中的统计信息。对多义词无法很好的表示和处理因为使用了唯一的词向量 4.3 sense2vec word2vec模型的问题在于词语的多义性。比如duck这个单词常见的含义有水禽或者下蹲但对于 word2vec 模型来说它倾向于将所有概念做归一化平滑处理得到一个最终的表现形式。 5. 词嵌入为何不采用one-hot向量虽然one-hot词向量构造起来很容易但通常并不是⼀个好选择。⼀个主要的原因是one-hot词向量⽆法准确表达不同词之间的相似度如我们常常使⽤的余弦相似度。由于任何两个不同词的one-hot向量的余弦相似度都为0多个不同词之间的相似度难以通过onehot向量准确地体现出来。 word2vec⼯具的提出正是为了解决上⾯这个问题。它将每个词表⽰成⼀个定⻓的向量并使得这些向量能较好地表达不同词之间的相似和类⽐关系。获取更多干货内容记得关注我哦。本文由 mdnice 多平台发布

查看全文

http://www.dnsts.com.cn/news/276115.html