武昌网站建设制作,外贸电商网站模板,深圳市住房和建设局工程交易网,ui设计网站开发今天查阅 TF-IDF 资料#xff0c;发现百度百科里面提供了一个例子#xff0c;解释的很清楚#xff0c;记下来备用。
原文链接#xff1a;https://baike.baidu.com/item/tf-idf/8816134?fraladdin
例子#xff1a;在某个一共有一千词的网页中 “原子能”、“的” 和 “应…今天查阅 TF-IDF 资料发现百度百科里面提供了一个例子解释的很清楚记下来备用。
原文链接https://baike.baidu.com/item/tf-idf/8816134?fraladdin
例子在某个一共有一千词的网页中 “原子能”、“的” 和 “应用” 分别出现了 2 次、35 次 和 5 次那么它们的词频就分别是 0.002、0.035 和 0.005。 我们将这三个数相加其和 0.042 就是相应网页和查询“原子能的应用” 相关性的一个简单的度量。
概括地讲如果一个查询包含关键词 w1,w2,...,wNw_1,w_2,...,w_Nw1,w2,...,wN, 它们在一篇特定网页中的词频分别是: TF1,TF2,...,TFNTF_1, TF_2, ..., TF_NTF1,TF2,...,TFN。 TF: term frequency)。 那么这个查询和该网页的相关性就是
TF1TF2...TFNTF_1 TF_2 ... TF_N TF1TF2...TFN
读者可能已经发现了又一个漏洞。在上面的例子中词 “的”占了总词频的 80% 以上而它对确定网页的主题几乎没有用。我们称这种词叫“应删除词”Stopwords)也就是说在度量相关性是不应考虑它们的频率。在汉语中应删除词还有“是”、“和”、“中”、“地”、“得”等等几十个。忽略这些应删除词后上述网页的相似度就变成了0.007其中“原子能”贡献了 0.002“应用”贡献了 0.005。细心的读者可能还会发现另一个小的漏洞。在汉语中“应用”是个很通用的词而“原子能”是个很专业的词后者在相关性排名中比前者重要。因此我们需要给汉语中的每一个词给一个权重这个权重的设定必须满足下面两个条件
一个词预测主题能力越强权重就越大反之权重就越小。我们在网页中看到“原子能”这个词或多或少地能了解网页的主题。我们看到“应用”一次对主题基本上还是一无所知。因此“原子能“的权重就应该比应用大。应删除词的权重应该是零。
我们很容易发现如果一个关键词只在很少的网页中出现我们通过它就容易锁定搜索目标它的权重也就应该大。反之如果一个词在大量网页中出现我们看到它仍然不是很清楚要找什么内容因此它应该小。概括地讲假定一个关键词 www 在 DwD_wDw 个网页中出现过那么 DwD_wDw 越大www 的权重越小反之亦然。在信息检索中使用最多的权重是“逆文本频率指数” Inverse document frequency 缩写为IDF它的公式为 logD/DwlogD/D_wlogD/Dw其中 DDD 是全部网页数。比如我们假定中文网页数是 D10D10D10亿 应删除词“的”在所有的网页中都出现即 Dw10D_w10Dw10亿那么它的 IDFlog(10亿/10亿log(1)0IDFlog(10亿/10亿 log (1) 0IDFlog(10亿/10亿log(1)0。假如专用词“原子能”在两百万个网页中出现即 Dw200D_w200Dw200万则它的权重 IDFlog(500)2.7IDFlog(500) 2.7%IDFlog(500)2.7。又假定通用词“应用”出现在五亿个网页中它的权重 IDFlog(2)IDF log(2)IDFlog(2) 则只有 0.3。也就是说在网页中找到一个“原子能”的匹配相当于找到九个“应用”的匹配。利用 IDF上述相关性计算的公式就由词频的简单求和变成了加权求和即
TF1∗IDF1TF2∗IDF2...TFN∗IDFNTF_1*IDF_1 TF_2*IDF_2 ... TF_N*IDF_N TF1∗IDF1 TF2∗IDF2...TFN∗IDFN
在上面的例子中该网页和“原子能的应用”的相关性为 0.0069其中“原子能”贡献了 0.0054而“应用”只贡献了0.0015。这个比例和我们的直觉比较一致了。