您当前的位置: 首页 > 知识百科 > 剖析TF-IDF原理及使用-seo-网站优化

剖析TF-IDF原理及使用-seo-网站优化

时间:2023-07-01 14:05 阅读数:120 人阅读 分类:知识百科

剖析TF-IDF原理及使用

一、什么是特遣部队-以色列国防军

Tf-idf(术语频率-逆文档频率)。

它是信息检索和信息挖掘中常用的加权技术。TF-IDF是一种统计方法,用于评估一个词对文档集或语料库中某个文档的重要*。一个词的重要*随着它在文档中出现的次数成比例增加,但是随着它在语料库中出现的频率成反比减少。

上面引用的结论是,一个词在一篇文章中出现得越多,在所有文档中出现得越少,它就越能代表文章。

这就是TF-IDF的含义。

术语频率指给定单词在文件中出现的次数。这个数字通常是标准化的(通常是词频除以文章中的总字数),以防止它倾向于长文档。(同一个单词在长文档中的出现频率可能比在短文档中的高,不管这个单词是否重要。)

但是,应该注意的是,一些常用词对主题没有太大的影响,相反,一些频率较低的词可以表达文章的主题,因此单独使用TF是不合适的。权重的设计必须满足以下要求:一个词预测主题的能力越强,权重就越大;相反,重量越小。在所有的统计文章中,有些词只出现在少数几篇文章中,因此这些词对文章的主题有很大的影响,这些词的权重应该设计得更大。以色列国防军正在这样做。

公式:

反向文档频率(IDF) IDF的主要思想是,如果包含术语T的文档较少,而IDF较大,则该术语具有良好的分类能力。通过将文档总数除以包含该单词的文档数,然后取所获得的商的对数,可以获得特定单词的IDF。

公式:

特定文件中单词的高频率和整个文件集中单词的低频率可以产生具有高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常用词并保留重要的词。