SEO关键词密度背后的TF-IDF分词加权技术原理

2020-08-28 17:00:32 4

一般来说,页面与用户搜索术语的关联性越高,搜索引擎结果中页面的排名就越高。我们都知道,提高页面的关键词密度有助于提高排名,那么您对seo关键词密度背后的tf-idf分割加权算法了解多少?虽然seoer不需要熟悉这些搜索技术,但它可以通过理解技术原理来更好地理解seo。

兆登网络

思维浅析

由于TF-IDF词分割加权算法是确定Web内容技术手段的搜索引擎,那么SEOER可以根据Web关键词排名优化的技术原理吗?按照这种技术命名的TF,即词频(TermFrequency),是关键词的出现次数与整个页面的字数之比,IDF是反文频率指数(inveservedocumentfrequency),可搜索的页数与包括关键字的页数之比的对比

TF-IDF分词加权算法只是确定网站内容基本技术的搜索引擎,最终的排名因素是网站总权重、网页质量、网页链接资源等因素。本文的目的是解释tf-idf分词加权算法,而所涉及的数据不是客观准确的,而是更好地说明所作的合理假设,以帮助人们理解关键字密度概念背后的技术原理。

1、TF-IDF(termfrequency-inveservedocumentfrequency)是信息检索和数据挖掘的常用加权技术,用于评估关键字在文档集或语料库中的重要性。其中关键词的重要性与出现次数的增加成正比增加,同时该关键词与语料库出现的频率成反比减少。也就是说,相同关键词内容的页面越多,该关键词的重要性就越低。

上面的概念可能有点苦涩,下面举例说明。例如,在单词量的页中,“白皮松”“的“价格”分别出现10次、35次、15次时,词数分别为0.01、0.035、0.015,直接相加的和0.06成为该页与检索词“白皮松的价值”的关联性的简单尺度。

2、此时,很多人发现“的”占58%的贡献,因为这个词对页面主题的决定几乎没有影响,所以在分词加权计算中应该删除这样的词(应该删除词),此时,上述页面和检索词“白皮松的价格”的相关值为0.025,其中“价值”为60%,汉语中“价格”比较通用,而“白皮松”可以预测文章主体,因此需要降低对普通话相似度的贡献率,所以引进了这一点。

这里,SEO的思考理解的是,搜索所展示的页面数量,内容不足的程度,关键词只出现在少的页面上的话,通过该关键词很容易找到目标页面。一般地,将能够用于检索的页数(语料库)设为d,将包含关键字的页数设为d,将IDF的值设为lg(D/d)。假定可以搜索的页数为1亿(即百度索引在库中的中文页数记为1亿),当包含关键字“白皮松”的页数为2万时,IDF=lg(1亿/2万)=lg5000=3.7,关键字“价格”出现在500万页,IDF=lg(1亿/500万)这时,该网页和检索词“白皮松价格”相关的TF-IDF值为0.0565,其中“白皮松”为0.037,“贡献为0,“价格”为0.0195,此时各语言对检索词的相关权利进行贡献

3、无论是百度、谷歌还是其他搜索引擎,TF-IDF都是比较基础的网页核心内容识别技术,但是在搜索排名算法中也是比较小的部分。如果有意提高关键词的频度,用户的检索体验会下降,为了防止关键词的滥用,各检索引擎限制了TF值。一般来说,我们用2%-8%的关键词密度作为量化标准来控制词频,但是也有人认为过宽提出安全语的频率不超过15次比较好。不同的搜索引擎对于关键词堆叠的容忍度不同,在内容建设过程中,关键词可以适当合理地自然出现。

最后:搜索引擎的内容相关性的计算基于TF-IDF,但是并非唯一的决定性因素。在网站内容更新时,遵循TF-IDF分词加权算法,但不需要以具体的数量关系为测量基准,关键词密度是否合理的计算不需要花费大量时间。

兆登网络

兆登网络在看吗?

电话咨询
服务中心
经典案例
QQ客服