您当前的位置: 首页 > 知识百科 > 基于PageRank算法的搜索引擎优化策略-seo-网站优化

基于PageRank算法的搜索引擎优化策略-seo-网站优化

时间:2023-07-01 14:05 阅读数:59 人阅读 分类:知识百科

SEO基础:基于PageRank算法的搜索引擎优化策略

近年来,谷歌已经成为世界上使用最广泛的搜索引擎之一。谷歌的优势不仅仅是删除无用的(广告)口号形成一个单一的页面,它自己的缓存系统,动态地制作摘要信息,以及为高速检索而建立的分散系统(数千个集群)等。

本文的目的是在分析PageRank算法的基础上,分析各种网络链接结构对搜索结果(PageRank值)的影响以及由此产生的搜索引擎优化策略。

1 PageRank算法

简而言之,PageRank是一个代表网页在互联网上重要*的数值。

通用搜索引擎使用网页排名值和网页搜索结果的相似度作为搜索结果的排名基础。正如后面将要解释的,搜索语句将不会在PageRank自己的表达式中出现。PageRank也是文件的一个特定的和固有的分数,不管获得多少检索句子,这仅取决于网络的链接结构。

PageRank算法的具体思想是将某一页面的PageRank除以该页面中存在的前向链接,然后将得到的值加到前向链接指向的页面的PageRank上,从而得到链接页面的PageRank。该算法基于& ldquo从许多高质量页面链接的页面必须仍然是高质量页面& rdquo判断所有网页的重要*。网页获得的投票越多,它就越重要。此外,投票网页的重要*也决定了票本身的重要*。

当计算某个网页的网页排名值时,应该考虑所有进入的链接。第一页的排名值计算公式如下:

公共关系(A)=(1 & ndash;d)+d(pr(t1)/c(t1)+?+pr(TN)/c(TN))

公式中的PR代表页面的PageRank值,T1 ~ TN代表带有指向页面A的链接的网页,C是从网页中链接出来的数量,而D是阻尼系数(常数,谷歌通常取0。85)。因为当在因特网上浏览时,用户可以跳到完全不相关的页面而不跟随当前页面中的链接,所以d实际上表示用户跟随网页的链接并且不产生随机跳转的概率值。

(1)是计算网页页面排名值的初始公式。到目前为止,谷歌还没有宣布它的算法,所以有可能谷歌在使用它的时候采用了这个公式的一些修改。但这几乎不会影响下面的分析。

根据公式(1),网页的页面排名值的计算总是依赖于其他相关页面,因此页面排名值的计算实际上是一个迭代过程,计算结果的准确*取决于初始值的选择和迭代次数。一般情况下,初始值为1,为了保证结果在实际应用中总是收敛,需要加上阻尼系数d。

此外,还应解释PR值和PageRank值之间的差异。安装了谷歌工具栏的用户可以在工具栏上看到页面栏显示栏。这个工具可以立即反映出谷歌浏览器当前访问的网页的页面排名值,从0到10不等。它被称为& ldquo标记& rdquo这是因为它不是网页的真实页面排名值,而是真实值的对数索引,而对数基数应该是5 ~ 6范围内的数值。

PageRank & ldquo在所有链接的页面上执行。投票。由于随机跳转的可能*,总页面排名值略小于网页本身的页面排名值(其自身值为3天)。该值在所有传出链路中均匀分布。因此,指向您的网页的页面排名值是很重要的,但是这个页面的输出链接的数量不能被忽略:输出链接越多,您的网页获得的页面排名值就越少。此外,由于pr值是PageRank真值的对数索引,这意味着网页需要更多的PageRank值从较高的PR值提升,而不是从较低的PR值提升。在这种情况下,哪一个比PR8页面有更多的外发链接和另一个PR4页面有更少的外发链接更有效?这可能取决于PR值的对数基础和特定的链接条件。

应该注意的是,当网页是& ldquo投票当其他页面的页面排名值受该方法影响时,其页面排名值不会降低。这不是PageRank的转移过程。

2基于PageRank的优化策略

假设我们有一个网站,将网站的页面排名平均分配给每个页面(如果可能的话)显然是不明智的,因为我们不能也不需要让网站的所有页面排名都很高。如果一个网站的大部分页面排名值能够以某种方式指向一个或几个页面,从而使其排名得到很大提高,其效果当然比平均分布的结果要好。因此,以下讨论的焦点不是单个网页的权重,而是整个网站或网站中重要页面的页面排名值,这些页面可能是索引页面、中心页面或针对某些搜索项专门优化的页面。

2.1考虑内部联系的影响

网站的页面排名值是网站中所有页面的页面排名值的总和。一个网站的最大页面数等于它的页面数。入站链接可以增加这个最大值,而出站链接可以减少它。网站内的链接组织得不好,网站可能没有达到最大的页面排名值,但不可能超过这个值。应该注意的是,虽然添加页面可以增加网站的页面排名值,但添加任何页面并不总是可能的。那些完全相同或几乎完全相同的页面被称为“垃圾邮件”,谷歌认为这是垃圾邮件,并将触发相应的报警机制,因此该页面甚至整个网站都将受到惩罚。所以从根本上说,网页应该有一定的质量。

让我们分析一下网站的内部链接是如何影响页面排名的。我们在这里考虑的是一个相对独立的网站,目前不会考虑入站链接和出站链接的影响。

假设一个网站有三个页面,没有外部链接(图1)。在(a)、(b)和(c)的情况下,我们为每个网页分配一个初始值1,阻尼系数与谷歌的(0。85)。迭代收敛后,三种情况下的PageRank值如下:

(a ) : PageRank A = 0。15,PageRank B = 0。15,等级C = 0。15;
(b):等级A = 0。15,PageRank B = 0。277±5,等级C = 0。15;
(C):第一级= 1,第二级= 1,第三级= 1;
网站(a)的页面排名值为0。45,这严重浪费了潜在的PageRank值。(b)的情况稍好一些,总值为0。577 5与前面的示例相比有所增加,但它仍然只是最大值的一小部分(此处不讨论此结构中的摆动页面)。在(C)的链接结构下,网站达到了网页排名的最大值,这也可以通过循环结果得到:A到B,B到C,C到A..在同样的情况下,页数可以增加到3页以上。

可以看出链接不好,这可能会完全浪费潜在的PageRank值。根据实验的规则,得到内部链接结构的第一个优化策略:一般来说,当有链接时,环形链接或任意两个页面都可以达到网站的页面排名值。

假设将A作为索引页,并且有两个链接结构(A)和(B)。省略计算过程后,迭代结果如下:

第一页= 1。459 459,第B页= 0。770 270 3,第C页=0。770 270 3;

第一页= 1。298 245,第B页= 0。999 999 9,第C页=0。701 754 3;

这两个结构的总值仍然是3(最大值),所以没有浪费。然而,在(B)的情况下,甲明显地失去了一部分页号,而丙也失去了一部分页号,因为甲和乙共享而不是甲独占,而甲通过了甲& rarrc链接反馈的c值减少。

因此,获得了第二个优化策略:为了获得索引页面的最大PageRank值,其他页面应该最小化相互链接。如果一个页面链接到一个带有循环链接的页面,在这个页面上添加一个新的出站链接将会间接丢失一部分PageRank值。如果没有这样的循环,页面排名值将不会减少。这在内部链接中并不重要,但在网站外的链接中就不同了。可以看出,网站的页面排名值可以通过组织的内部链接指向选定的页面。内部链接可以根据网站的页面排名要求来组织,但它们必须是谷歌批准的页面。

2.2入站链接和出站链接

入站链接(从网站外部进入的链接)是增加网站页面排名值的方法之一。入站链接来自哪里并不重要。谷歌认为,只要网站管理员不控制链接到该网站的其他网站,他就不会因此受到惩罚。

链接页面的页面排名值非常重要,但是链接的数量也非常关键。例如,如果它是网页的唯一一个输出链接,PageRank值为2,它将得到一个值0。15+0。85 (2 /1) = 1。85;一个有100个输出链接的PageRank 8页面得到0。15+0。85 (7 /100) =0。209 5.显然,PR2链接更有效。一旦网页排名值被注入网站,计算将需要重复。一些页面的值会增加,而另一些保持不变,这取决于内部链接结构,但是肯定没有页面会丢失页面排名值。

对入站链接来说,指向你试图指向的重要页面更有好处。如果PageRank被注入到其他页面,它将由于内部链接而分散在网站中。索引页也会被提升,但不如直接链接多。获得入站链接的页面直接获得最大值。

第三个优化策略:以网站索引页面为最佳目标,引入入站链接。

出站链接会导致网站页面排名值的消耗。为了抵消这种消耗,有必要确保链接是相互给出的。双向链接可能会得到或失去PageRank值,所以链接交换应该特别小心。

当PageRank值与另一个网站的链接一起出现时,所有内部链接的页面都会受到影响。虽然PageRank值的具体变化取决于链接结构,但一般来说,给出链接的网页通常损失的PageRank值最多,因此得出第四个优化策略:出站链接放置在PageRank较低的页面上,导致PageRank损失较少。

任何网站几乎不可能没有出站链接,但不幸的是,所有的正常。PageRank值是由链接泄露的。但是仍然有一些特殊不要泄露链接方法。PageRank是否泄漏取决于谷歌是否能识别链接,所以你可以使用谷歌不能识别或忽略的链接,包括表单动作和包含JavaScript代码的链接。

表单的动作属*不一定是处理表单脚本的url,它可以指向任何网站的任何页面。示例:

此外,动作属*甚至可能不在表单中,而是在JavaScrip t代码中,并且JavaScrip t代码可能位于存储路径的js目录中,这通常不会被谷歌的sp ider程序访问。

3总结和排名改进

PageRank值由网络链接结构决定,与具体的检索内容无关,因此在检索过程中消耗很少,优于早期的H ITS算法。在不考虑网页内容具体需求的情况下,提出的优化策略有利于提高网页排名算法在搜索引擎搜索结果中的排名。这种影响在短时间内可能不会很明显,但随着网页和网站之间链接的增加,最终的效果还是相当可观的。

同时,由于PageRank算法的搜索独立*,它也可能导致一些不利的结果,例如,对于某些在特定上下文中具有特定含义的词,或者对于某些专业词,仅仅PageRank排序的结果可能并不令人满意,例如,相同的搜索& ldquo结构& rdquo这个词,在架构的背景下,在芯片制造的背景下,用户想要的搜索结果必然是不同的。然而,网页排名是网页的一个固定属*,可能无法达到预期的效果。如果把整个互联网看作一个维度,那么PageRank就是这个维度中的一个向量。鉴于上述缺陷,我们可以考虑建立这样的向量的向量集。换句话说,可以为一些指定的关键字计算多个页面排名值,然后可以根据搜索内容匹配相应关键字的页面排名值[4]。当然,排序结果中使用的PageRank值仍然是唯一的。这种改进增加了检索过程中的消耗,但是极大地提高了结果的排名。

参考:
大规模超文本网络搜索引擎剖析[A ]。第七届国际万维网会议录[C ],1998。
[2]巴巴赫,马长昭。谷歌の秘密-PageRank解释[EB/OL]。.kusastro.kyoto2u.ac.jp/~巴巴,2003。
[3 ] JEH,IDOM .缩放个*化网络搜索[R ]。斯坦福大学,2002年。
[4 ] HAVEL IWALA TH。前IC2敏感网页排名[A ]。2002年第十一届国际互联网大会论文集[C ]。

版权声明:本网站上的原创文章由简书网的搜索引擎优化发布。如有转载,请注明出处。简书网搜索引擎优化博客.388m