您当前的位置: 首页 > 知识百科 > 搜索引擎工作过程与SEO-seo-网站优化

搜索引擎工作过程与SEO-seo-网站优化

时间:2023-07-01 14:05 阅读数:53 人阅读 分类:知识百科

SEO基础:搜索引擎工作过程与SEO

跟踪链接

为了在互联网上爬行尽可能多的网页,搜索引擎蜘蛛会跟踪网页上的链接,从一个网页爬到另一个网页,就像蜘蛛在蜘蛛网上爬行一样,这就是搜索引擎蜘蛛这个名字的由来。有两种最简单的爬行遍历策略,一种是深度优先,另一种是广度优先。

深度优先搜索

深度优先搜索是在搜索树的每一级只扩展一个子节点,然后继续在深度上前进,直到它不再前进(到达叶节点或受到深度的限制),然后从当前节点返回到较高一级的节点,并继续向另一个方向前进。这种方法的搜索树是从树根逐渐形成的。

深度优先搜索也称为纵向搜索。因为有解的问题树可能包含无限分支,如果深度优先搜索偏离到无限分支,就不可能找到目标节点。因此,深度优先搜索策略是不完整的。此外,通过应用该策略获得的解不一定是最佳解(最短路径)。

广度优先搜索

在深度优先搜索算法中,深度较大的节点首先被扩展。如果将算法改为根据搜索中的节点级别进行搜索,则当该级别的节点没有被搜索时,不能处理该级别的节点,即深度较小的节点将首先被扩展,即首先生成的节点将首先被扩展。这种搜索算法称为广度优先搜索法。

在深度优先搜索算法中,深度较大的节点首先被扩展。如果将算法改为根据搜索中的节点级别进行搜索,则当该级别的节点没有被搜索时,不能处理该级别的节点,即深度较小的节点将首先被扩展,即首先生成的节点将首先被扩展。这种搜索算法称为广度优先搜索法。

吸引蜘蛛

哪些页面被认为是重要的?有几个影响因素:

& middot网站和页面权重。具有高质量和旧资格的网站被认为具有更高的权重,并且这些网站上的页面将被爬行到更高的深度,因此将包括更多的内部页面。

& middot页面更新程度。蜘蛛每次爬行时都会存储页面数据。如果第二次爬行发现页面与第一次完全相同,这意味着页面没有更新,所以蜘蛛不需要频繁爬行。如果网页内容更新频繁,蜘蛛会更频繁地访问这种网页,网页上出现的新链接自然会被蜘蛛更快地跟踪和抓取。

& middot导入链接。无论是同一网站的外部链接还是内部链接,要被蜘蛛抓取,必须有一个导入链接才能进入页面,否则,蜘蛛根本没有机会知道页面的存在。高质量的导入链接通常会增加页面上导出链接的抓取深度。一般来说,主页在网站上的权重最高,大多数外部链接指向主页,蜘蛛也最频繁地访问主页。离主页的点击距离越近,页面权重越高,被蜘蛛爬行的几率就越大。

地址库

为了避免重复爬行和爬行网站,搜索引擎将建立一个地址数据库来记录已经找到但没有被爬行的网页,以及已经被爬行的网页。地址库中有几个网址来源:

(1)手动输入种子网站。

(2)在蜘蛛抓取页面后,它从HTML中解析出新的链接uRL,并将其与地址库中的数据进行比较。如果它是地址库中不存在的网站,它将被存储在要访问的地址库中。

(3)网站管理员通过搜索引擎网页提交表提交的网址。

蜘蛛根据其重要*从待访问地址库中提取网址,访问并抓取网页,然后从待访问地址库中删除该网址并将其放入已访问地址库中。

大多数主流搜索引擎都为站长提供了一个提交网址的表单。然而,这些提交的网址只存储在地址数据库中,它们是否被包括取决于页面的重要*。搜索引擎中包含的绝大多数页面都是由蜘蛛通过自己的链接获得的。可以说,提交一个页面的基本t是没有用的,搜索引擎更喜欢沿着链接自己找到新的页面。该文件存储由搜索引擎蜘蛛抓取的数据,并将其存储在原始页面数据库中。页面数据与用户浏览器获得的HTML完全相同。每个uRI都有一个唯一的文件号。

爬网期间的复制内容检测

对复制内容的检测和删除通常在下面描述的预处理过程中进行,但是现在蜘蛛在爬行和抓取文件时也会在一定程度上检测到复制的内容。当在权重很低的网站上遇到大量转载或剽窃的内容时,它们很可能不会继续爬行。这就是为什么一些网站管理员在日志文件中发现了蜘蛛,但是页面从来没有被真正包含进去。

预处理

在一些搜索引擎优化材料中。预处理。也称为& ldquo索引& rdquo因为索引是预处理中最重要的一步。搜索引擎蜘蛛抓取的原始页面不能直接用于查询排名处理。搜索引擎数据库中的页面数量超过万亿。用户输入搜索词后,他们依靠排名程序实时分析这么多页面的相关*,这对于在一两秒内返回排名结果来说太大了。因此,必须对捕获的页面进行预处理,以便为最终的查询排名做准备。像爬行一样,预处理是在后台预先完成的,用户在搜索时感觉不到这个过程。

1.选择文本

今天的搜索引擎仍然基于文本内容。除了用户可以在浏览器上看到的可见文本,蜘蛛抓取的网页中的HTML代码还包含大量HTML格式标签、JavaScript程序和其他不能用于排名的内容。在搜索引擎预处理中要做的第一件事是从HTML文件中移除标签和程序,并提取可用于排名处理的网页文本内容。

2.中文分词

分词是中文搜索引擎的一个独特步骤。搜索引擎存储和处理页面,用户根据单词进行搜索。英语和其他语言中的单词用空大小写分隔。搜索引擎索引程序可以直接将句子分成单词组。然而,汉语单词之间没有分隔符,句子中的所有单词都是连在一起的。搜索引擎必须首先区分哪些单词组成了一个单词,哪些单词本身就是一个单词。例如,& ldquo减肥方法。将被分割为& ldquo减肥。和& ldquo方法。两个字。

中文分词基本上有两种方法,一种是基于词典匹配,另一种是基于统计。

基于词典的匹配方法是将待分析的汉字与预制词典中的词条进行匹配,在待分析的中文字符串中扫描词典中已有的词条,匹配成功或分词。

根据扫描方向,基于字典的匹配方法可分为正向匹配和反向匹配。根据匹配长度的优先级,可分为最大匹配和最小匹配。通过首先混合扫描方向和长度,可以产生不同的方法,例如正向最大匹配和反向最大匹配。

字典匹配法计算简单,其准确*在很大程度上取决于字典的完整*和更新。

基于统计的分词方法是指对大量文本样本进行分析,并计算相邻词的统计概率。出现的相邻单词越多,就越有可能形成一个单词。统计方法的优势在于它能更快地对新词做出反应,并且有利于消除歧义。

基于词典的匹配和基于统计的分词方法各有优缺点。在实践中,分词系统是两种方法的结合,快速高效,能够识别新词,消除歧义。

中文分词的准确*往往会影响搜索引擎排名的相关*。例如,在百度搜索。搜索引擎优化。从快照中可以看出,百度把& ldquo搜索引擎优化。这六个词被认为是一个词。

在谷歌搜索同一个单词时,快照显示谷歌把它剪切成& ldquo搜索引擎& rdquo和& ldquo优化& rdquo两个字。显然百度细分更合理,搜索引擎优化是一个完整的概念。谷歌倾向于将单词分割得更细。

分词的这种差异可能是一些关键词在不同搜索引擎中排名不同的原因之一。例如,百度更喜欢完全匹配页面上的搜索条件,也就是说,搜索& ldquo玩够了博客当这四个词连续完整地出现时,在百度上更容易获得好的排名。另一方面,谷歌不需要完全匹配。出现一些页面够戏剧化了。和& ldquo博客& rdquo两个词,但它们不必完全匹配。& ldquo够戏剧化了。出现在前面。博客& rdquo出现在页面的其他地方,这样的页面在谷歌上搜索玩够了博客你也可以得到一个好的排名。

搜索引擎的分词依赖于词库的大小和准确*以及分词算法的质量,而不是网页本身,所以搜索引擎优化人员可以做的分词工作非常少。唯一能做的就是在页面上以某种形式提示搜索引擎,有些单词应该被当作一个单词,尤其是当可能出现歧义时,例如出现在页面标题中的关键字、h1标记和粗体。如果页面是关于& ldquo和服。,那么你可以把& ldquo和服。这两个字特别用粗体标出。如果页面是关于& ldquo化妆和服装& rdquo,你可以把& ldquo服装& rdquo两个单词用粗体标出。这样,当搜索引擎分析页面时,它知道它应该是一个粗体字。

3.转到stopword

无论是英文还是中文,页面内容中有一些经常出现但对内容没有影响的词,例如& ldquo& rdquo、& ldquo至& rdquo、& ldquo获取& rdquo像这样的助词。啊。、& ldquo哈哈。、& ldquo啊。像这样的感叹。因此。、& ldquo带& rdquo、& ldquo但是。像这样的副词或介词。这些单词被称为stopword,因为它们对页面的主要意思几乎没有影响。英语中常用的停止词是、A、an、to、of等。

搜索引擎将在索引页面之前删除这些停止词,这将使索引数据更加突出,并减少不必要的计算。

4.消除噪音

大多数页面都有一些与页面主题无关的内容,如版权声明、导航栏、广告等。以常见的博客导航为例,几乎每个博客页面都会有导航内容,如文章分类和历史档案,但这些页面与& ldquo分类& rdquo、& ldquo历史。这些话彼此无关。用户搜索& ldquo历史。、& ldquo分类& rdquo仅仅因为这些关键词出现在页面上,就返回到博客帖子是没有意义的,完全不相关的。因此,这些块是噪音,只能分散页面的主题。

搜索引擎需要识别和消除这些噪音,在排名时不要使用有噪音的内容。去噪的基本方法是根据HTML标签将页面分成块,并区分页眉、导航、正文、页脚、广告等区域。网站上大量重复的块通常属于噪音。去噪后,剩下的就是页面的主要内容。

5.减轻重量

搜索引擎也需要重新处理页面。

同一篇文章经常重复出现在不同的网站和同一网站的不同地址上。搜索引擎不喜欢这种重复的内容。当用户搜索时,如果他们在前两页看到来自不同网站的同一篇文章,用户体验就太糟糕了,尽管它们都与内容相关。搜索引擎希望在同一篇文章中只返回一篇文章,因此他们需要在索引之前识别并删除重复的内容。这个过程称为& ldquo重复数据消除。。

重复数据消除的基本方法是计算页面特征关键词的指纹,也就是说,从页面的主要内容中选择一些最具代表*的关键词(通常是出现频率最高的关键词),然后计算这些关键词的数字指纹。这里的关键词是经过分词、停用词去除和噪声消除后选取的。实验表明,通常选择10个特征关键词来获得更高的计算精度,而选择更多的词对提高重复数据删除的精度没有太大帮助。

典型的指纹计算方法是MD5算法(第五版信息汇总算法)。这种指纹算法的特点是输入(特征关键字)的任何微小变化都会导致计算指纹的巨大差异。

了解搜索引擎重复数据删除算法,搜索引擎优化人员应该知道如何简单地添加& ldquo& rdquo、& ldquo至& rdquo、& ldquo获取& rdquo所谓的更改段落顺序的伪原件无法逃脱搜索引擎的重复数据删除算法,因为该操作无法更改文章的特征关键词。此外,搜索引擎的重复数据删除算法可能不仅在页面级别,而且在段落级别。混合不同的文章和交叉改变段落顺序不能使转载和剽窃原创。

6.远期指数

远期指数也可以简称为指数。

搜索引擎经过文本提取、分词、去噪和去重后,得到能够反映页面主要内容的、以词为单位的独特内容。接下来,搜索引擎索引程序可以提取关键词,根据分词程序划分的单词将页面转换成一组关键词,并记录频率、频率、格式(如标题标签、粗体、H标签、锚文本等)。)和每个关键词在页面上的位置(例如页面上文本的第一段,等等。)。以这种方式,每个页面可以被记录为一组关键词,其中还记录了诸如每个关键词的词频、格式和位置的权重信息。

搜索引擎索引程序将由页面和关键字形成的同义词库结构存储到索引库中。简化的索引词汇表如表2-1所示。

每个文件对应一个文件标识,文件内容用一组关键字表示。事实上,在搜索引擎索引数据库中,关键字已经被转换为关键字标识。这种数据结构称为前向索引。

7.倒排索引

前向索引不能直接用于排名。假设用户搜索关键字2,如果只有正向索引,排名程序需要扫描索引数据库中的所有文件,找出包含关键字2的文件,然后计算相关*。这个计算量不能满足实时返回排名结果的要求。

因此,搜索引擎会将正向索引数据库重建为反向索引,并将文件到关键字的映射转换为关键字到文件的映射,如表2-2所示。

在倒排索引中,关键字是主键,每个关键字对应一系列文件,这个关键字出现在这些文件中。这样,当用户搜索关键字时,排序程序在倒排索引中定位该关键字,并且可以立即找到包含该关键字的所有文件。

8.链接关系计算

链接关系计算也是预处理的一个重要部分。现在,主流搜索引擎的所有排名因素都包括网页之间的链接流信息。在抓取页面内容后,搜索引擎必须预先计算页面上的哪些链接指向其他哪些页面,每个页面上的哪些链接是导入的,以及哪些锚词用于链接。这些复杂的链接指向关系构成了网站和页面的链接权重。

谷歌公关价值是这种链接关系最重要的表现之一。其他搜索引擎也做类似的计算,尽管它们不叫公关。

由于网页和链接数量巨大,并且在线链接关系不断更新,计算链接关系和公关需要很长时间。关于公关和链接分析,有专门的章节稍后介绍。

9.特殊文件处理

除了HTML文件,搜索引擎通常可以抓取和索引各种基于文本的文件类型,如PDF、Word、WPS、XLS、PPT、TXT文件等。我们经常在搜索结果中看到这些文件类型。然而,目前的搜索引擎不能处理非文本内容,如图片、视频和Flash,也不能执行脚本和程序。

尽管搜索引擎在识别图片和从Flash中提取文本内容方面取得了一些进展,但它们距离直接阅读图片、视频和Flash内容来返回结果的目标仍然很远。图片和视频内容的排名通常基于相关的文本内容。有关详细信息,请参考后面的集成搜索部分。

等级

在搜索引擎蜘蛛爬行通过界面后,搜索引擎程序计算倒排索引,检索引擎随时准备处理用户搜索。用户在搜索框中填入关键词后,排名程序调用索引数据库数据,计算排名并将其显示给客户。排名过程直接与客户互动。

版权声明:本网站上的原创文章由简书网的搜索引擎优化发布。如有转载,请注明出处。简书网搜索引擎优化博客.388m