搜索引擎收录的原理有哪些类型

2024-03-24 135 网站首席编辑

d45c582a142043599620abd76ea27b0a~tplv-26tn0yjwph-cspd-v1 450 294.jpg

想要在搜索引擎中有好的排名表现，网站的收入是基础。另一方面，收录的页面数量也代表了网站的整体质量。我觉得想要百度网站被收录，首先要了解搜索引擎的工作原理，这样才能有针对性的迎合搜索规律，让网站被收录处于理想状态。搜索引擎的工作原理非常复杂。接下来简单说一下搜索引擎是如何收录和实现网页排名的。

seo

　　搜索引擎的工作过程大致可以分成三个阶段：

1、爬行和抓取：搜索引擎蜘蛛通过跟踪链接访问网页，获得页面HTML代码存入数据库。

2、预处理：索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理，以备排名程序调用。

3、排名：用户输入查询词(关键词)后，排名程序调用索引数据，计算相关性，然后按一定格式生成搜索结果页面。

seo

一、爬行和抓取

1）蜘蛛访问：相信大家都知道它了，蜘蛛访问任何一个网站时，都会先访问网站根目录下的robots.txt文件，如果robots.如果robots文件禁止搜索引擎抓取某些文件或目录，蜘蛛将遵守协议，不抓取被禁止的网址。

2)跟随链接：了在互联网上抓取尽可能多的页面，搜索引擎蜘蛛会沿着页面上的链接，从一个页面爬到下一个页面。最简单的抓取策略分为两种:一种是深度优先，一种是广度优先。

深度优先是指蜘蛛沿着发现的网络营销链接一直向前爬行，直到前面再也没有其他链接，然后返回到第一个页面，沿着另一个链接再一直往前爬行。

广度优先是指蜘蛛在一个页面发现多个链接时，不是顺着一个链接一直向前，而是把页面上所有链接都爬一遍，然后再进入第二层页面沿着第二层上发现的链接爬向第三层页面。

3）吸引蜘蛛：SEO人员想要百度网站收录，就要想办法吸引蜘蛛来抓取，蜘蛛只会抓取有价值的页面，以下是五个影响因素：网站和页面权重、页面更新度、导入链接、与首页的距离、URL结构。

4.地址库：调度系统为了避免重复爬行和抓取网址，搜索引擎会建立地址库，记录已经被发现但还有没有抓取的页面，以及已经被抓取的页面。蜘蛛在页面上找到链接后并不立即访问，而是将网址存储在地址库中，然后统一安排抓取。

地址库中URL有几个来源：

1.人工录入的种子网站；

2. 蜘蛛抓取页面后，从 HTML 中解析出新的链接 URL 与地址库中的数据进行对比，如果是地址库中没有的网址，就存入待访问地址库。

3.站长通过接口提交进来的网址；

4.站长通过XML网站地图、站长平台提交的网址。

5.文件储存，搜索引擎蜘蛛抓取的数据存入原始页面数据库。

6.爬行时进行复制内容检测。

seo

二、预处理

在一些SEO材料中，“预处理”也被简称为“索引”，因为索引是预处理最主要的步骤。

1、提取文字

我们存入原始页面数据库中的是HTML代码，而HTML代码中，不仅有用户在页面上直接可以看到的文字内容，还有其他例如JS，AJAX等这类搜索引擎无法用于排名的内容。首先要做的是从HTML文件中移除这些无法解决的内容提取出可以排序的文本内容。

2、中文分词

分词是中文信息搜索引擎公司特有的步骤，搜索引擎进行存储/处理系统页面/用户可以搜索时都是以词为基础的。中文分词方法基本上有两种，一种是基于词典匹配，另一种是基于统计。

3、去停止词

无论是英文还是中文，页面都会有一些很高的频率，内容对词语没有影响，比如: 的，啊哈，这些词语叫做停止词。搜索引擎在索引页面之前会去掉这些停止词，使索引数据主题更为突出，减少无谓的计算量。

4、去噪声词

大部分学生页面里有这么一部分研究内容对页面设计主题没什么发展贡献，比如A页面的内容是一篇关于百度公司网站收录的文章，关键词是百度网站收录，但是我们除了教师讲解网站收录这个工作内容的主体内容外，共同组成社会这个问题页面的还有一些例如页眉，页脚，广告等区域。

这些部分出现的词可能与页面内容本身的关键词没有关系。搜索引擎的排名程序在对数据进行排名时无法参考这些噪音内容，因此需要在预处理阶段将这些噪音分离出来并消除。消除噪声的方法是根据HTML的标签对页面进行分块，如页眉是header标签，页脚是footer标签等等，去除掉这些区域后，剩下的才是页面主体内容。

5、内容去重

也就是我们去掉重复的网页，同一篇文章经常会出现重复在不同企业网站/同一个公司网站的不同网址上。对于用户的体验来说，去重复是必要的。搜索引擎识别并删除页面中的重复内容。这个过程被称为去重复，是影响百度网站内容的关键因素之一。

6、正向索引

索引经过文字提取、分词、消噪、去重后,搜索引擎得到的就是独特的、能反映页面主体内容的、以词为单位的内容。

接下来搜索引擎索引程序就可以提取关键词，按照分词程序划分好的词，把页面转换为一个关键词组成的集合，同时记录每一个关键词在页面上的出现频率、出现次数、格式（如出现在标题标签、黑体、H标签、锚文字等）、位置（如页面第一段文字等）。搜索引擎索引程序将页面及关键词形成词表结构存储进索引库。

7、倒排索引

假设用户搜索关键词2，如果只存在正向索引，排名程序需要扫描所有索引库中的文件，找出包含关键词2的文件，再进行相关性计算。

这样的计算量无法满足实时返回排名结果的要求，搜索引擎会提前对所有关键词进行分类，将正向索引数据库重新构造为倒排索引，把文件对应到关键词的映射转换为关键词到文件的映射，在倒排索引中关键词是主键，每个关键词都对应着一系列文件，比如下图第一排右侧显示出来的文件，都是包含了关键词1的文件。这样，当用户搜索某个关键词的时候，排名程序在倒排索引中定位这个关键词，就可以马上找到所有包含这个关键词的页面。

seo

三、搜索结果排名

经过搜索引擎蜘蛛抓取页面，索引程序计算得到的倒排索引后，搜索引擎就准备好可以随时处理用户搜索了。用户在搜索框中输入想要查询的内容后，排名程序调用索引库中的数据，计算排名并在搜索结果页面中显示内容。

1、搜索词处理

搜索引擎接收到用户输入的搜索词后,需要对搜索词做一些处理,才能进入排名过程。搜索词处理过程包括：中文分词、去停止词、指令处理。

完成上述步骤后，搜索引擎处理其余内容的默认方法是使用关键字之间的和逻辑。

比如用户在搜索框中输入“减肥的方法”，经过分词和去停止词后，剩下的关键词为“减肥”、“方法”，搜索引擎排序时默认认为，用户想要查询的内容既包含“减肥”，也包含“方法”。

2、文件匹配

搜索词经过处理后，搜索引擎得到的是以词为基础的关键词集合。进入的下一个发展阶段：文件进行匹配不同阶段，就是学生找出含有所有关键词的文件。在索引部分提到的倒排索引使得文件匹配能够快速完成，假设用户搜索“关键词1 关键词2”，排名程序只要在倒排索引中找到“关键词1”和“关键词2”这两个词，就能找到分别含有这两个词的所有页面文件。

3、初始子集的选择

找到包含所有关键词的匹配文件后，还不能进行相关性计算，因为找到的文件经常会有几十万几百万，甚至上千万个。要对这么多文件实时进行相关性计算,需要的时间还是比较长的。百度搜索引擎，最多只会返回760条结果，所以只需要计算前760个结果的相关性，就能满足要求。

由于所有匹配文件都已经具备了最基本的相关性（这些文件都包含所有查询关键词），搜索引擎会先筛选出1000个页面权重较高的一个文件，通过对权重的筛选初始化一个子集，再对这个子集中的页面进行相关性计算。

4、相关性计算

选出初始子集后，对子集中的页面计算关键词相关性。计算相关性是排名过程中最具有重要的一步，影响相关性的主要经济因素分析包括如下几个问题方面：

① 关键词常用程度

分词后，多个关键词对整个搜索字符串的意义贡献不同。越常用的词对搜索词的意义贡献越小，越不常用的词对意义贡献越大。因此，搜索引擎不会对搜索词串中的关键字一视同仁，而是根据权重的大小来进行处理。不常见词的加权系数较高，不常见词的加权系数较低，排序算法对不常见词的关注度较高。

② 词频及密度

一般认为，在没有关键词积累的情况下，搜索词在页面中出现的频率越高，密度越高，页面与搜索词的相关性越强。当然，这只是一般规律，实际情况未必如此，所以相关性计算还有其他因素。频率和密度只是等式的一部分，它们变得越来越不重要。

③ 关键词位置及形式

如索引部分所述，页面关键字的格式和位置记录在索引库中。关键词出现比较重要的位置,如标题标签、黑体等,说明页面与关键词越相关,这一部分就是页面SEO所要解决的。

④ 关键词距离

分段后关键词完全匹配的出现表明，它与搜索关键词的相关性最强。例如，在搜索“减肥方法”时，页面上出现的一整套“减肥方法”四个字是最相关的。如果“网站”和“建设”两个词没有连续匹配出现，或者出现的距离近一些，也被搜索引擎认为有一定的相关性。

⑤ 链接分析及页面权重

除了页面本身之外，页面之间的链接和权重的关系也会影响关键字的相关性，其中最重要的是锚文本。页面上以搜索词为锚文本的导入链接越多，页面的相关性就越强。链接分析还包括了链接源页面本身的主题和锚文字周边的文字等。

总结: 本文解释了搜索引擎是如何工作的。了解他们在百度是如何工作的很重要。例如，标题应该包括用户可能搜索的词，正确表示关键词或文本中的分割词有助于判断内容和用户的搜索词之间的相关性。

作者：道一
来源：微信公众号【燃灯SEO课堂】
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

相关标签： # HTML # html代码 # 计