搜索引擎蜘蛛的优先抓取策略

搜索引擎蜘蛛的优先抓取策略

作者:max |  时间:2015-07-03 |  浏览:2011 |  1 条评论

随着互联网资源呈现几何形态的迅速突变,对于搜索引擎来说抓取资源并保持资源的有效更新也变得异常困难,因此这就要求搜索引擎设计一套合理的优先抓取策略,针对网站优化,搜索引擎现行的有效的抓取策略主要包括深度优先策略、宽度优先策略、pr优先策略等等,其实每个策略各有优劣,实际工作中往往是多种策略结合以达到最佳化的抓取效果。

搜索引擎的蜘蛛抓取网页是有着一定的规律,不会去随便抓取网页,那么我们就围绕搜索引擎的蜘蛛工作原理,分析一下这四种抓取优先策略:

深度优先策略

所谓深度优先,就是蜘蛛在一个页面中发现第一个超链接,然后爬取这个页面,当爬到第二个页面后,在第二个页面发现的第一个超链接,然后再顺着往下爬,如图:

深度优先策略

深度优先策略导致蜘蛛抓取的网页的质量,越来越低,并且在传递网站权重上也有着根本的问题。

宽度优先策略

在深度优先上,搜索引擎有着根本的问题,那么在之后,搜索引擎又推出了蜘蛛抓取的第二个策略,也就是宽度优先,宽度优先指的是,蜘蛛会先把这个页面所有的链接都爬一次,然后在顺着这些链接往下爬,如下图:

宽度优先策略

宽度优先策略也存在着问题,那就是蜘蛛抓取的效率和质量问题。

先宽后深-权重优先策略

现在搜索引擎是宽度和深度优先的结合,蜘蛛在抓取一个网页的时候,会先把这个页面所有的链接都抓取一次,然后再根据链接的权重判定,哪个链接的权重高,那么就采用深度优先,哪个链接的权重低,就采用宽度优先或者不抓取。

再次抓取策略

再次抓取策略,搜索引擎蜘蛛在抓取完这个网页之后,然后根据这个页面的权重、包括它的更新频率、更新质量、外链的数量等来判定,那么对于权重高的页面,蜘蛛会在相隔较短的时间段在回来重新抓取,比如新浪网,权重很高,搜索引擎蜘蛛都是按照秒来重新抓取的。而对于一些权重较低的页面,比如长期不更新的页面,那么蜘蛛会隔好长时间再来抓取一次。

相关推荐
更多

网站迟迟不被百度收录?
Posted on 04月09日
seo网站优化流量的多样性
Posted on 05月14日
关键字排名查询工具
Posted on 05月27日
浅析nofollow标签的使用
Posted on 04月06日