当前位置:思维粮食 » SEO优化 » SEO:百度蜘蛛的抓取分析原理,我的理解

SEO:百度蜘蛛的抓取分析原理,我的理解

做SEO就要知道百度蜘蛛(Spider)的,对于SEO新手百度蜘蛛是个神奇的东西,这么说蜘蛛不会太明白。用“爬虫”这个词可能更接地气。今天我们就说下SEO常说的;百度蜘蛛抓取是怎么分析的,是什么原理。以下是思维粮食的理解:

百度logo

spider(百度蜘蛛)抓取系统的是有基本框架图,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。Baiduspider即是通过这种系统的通力合作完成对互联网页面的抓取工作。这是百度官方的原话,时间已是2014年。

SEO:百度蜘蛛的抓取分析原理,我的理解 第二图

看到上图,你肯定蒙圈了,下文是笔者对百度蜘蛛爬虫的理解,供你参考。

今天我们来说一下如何了解这个百度搜索引擎的爬虫的工作原理以及流程,今天我在赵彦刚的公众号看了这么一篇文章,结合我自己的理解内容如下:

第一步、URL,就是所谓的种子URL就是网站的首页、文章、栏目页等等,作为种子页面;

第二步、抓取URL解析,网站中抓取的则URL会将通过DNS解析,将整个url地址转化为服务器的IP地址和相对路径这么一种方式;

第三步、下载页面,蜘蛛进行网页下载,顾名思义就是下载网页的内容;

第四步、解读源代码,指的就是网站的源代码,一方面是网页会存入网页数据库,另外一个方面作用就是在从下载网页中提取新url地址。

第五步、抓取url ,新提取URL会先和已抓取的URL列表进行比对,检查网页URL是否被抓取收录过;

然后如果没有的话,新的URL将存入待抓取的列表。如此循环,直到把所有的url抓取空,就算完成了抓取的全部过程,

第八,已下载的网页都会进入一个进入分析入库,分析进行索引,所以,有价值才会有收录!

总结:百度蜘蛛的抓取分析原理几个要点:种子URL(也就是待抓取RUL列表)-DNS解析-读取URL-网页下载-源代码(包含:已下载网页库-分析入库,已抓取的URL)-抽取链接-回到待抓取URL列表。循环!

另外,笔者也总结了痞子瑞对于SEO的搜索引擎原理和分析:

1、互联网(用户、搜索需求者)

2、spider蜘蛛爬虫:按照一定的策略把网页带回搜索引擎服务器

3、内容处理:内容噪音,链接抽离,提取主题文档内容…

4、分词技术(去重)中文分词,去掉停止词…

5、索引(包含反作弊系统:内容的相关性,链接分析,用户体验)这些会影响网页排序

对网页内容判定是否有重复,提出重复对剩下的网页进行排序索引,等待用户检索。

6、网页排序-缓存机制-查询分析-用户体验

网页排名:是根据用户搜索词和需求,对索引库中的网页进行相关性、重要性(权重)和用户体验好不好进行分析等得出的,用户在搜索结果中的点击和重复搜索行为就告诉了搜索引擎,这个页面好不好。

 

以上是笔记对SEO的理解,也是对百度搜索引擎蜘蛛爬去、抓取原理的浅见。

相关推荐:常说的SEO关键词布局是啥意思?

原创不易:转载-请注明出处,谢谢!

未经允许不得转载:思维粮食 » SEO:百度蜘蛛的抓取分析原理,我的理解

赞 (2)
点个赞吧