SEO系统培训:搜索引擎如何对网站进行爬行和抓取
重点导读:搜索引擎爬行和抓取页面是很简单的,但是网上的页面太多,因此搜索引擎不得不优化调整抓取策略。但不管策略如何变化,它的爬行和抓取流程基本是不变的。值得我们注意的是,网站权重的高低和网站更新的频率,会直接影响到搜索引擎对于网站的爬行和抓取!
发布人:沐风 - 更新时间:2020-09-02 08:08:45 - 地址:http://www.tangmengyun.com/seo/2279.html - 浏览:4016
笔者前面给大家介绍过搜索引擎工作原理,可能有些朋友并没有去看,或者是看了但是理解不多。鉴于有朋友问到关于搜索引擎如何对网站进行爬行和抓取的问题,这里笔者就再给大家简要的解释下。
首先要知道,搜索引擎是通过叫做蜘蛛的爬虫去爬行和抓取网页,并且将数据返回到数据库。
在搜索引擎的数据库里面,有很多的种子URL,蜘蛛最开始会通过这些种子URL,展开蜘蛛网式的爬行。理论上说,只要网页存在着链接关系,蜘蛛是可以都爬行到的。
那么搜索引擎蜘蛛指怎么爬行和抓取我们的网站呢?我们网站又不是搜索引擎的种子URL。其实这个问题大家不用担心。目前搜索引擎已经有很多种方式去发现新的页面,比如可以通过其他的类似外链的形势发现,比如说我们主动提交,以及通过统计功能去发现等。
目前做网站优化的朋友,基本都是主动型的,大家都会去主动提交URL,也会适当的去做些外链。所以说,网站页面被蜘蛛发现是没有问题的,问题在于页面收录。
前面说到了蜘蛛发现页面链接,那接下来是怎么爬行和抓取呢?分为了以下几个步骤:
1、提取页面内容。这里包括提取页面里面的链接,并进行去重处理,然后把提取的链接返回到待抓取的链接库;另外就是提取页面的主体内容,这个搜索引擎会根据页面类型,有对应的提取策略。
2、分析页面内容。爬行和抓取后,蜘蛛会对页面主体内容进行初次审核,不符合收录要求的会被丢弃,符合收录的页面会放置到数据库,至于是否及时放出,跟网站权重的高低有关系,这也是搜索引擎的综合判断。
3、再次爬行。蜘蛛把提取的链接返回去之后,可能会继续爬行,也可能要隔断时间再爬行,这要取决于搜索引擎的爬行策略,不同的网站会得到不同的对待。
以上内容就是搜索引擎爬行和抓取页面的基本情况。总之来说,搜索引擎爬行和抓取页面是很简单的,但是网上的页面太多,因此搜索引擎不得不优化调整抓取策略。但不管策略如何变化,它的爬行和抓取流程基本是不变的。值得我们注意的是,网站权重的高低和网站更新的频率,会直接影响到搜索引擎对于网站的爬行和抓取!
SEO系统培训:搜索引擎如何对网站进行爬行和抓取所属标签蜘蛛抓取 下的相关文章推荐
- 网站频繁更新内容却没有蜘蛛抓取的原因 - 浏览量:2611
- 蜘蛛爬取频次跟什么有关,蜘蛛抓不到内容时会发生什么 - 浏览量:1311
- 蜘蛛抓取跟权重有关系吗,哪些因素影响蜘蛛抓取 - 浏览量:1144
- 搜索引擎不抓取站点的原因,如何解决 - 浏览量:1292
- 搜索引擎蜘蛛抓取页面的依据是什么 - 浏览量:2010
- 蜘蛛抓取页面没有记录是怎么回事 - 浏览量:1942
- 普通用户看不到的页面蜘蛛会抓取收录吗 - 浏览量:1942
- 搜索引擎抓取频率和男女朋友约会频率的相似点 - 浏览量:2220
- 网站是否需要禁止一些不知名的蜘蛛 - 浏览量:2896
- 案例:百度蜘蛛抓取的速度还是挺慢的 - 浏览量:2664
上一篇>> 网站如何查询友链是不是有效了下一篇>> 最近百度收录的时间变慢了
沐风博客最新文章
- 文章断更对网站有什么影响 - 2024-09-14
- 很久没更新,沐风博客首页关键词上来了几个 - 2024-08-28
- 外链优化是什么,外链优化的原则和步骤 - 2024-07-25
- 微信视频号流量池规则和流量算法,分级标准及打开流量池的8大技巧 - 2024-07-24
- 百度搜索对技术性内容有特别的展示机制 - 2024-07-24
- 百度搜索的“普通收录”功能貌似没有作用 - 2024-07-21
- 百度搜索貌似在打击SEO优化 - 2024-07-19
- 抖音新账号播放也能做到10万+ - 2024-07-16
- 抖音直接在手机上发作品貌似没有标题 - 2024-07-08
- 微信视频号点赞的都是好友吗 - 2024-07-08