百度搜索提取页面内容教程
重点导读:百度搜索真正的提取工作要复杂得多,大家可以通过本文做个大概的了解。了解百度搜索提取页面内容的原理和过程,对于提升页面质量度有很大的帮助,比如把页面做成漂亮的图片,但只有很少的文本内容,这就不行!本文还可以帮助大家理解外链、投票等。
发布人:沐风 - 更新时间:2022-05-11 09:51:51 - 地址:http://www.tangmengyun.com/seo/3386.html - 浏览:2348
我们都知道搜索引擎会爬行和提取页面内容,但是到底是怎么提取内容的呢,本文沐风SEO就通过案例简单的给大家解释下。如果你不知道搜索引擎是怎么提取内容的,看完本文相信就基本清楚了。
上面这个是页面源代码内容,可以看到有很多的内容,包括了英文字母和汉字文本。
这是前端,这里没有加更多的css样式,通常页面里面都会有很多的样式的,前端显示也会更好看。
那么对于这个页面,百度搜索是怎么提取内容的呢?简单说有以下几个部分:
1、页面标题:水煮鱼的做法。
注意这里又会进行中文分词,会分成“水煮鱼”“做法”“水煮鱼做法”,分词和组合。
2、正文内容。百度搜索只提取有意义的词,过滤没有意义的词。
有意义的词:鱼/鱼肉片/鱼片/盐/淀粉/大蒜/干辣椒/姜/锅/油/姜/蒜/红辣椒/火锅底料/水/黄豆芽/蔬菜/鱼片,可以看到,这些提取的词基本都是名词。
无意义的词:比如首先/下来/和/然后/最后/即可等等这些。
辅助性的词:比如处理/干净/抓匀/切末/烧热/烧开/自己喜欢/腌制好等等。
可以看到,有意义的词是必不可少的,少了这些词页面内容就不完整了。但无意义的词去掉以后并不会改变页面内容,而辅助性的词则是帮助用户更好阅读。在通过指纹计算相关性的时候,主要是参考和计算有意义的词。
上面内容出现频率高的词是:鱼、鱼片,它们的权重会更高,其他的词重要性会根据频率降低。
3、链接:<a href="www.baidu.com">鱼肉片</a>,搜索引擎会把这个URL收集并返回到链接数据库,同时记录下这个锚文本并且计算相应的权重值。
以上就是百度搜索提取页面内容的简单过程和内容,这里大家可以拓展下,思考下文章内容的原创度。
百度搜索提取内容以后,会进行指纹处理,如果两篇文章的指纹特征高度相同,就能基本判断后面收录的内容是采集的,或者是简单伪原创的。所以,大家在编辑伪原创文章的时候,就不能只是简单的段落调换,或者简单的加些链接词、语气词,这些都不足以提升原创度。
当然,百度搜索真正的提取工作要复杂得多,大家可以通过本文做个大概的了解。了解百度搜索提取页面内容的原理和过程,对于提升页面质量度有很大的帮助,比如把页面做成漂亮的图片,但只有很少的文本内容,这就不行!本文还可以帮助大家理解外链、投票等,这里不展开细说。
百度搜索提取页面内容教程所属标签蜘蛛抓取 下的相关文章推荐
- 新站如何吸引蜘蛛,新站吸引百度蜘蛛的7个SEO技巧 - 浏览量:405
- 蜘蛛爬取频次跟什么有关,蜘蛛抓不到内容时会发生什么 - 浏览量:434
- 蜘蛛抓取跟权重有关系吗,哪些因素影响蜘蛛抓取 - 浏览量:269
- 搜索引擎不抓取站点的原因,如何解决 - 浏览量:522
- 怎么吸引蜘蛛来网站抓取内容 - 浏览量:1011
- 搜索引擎蜘蛛抓取页面的依据是什么 - 浏览量:1052
- 怎么让百度蜘蛛不抓取页面中的某个链接 - 浏览量:1346
- 蜘蛛抓取页面没有记录是怎么回事 - 浏览量:1193
- 普通用户看不到的页面蜘蛛会抓取收录吗 - 浏览量:1184
- 新站有哪些渠道可以吸引大量蜘蛛 - 浏览量:1794
上一篇>> 搜外问答上的外链有权重输出吗下一篇>> 分享SEO干货的有趣现象
沐风博客最新文章
- 百家号新手期转正需要多长时间,不转正会怎样 - 2024-04-18
- 抖音小黄车带货佣金是多少,平台扣点吗 - 2024-04-18
- 入驻亚马逊需要多少费用,入驻亚马逊需要哪些条件 - 2024-04-18
- 电商B2C模式的优势和劣势 - 2024-04-18
- 搜狐自媒体收益怎么样,有哪些收益方式 - 2024-04-18
- 商品详情页的作用,如何设计商品详情页 - 2024-04-18
- 公众号文章的在看有什么用,在看数量怎么看 - 2024-04-18
- 提升关键词排名价格,SEO和SEM哪种更好 - 2024-04-18
- 微信视频号引流效果怎样,微信视频号怎么引流 - 2024-04-17
- 网络营销品牌策略有哪些,网络营销品牌策略分析 - 2024-04-17