临近放假,基本上没有什么课了,接下来主要是对考试内容的复习

咱们专业也是戴上了考试课最多的帽子,结课考试要考七门

排的是三天考试时间,时间的话,还好,反正比高中考试轻松很多

下午复习本学期seo课程的时候,心血来潮乘着下午不忙的时候要不要给自己的博客优化一下

立刻打开百度site了一下我的博客域名

一个月前看还是单纯的一个首页,惊喜的发现自己链接已经被收录了30条

惊喜的同时也给我带来了惊吓,自己的一篇文章被百度搜索引擎重复收录了二十多篇,这.......

69539-i5x6ikt0m7t.png

67212-0lsjunim57ce.png

45966-heisviuud69.png

仔细分析发现这些被重复收录的链接基本上都是 ?replyTo= 这样的参数页,每个评论参数都被搜索引擎误认为一个新的页面

导致了百度蜘蛛的重复抓取和重复收录,还记得上课SEO老师讲过,搜索引擎重复收录一个页面链接

等百度引擎排查会认为你是批量做收录,会被拉入收录黑名单,汗,我这个不就正是这样吗,焯!

再仔细排查其他收录的链接,也有几篇收录的rss订阅链接,访客点进去,一堆看不懂的xml的代码

访客看见这些页面肯定会一下跳出去,这样只会增加自己的文章跳出率和网站的跳出率,不利于流量的留存

文章跳出率较高百度蜘蛛会认为你的文章质量不高,也会降低收录速度

解决方法其实很简单,在网站根目录放置一个 robots.txt 文件告诉各大搜索引擎蜘蛛那些目录可以爬,那些目录不可以爬

当然还是自己做博客之前的疏忽,才导致这样的结果,亡羊补牢,为时不晚,写了个 robots.txt 放入网站根目录

User-agent: *

Disallow:

Disallow: /feed

Disallow: /?replyTo=

Disallow: /admin

这里我主要是对后台地址和订阅地址,评论参数进行禁止访问

这样等待下次搜索引擎抓取更新,这些被重复收录的链接,就会被清理掉

如果担心自己的规则写错,也可以在百度资源平台的站点管理测试一下

28381-e0x3y1nybu9.png

24044-jspgtajhno.png

47008-7ycb9p20629.png

这样,测试之后,自己写的规则就生效了

当然不在意收录的博友可以忽略这些步骤

我的博客即将同步至腾讯云+社区,邀请大家一同入驻:https://cloud.tencent.com/developer/support-plan?invite_code=u6wnjiw8l3gr

感谢来访