临近放假,基本上没有什么课了,接下来主要是对考试内容的复习
咱们专业也是戴上了考试课最多的帽子,结课考试要考七门
排的是三天考试时间,时间的话,还好,反正比高中考试轻松很多
下午复习本学期seo课程的时候,心血来潮乘着下午不忙的时候要不要给自己的博客优化一下
立刻打开百度site了一下我的博客域名
一个月前看还是单纯的一个首页,惊喜的发现自己链接已经被收录了30条
惊喜的同时也给我带来了惊吓,自己的一篇文章被百度搜索引擎重复收录了二十多篇,这…….
仔细分析发现这些被重复收录的链接基本上都是 ?replyTo= 这样的参数页,每个评论参数都被搜索引擎误认为一个新的页面
导致了百度蜘蛛的重复抓取和重复收录,还记得上课SEO老师讲过,搜索引擎重复收录一个页面链接
等百度引擎排查会认为你是批量做收录,会被拉入收录黑名单,汗,我这个不就正是这样吗,焯!
再仔细排查其他收录的链接,也有几篇收录的rss订阅链接,访客点进去,一堆看不懂的xml的代码
访客看见这些页面肯定会一下跳出去,这样只会增加自己的文章跳出率和网站的跳出率,不利于流量的留存
文章跳出率较高百度蜘蛛会认为你的文章质量不高,也会降低收录速度
解决方法其实很简单,在网站根目录放置一个 robots.txt 文件告诉各大搜索引擎蜘蛛那些目录可以爬,那些目录不可以爬
当然还是自己做博客之前的疏忽,才导致这样的结果,亡羊补牢,为时不晚,写了个 robots.txt 放入网站根目录
User-agent: *
Disallow:
Disallow: /feed
Disallow: /?replyTo=
Disallow: /admin
这里我主要是对后台地址和订阅地址,评论参数进行禁止访问
这样等待下次搜索引擎抓取更新,这些被重复收录的链接,就会被清理掉
如果担心自己的规则写错,也可以在百度资源平台的站点管理测试一下
这样,测试之后,自己写的规则就生效了
当然不在意收录的博友可以忽略这些步骤
我的博客即将同步至腾讯云+社区,邀请大家一同入驻:https://cloud.tencent.com/developer/support-plan?invite_code=u6wnjiw8l3gr
感谢来访