我要投稿

wordpress的Robots.txt协议详解和优化

有鱼经验教程

2019-09-18 0 677

什么是Robots协议
Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

搜索引擎机器人访问网站时，首先会寻找站点根目录有没有 robots.txt文件，如果有这个文件就根据文件的内容确定收录范围，如果没有就按默认访问以及收录所有页面。另外，当搜索蜘蛛发现不存在robots.txt文件时，会产生一个404错误日志在服务器上，从而增加服务器的负担，因此为站点添加一个robots.txt文件还是很重要的。
robots.txt怎么写
一般robots.txt是如下这样的格式：

User-agent: * 
Disallow: XXX
Allow: XXX

User-agent：参数是指定搜索引擎的，通常参数是一个*号，代表所有搜索引擎

Disallow: 表示不允许

Allow:表示允许

知道Robots协议的作用和格式之后，下面具体说一下WordPress站点如何编写robots.txt文件。

WordPress的Robots.txt协议详解并优化
WordPress站点默认在浏览器中输入：http://你的域名/robots.txt，会显示如下内容：

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

这是由WordPress自动生成的，意思是告诉搜索引擎不要抓取后台程序文件。

WordPress站点如何编写robots.txt文件
但这是远远不够的，我们需要新建一个robots.txt文件，然后把下面内容复制进去保存。

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /category/*/page/
Disallow: /tag/*/page/
Disallow: /*/trackback
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /*?*
Disallow: /attachment/

保存好后，直接上传到你的网站根目录即可，可以通过访问 http://你的域名/robots.txt 检查你是否上传成功。

wordpress的Robots.txt协议详解
那么上面文件里的内容分别代表什么意思呢？普及下小知识。

1、Disallow: /wp-admin/、Disallow: /wp-content/和Disallow: /wp-includes/

用于告诉搜索引擎不要抓取后台程序文件页面。

2、Disallow: /*/comment-page-*和Disallow: /*?replytocom=*

禁止搜索引擎抓取评论分页等相关链接。

3、Disallow: /category/*/page/和Disallow: /tag/*/page/

禁止搜索引擎抓取收录分类和标签的分页。

4、Disallow: /*/trackback

禁止搜索引擎抓取收录trackback等垃圾信息

5、Disallow: /feed、Disallow: /*/feed和Disallow: /comments/feed

禁止搜索引擎抓取收录feed链接，feed只用于订阅本站，与搜索引擎无关。