robots.txt文件的设置方法，让搜索引擎正确抓取

DATE:2013-05-09 08:17:40

搜索引擎来网站抓取内容的时候，首先会访问你网站根目录下的一个文本文件robots.txt，搜索引擎机器人通过robots.txt里的说明，来理解该网站是否可以全部抓取，或只允许部分抓取。

标签：

注意：网站的robots.txt文件一定要存放在网站的根目录。

robots.txt文件举例说明
禁止所有搜索引擎访问网站的任何内容
User-agent: *
Disallow: /

　　禁止所有搜索引擎抓取某些特定目录
User-agent: *
Disallow: /目录名1/
Disallow: /目录名2/
Disallow: /目录名3/

　　允许访问特定目录中的部分url
User-agent: *
Allow: /158
Allow: /joke

　　禁止访问网站中所有的动态页面
User-agent: *
Disallow: /*?*

仅允许百度抓取网页和gif格式图片，不允许抓取其他格式图片
User-agent: Baiduspider
Allow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$

　　1.屏蔽404页面
Disallow: /404.html

　　2.屏蔽死链
原来在目录为/158下的所有链接，因为目录地址的改变，现在都变成死链接了，那么我们可以用robots.txt把他屏蔽掉。
Disallow： /158/

　　3.屏蔽动态的相似页面
假设以下这两个链接，内容其实差不多。
/XXX?123
/123.html
我们要屏掉/XXX?123 页面，代码如下：
Disallow： /XXX?

　　4.告诉搜索引擎你的sitemap.xml地址
具体代码如下：
Sitemap：你的sitemap地址

SEO优化技术