当前位置:首页 » SEO » robots文件的写法和用法详解

robots文件的写法和用法详解

一、概念解读

robots.txt 文件是搜索引擎蜘蛛来到网站之后访问的第一文件,它用于指令搜索引擎蜘蛛禁止抓取网站某些内容或指定允许抓取某些内容。

二、写法解读

(1)robots.txt 文件必须放置在网站根目录下。

所以查看一个网站有没有设置robots文件的方法就是在浏览器地址栏中输入:www.xxx.com/robots.txt

《robots文件的写法和用法详解》

(2)robots.txt 文件名必须小写。
写法举例:
User-agent: *
Disallow: /ab/
Allow: /ab/cd/

(3)User-agent: 指定下面的规则适用于哪个蜘蛛。通配符 * 代表所有搜索引擎。

(4)Disallow: 告诉蜘蛛不要抓取某些文件或目录。

(5)Allow: 告诉蜘蛛应该抓取某些文件。由于不指定就是允许抓取,所以Allow单独写没有意义,一般与Disallow配合,可以告诉蜘蛛某个目录下大部分不允许抓取,只允许抓取一部分。

(6)$通配符:匹配URL结尾的字符。例如,下面代码将允许蜘蛛抓取以.htm为后缀的URL。

举例:
User-agent: *
Allow: .htm$

(7)*通配符:告诉蜘蛛匹配任意一段字符。例如,下面代码将禁止蜘蛛抓取所有html文件。
举例:

User-agent: *
Disallow:  /*.html

(8)Sitemaps位置:告诉蜘蛛XML网站地图在哪里,格式为:
         Sitemap: <网站地图位置>


主流的搜索引擎都会遵守 robots 文件指令,但是被robots 文件禁止抓取的网址还是可能出现在搜索引擎结果中。只要有导入链接指向这个URL,搜索引擎就知道这个URL的存在,虽然不会抓取页面内容,但是索引库中还是有这个URL的信息。

点赞

发表评论