常见robots文件写法技巧

常见robots文件写法技巧
所属分类:SEO优化技术 最后更新:2018年08月06日

1.robots.txt文件是什么

robots.txt是一个纯文本文件,是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

每个站点最好建立一个robots.txt文件,对seo更友好。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt(即使这个robots.txt文件只是一个空文件)。

2.robots.txt的写法(语法)

1)User-agent: 该项的值用于描述搜索引擎蜘蛛的名字。如果该项的值设为*,则该协议对任何机器人均有效。

2)Disallow: 该项的值用于描述不希望被访问到的一个URL,一个目录或者整个网站。以Disallow 开头的URL 均不会被搜索引擎蜘蛛访问到。

任何一条 Disallow 记录为空,说明该网站的所有部分都允许被访问。

3)用法举例:

网站目录下所有文件均能被所有搜索引擎蜘蛛访问

User-agent: *

Disallow:

禁止所有搜索引擎蜘蛛访问网站的任何部分

User-agent: *

Disallow: /

禁止所有的搜索引擎蜘蛛访问网站的几个目录

User-agent: *

Disallow: /a/

Disallow: /b/

禁止搜索引擎蜘蛛访问目录a和目录b

只允许某个搜索引擎蜘蛛访问

User-agent: Googlebot

Disallow:

您应该限制网站某些文件不被蜘蛛抓取。

一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。

3.robots.txt文件带来的风险以及解决

robots.txt 同时也带来了一定的风险:其也给攻击者指明了网站的目录结构和私密数据所在的位置。设置访问权限,对您的隐私内容实施密码保护,这样,攻击者便无从进入。

4.常见搜索引擎蜘蛛Robots名字

Baiduspider :http://www.baidu.com

Scooter :http://www.altavista.com

ia_archiver: http://www.alexa.com

Googlebot :http://www.google.com

Inktomi Slurp :http://www.yahoo.com

FAST-WebCrawler: http://www.alltheweb.com

Slurp :http://www.inktomi.com

MSNBOT :https://search.msn.com

5.注意事项:

1)robots.txt必须放置在站点的根目录下,而且文件名必须全部小写。

2)不要在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取。

3)为安全考虑,建议很重要的文件夹不要写在robots.txt文件中,或你只建一个空白robots.txt文件。

avatar

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: