【长春网站优化】详解robots.txt文件怎么写

  • A+
所属分类:网站优化知识

长春网站优化:详解robots.txt文件怎么写

对于某一个网站而言,搜索引擎是至关重要的,在服务器上哪些东西可以被查看,哪些东西不可以被查看。也就是说,robot.txt可以向搜索引擎发送“命令”。所以说,写好robots.txt是很重要的。那么robots.txt怎么写,有哪些写法技巧,本文会进行简单的介绍。

一、首先要明确robots.txt是什么

搜索引擎访问网站时第一个要查看的文件就是robots.txt文件。对每一个站点而言,最好都建立一个robots.txt文件,向蜘蛛程序(spider)发出指令:某些文件可查看,某些文件不可查看,即指定内容才可被搜索引擎收录。如果搜索引擎发现没有robots.txt文件,服务器的日志中将会报出一条404错误。所以robots.txt文件的建立是非常有必要的,及时是希望所有的内容都被收录,也应该建立一个空的robots.txt文件,注意robots、txt是一个纯文本的文件。

二、robots.txt文件存放在什么位置

robots.txt文件应当是存放在一个网站的根目录下。

三、robots.txt文件的格式是什么

robots.txt文件怎么写 robots.txt写法技巧

robots.txt文件里应该包含着有一条或者是多条记录,记录之间以空行分隔开,进行注解时使用#符号。使用Disallow语句对所需访问的内容进行限制,可以限制搜索引擎访问网站的目录、部分内容,或者只允许某种特定的搜索引擎进行访问。一个Disallow语句中的记录如果是空,表明这个网站里所有的内容都可以被访问,即被搜索引擎收录。

四、关于robots.txt文件的一些注意事项

1、明确robots.txt文件并不是毫无风险绝对安全的,对于一个网络攻击者而言,正是robots、txt文件向其指出了网站上的保密数据在哪里,同时也指明了网站的目录结构。要注意在设置权限时,对隐私内容进行保护,可以设置密码,使得攻击者无法获得数据进而进行攻击。

2、要了解,robots.txt文件的文件名必须小写,robots.txt文件里的内容的大小写是没有办法更改的。同时要知道,robots.txt文件中的所有内容是可以被spider程序抓取的,所以尽可能不要将重要的信息放在robots.txt文件里面。

3、有人认为如果某个网站中的全部内容都需要被spider抓取,那么robots.txt文件可以不用存在。这种想法都是存在问题的。在文章开头我们已经提到了,如果是要去找robots.txt文件而没有找到时,在服务器中会报出404错误。

4、也有人认为直接设置robots.txt文里的所有内容被spider抓取,这样就可以提高网站的收录百分率。要知道,当spider收录网站脚本程序这样的文件时,不仅不会提高收录率,还会占用一部分的服务器存储空间。所以,在进行robots.txt文件的编写时,要注意排除脚本程序这样的文件。

有时候你会发现,其实你并没有和搜索引擎有关系,但是你的主页仍然被索引了,原因就在于robots.txt文件没有写好。通过本文介绍的robots.txt的写法技巧,你就可以正确告诉抓取程序spider,页面上的哪些内容可以访问,哪些不可以访问了。

avatar

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: