我们这样做

咨询电话

免费帮助企业建立技术支持 并达成切实可行的建议010-56105666 56105888
当前位置:北京网站建设公司 > 专题 > 网站安全

robots.txt有那些作用,robots.txt怎么写
深度解析robots.txt文件生成规则

上千家网站建设与网站设计制作经验,几十项软件开发专利与著作权,通奇科技是您最佳的选择。

什么是robots.txt文件

1.robots.txt是搜索引擎访问网站的时候要查看的第一个文件,简单的说robots.txt是一个协议,而不是一个命令。

2.robots.txt文件会告诉蜘蛛程序在服务器上什么文件是可以被查看的,什么文件是不允许查看的。举一个简单的例子:当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。同时robots.txt是任何人都可公开访问的,恶意攻击者可以通过分析robots.txt的内容,来获取敏感的目录或文件路径等信息。

robots.txt的作用

1、建立robots.txt,为的是让搜索引擎看来网站更规范和权威。
2、用robots.txt屏蔽相似的页面或没内容的页面。
3、用robots.txt屏蔽多余的链接,当动态和静态共存时,一般去掉动态的。
4、用robots.txt屏蔽死链接。
5、用robots.txt屏蔽可能存在的“被K”外部链接。

robots.txt的使用误区

1、robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

2、网站上所有的文件都需要被蜘蛛抓取,那就没必要添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。

3、在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。网站中的脚本程序、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会占用服务器存储空间。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引脚本程序、样式表等文件,具体哪些文件需要排除。

4、搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件中设置所有的搜索蜘蛛都不能抓取全部的网页。如果这样的话,会导致整个网站不能被搜索引擎收录。

5、robots.txt文件有可能泄露系统中的敏感信息,如后台地址或者不愿意对外公开的地址等,恶意攻击者有可能利用这些信息实施进一步的攻击。

robots.txt文件生成规则与robots.txt写法

例1. 禁止所有搜索引擎访问网站的任何部分 User-agent: *
Disallow: /
例2. 允许所有的robot访问
(或者也可以建一个空文件 "/robots.txt")
User-agent: *
Allow: /
例3. 仅禁止Baiduspider访问您的网站 User-agent: Baiduspider
Disallow: /
例4. 仅允许Baiduspider访问您的网站 User-agent: Baiduspider
Allow: /

User-agent: *
Disallow: /
例5. 仅允许Baiduspider以及Googlebot访问 User-agent: Baiduspider
Allow: /

User-agent: Googlebot
Allow: /

User-agent: *
Disallow: /
例6. 禁止spider访问特定目录
在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明,而不能写成 "Disallow: /cgi-bin/ /tmp/"。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例7. 允许访问特定目录中的部分url User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例8. 使用"*"限制访问url
禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
User-agent: *
Disallow: /cgi-bin/*.htm
例9. 使用"$"限制访问url
仅允许访问以".htm"为后缀的URL。
User-agent: *
Allow: /*.htm$
Disallow: /
例10. 禁止访问网站中所有的动态页面 User-agent: *
Disallow: /*?*
例11. 禁止Baiduspider抓取网站上所有图片
仅允许抓取网页,禁止抓取任何图片。
User-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
例12. 仅允许Baiduspider抓取网页和.gif格式图片
允许抓取网页和gif格式图片,不允许抓取其他格式图片
User-agent: Baiduspider
Allow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$
例13. 仅禁止Baiduspider抓取.jpg格式图片 User-agent: Baiduspider
Disallow: /*.jpg$
北京网站建设公司 | 本文地址:http://www.8610.cc/zt/wzaq/144.html
最新专题信息
 
公司动态 | 加入我们 | 联系我们 版权所有 Copyright © 2011-2012 北京通奇科技有限公司
 网站建设 | 网站设计 | 软件开发 | 网络推广 | B Z M