搜索引擎排名全攻略
 
对Google更新过程的最终解释
大型网站的Google排名策略
四年来GOOGLE PR更新日记
搜索引擎及其优化的新趋势
Google上市后PR变更的变化探讨
关于Google搜索引擎作弊的解释
Gooele排名PR页查询
Google 网站品质指南
Google披露自己的成功技术秘诀
Google专注于搜索将成致命弱点
Google搜索秘技数则
Google的左手
更深了解Google
Google排名原理
Google的特殊功能
Google树立起的20亿品牌
Google中site:的使用方法
Google上市后面临新挑战
为什么Google上搜不到我的网页
GoogleGuys为何人?
Google小秘密
影响google更新网站的因素
Google双重列表
提高网站在Google中的排名
面包屑型网站架构
Google排名优化专栏(1)
Google排名优化专栏(2)
搜索引擎优化专栏—自动转向
如何针对MSN搜索进行网站优化
关键字的相关程度
页面各个元素的权重比例
Alexa网站排名作弊简单方法
导航网站登陆
探索Google排名新算法(一)
探索Google排名新算法(二)
探索Google排名新算法(三)
Google sandbox效应
了解Google Dance工具
GOOGLE排名优化工具集
网站PR值的作用是不是被高估了
各网站努力提升搜索排名 Google成为受益者
Google将加强整治spam
自然查询结果最受用户推崇
80%的使用者不会看第三页以下的搜索结果
如何领先于Google排名的算法
中文搜索引擎的十大误区
更深了解Google排名
创建Google关键词广告的12高招
Google排名不是简单的网页优化
Google左侧排名攻略
Google排名经验谈
Google网站排名下降的主要原因
了解Google Dance工具
如何提高网站的Google PR值
如何建立网站地图(site map)
如何选择合适的域名
搜索引擎和网站的目录结构
创建有意义的链接人气度
Robots.txt指南(google排名)
几款搜索引擎优化检测工具
搜索引擎排名算法新趋势
搜索引擎的十大秘密
Google排名竞赛报道
Google走向辉煌
Goolge左侧排名
哪些因素决定网站SEO的价格
伤心SEO之太平洋
google,我的爱人
Google Deskbar又出新功能
google搜索原理论文
Google向网站管理员提供的信息
搜索引擎全方位知识
 

Robots.txt指南

当搜索引擎访问一个网站时,它首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。Robots.txt文件用于限定搜索引擎对其网站的访问范围,即告诉搜索引擎网站中哪些文件是允许它进行检索(下载)的。这就是大家在网络上常看到的“拒绝Robots访问标准”(Robots Exclusion Standard)。下面我们简称RES。 Robots.txt文件的格式:Robots.txt文件的格式比较特殊,它由记录组成。这些记录通过空行分开。其中每条记录均由两个域组成:
   1) 一个User-Agent(用户代理)字符串行;
   2) 若干Disallow字符串行。
   记录格式为:<Field> ":" <value>
   下面我们分别对这两个域做进一步说明。
User-agent(用户代理):
   User-agent行(用户代理行) 用于指定搜索引擎robot的名字,以Google的检索程序Googlebot为例,有:User-agent: Googlebot
   一个robots.txt中至少要有一条User-agent记录。如果有多条User-agent记录,则说明有多个robot会受到RES标准的限制。当然了,如果要指定所有的robot,只需用一个通配符"*"就搞定了,即:User-agent: *
Disallow(拒绝访问声明):
   在Robots.txt文件中,每条记录的第二个域是Disallow:指令行。这些Disallow行声明了该网站中不希望被访问的文件和(或)目录。例如"Disallow: email.htm"对文件的访问进行了声明,禁止Spiders下载网站上的email.htm文件。而"Disallow: /cgi-bin/"则对cgi-bin目录的访问进行了声明,拒绝Spiders进入该目录及其子目录。Disallow声明行还具有通配符功能。例如上例中"Disallow: /cgi-bin/"声明了拒绝搜索引擎对cgi-bin目录及其子目录的访问,而"Disallow:/bob"则拒绝搜索引擎对/bob.html和/bob/indes.html的访问(即无论是名为bob的文件还是名为bob的目录下的文件都不允许搜索引擎访问)。Disallow记录如果留空,则说明该网站的所有部分都向搜索引擎开放。
空格 & 注释
   在robots.txt文件中,凡以"#"开头的行,均被视为注解内容,这和UNIX中的惯例是一样的。但大家需要注意两个问题:
   1) RES标准允许将注解内容放在指示行的末尾,但这种格式并不是所有的Spiders都能够支持。譬如,并不是所有的Spiders都能够正确理解"Disallow: bob #comment"这样一条指令。有的Spiders就会误解为Disallow的是"bob#comment"。最好的办法是使注解自成一行。
   2) RES标准允许在一个指令行的开头存在空格,象"Disallow: bob #comment",但我们也并不建议大家这么做。
Robots.txt文件的创建:
   需要注意的是,应当在UNIX命令行终端模式下创建Robots.txt纯文本文件。好的文本编辑器一般都能够提供UNIX模式功能,或者你的FTP客户端软件也“应该”能够替你转换过来。如果你试图用一个没有提供文本编辑模式的HTML编辑器来生成你的robots.txt纯文本文件,那你可就是瞎子打蚊子——白费力气了。
对RES标准的扩展:
   尽管已经提出了一些扩展标准,如Allow行或Robot版本控制(例如应该忽略大小写和版本号),但尚未得到RES工作组的正式批准认可。
附录I. Robots.txt用法举例:
   使用通配符"*",可设置对所有robot的访问权限。
   User-agent: *
   Disallow:
   表明:允许所有搜索引擎访问网站下的所有内容。
   User-agent: *
   Disallow: /
   表明:禁止所有搜索引擎对网站下所有网页的访问。
   User-agent: *
   Disallow: /cgi-bin/Disallow: /images/
   表明:禁止所有搜索引擎进入网站的cgi-bin和images目录及其下所有子目录。需要注意的是对每一个目录必须分开声明。
   User-agent: Roverdog
   Disallow: /
   表明:禁止Roverdog访问网站上的任何文件。
   User-agent: Googlebot
Disallow: cheese.htm
   表明:禁止Google的Googlebot访问其网站下的cheese.htm文件。
   上面介绍了一些简单的设置,对于比较复杂的设置,可参看一些大型站点如CNN或Looksmart的robots.txt文件(www.cnn.com/robots.txt, www.looksmart.com/robots.txt )
附录II. 相关robots.txt文章参考:
   1. Robots.txt常见问题解析
   2. Robots Meta Tag的使用
   3. Robots.txt检测程序
欢迎光临
版权所有 © 深圳市恒众能科技有限公司 求职招聘尽选人才快线