广东外贸外语大学自考:如何让网址不被百度

来源:百度文库 编辑:高考问答 时间:2024/04/30 03:01:41
在百度等不被搜索出来?
说明的清楚点吧~~

逃避搜索引擎的法眼

作为搜索引擎的开发者,同样留给了网络管理员或网页制作者提供了些方法来限制网络机器人的行动:

当robots访问一个网站(比如http://www.yoursite.com)时,首先会像一个大宅子的陌生访问者一样,先查看查看该宅子是否同意它进入。如果不同意,它就悄然无声的走掉;如果同意,它会看看主人只允许它进入那些房间。网络机器人首先检查该网站中是否存在http://www.yoursite.com/robots.txt这个文件,如果找不到这个文件,那么,机器人就会横冲直入,查遍它需要查找的信息。如果机器人找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。当然,如果该文件的内容为空的话,那么也就相当于没有找到文件一样,大胆行事。记住robots.txt文件应该放在网站根目录下。

robots.txt文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:

User-agent:

该值用于描述搜索引擎robot的名字,不同的搜索引擎是有不同的名字的,在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对这个文件来说,如果你需要限制robots,那么至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在"robots.txt"文件中," User-agent: * "这样的记录只能有一条。

Disallow :

该值用于限制robot访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow 开头的URL均不会被robot访问到。例如“Disallow: /hacker”对/hacker.html 和/hacker/index.html都不允许搜索引擎访问,而“Disallow: /hacker/”则robot照样可以访问/hacker.html,而不能访问/hacker/index.html。任何一条Disallow记录为空,也就是说在多条Disallow记录下,只要有一条是写成“Disallow:”说明该网站的所有内容都允许被访问,在"/robots.txt"文件中,至少要有一条Disallow记录。

下面是Robot.txt的一些例子,只要把下列的任何一个代码保存为robots.txt,然后传到指定位置,就可以实现逃避搜索引擎的法眼:

例1. 禁止所有搜索引擎访问网站的任何部分:

User-agent: *
Disallow: /

例2. 允许所有的robot访问:

User-agent: *
Disallow:

例3. 禁止某个搜索引擎的访问:

User-agent: BadBot
Disallow: /

例4. 允许某个搜索引擎的访问:

User-agent: baiduspider
Disallow:
User-agent: *
Disallow: /

例5. 一个简单例子:

在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。需要注意的是对每一个目录必须分开声明,而不要写成 "Disallow: /cgi-bin/ /bbs/"。User-agent:后的* 具有特殊的含义,代表"any robot",所以在该文件中不能有"Disallow: /bbs/*" or "Disallow: *.gif"这样的记录出现.

User-agent: *
Disallow: /cgi-bin/
Disallow: /bbs/
Disallow: /~private/

在页面中根据“拒绝蜘蛛”协议加注拒绝收录的标记

你的网址百度肯定要去搜索,搜索到相关的内容后,把网址和相关内容一并存储起来!~
当网友搜索到相关的内容后,就会把你的网址显示出来!
所以,你网页头文件里没有内容就可以不被搜索存储起来了!~