10 09/2014

robots txt

最后更新: Wed Sep 10 2014 12:39:11 GMT+0800

robots.txt 不能跨（子sub）域。

比如

http://guoshuang.com/robots.txt

不能控制

http://www.guoshuang.com/
http://labs.guoshuang.com/
https://guoshuang.com/
http://guoshuang.com:8080

允许搜索引擎访问全部

等于没有(默认) robots.txt 一样！

User-agent: *
Disallow:

不允许搜索引擎收录

User-agent: *
Disallow:    /

不允许搜索引擎收录某些目录

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /page/

不允许搜索引擎收录某些具体文件

User-agent: *
Disallow: /directory/file.html

不允许某些搜索爬虫(Googlebot MSNbot)

User-agent: googlebot
Disallow: /private/

非标准属性

让爬虫（crawlers 蜘蛛 spider robots）不要来的太密集！

User-agent: *
Crawl-delay: 10 # 间隔10秒

允许某文件但不允许该目录的其它文件（顺序无所谓）

Allow: /directory1/myfile.html
Disallow: /directory1/

站点地图。搜索引擎会自动找 / 目录下的 sitemap.xml，但如果不是这个名字的话，写一些还是好一些。

Sitemap: http://guoshuang.com/sitemap.xml.gz

多个镜像站点可以 “推荐一个” 给搜索引擎(Yandex, Google)

Host: guoshuang.com

Disallow:* 这个没用！恐怕你想要的是 Disallow:/

google 支持文件带 * 匹配。其它搜索引擎可能不同。

在 meta 和 headers 中使用

不要索引（收录）本页！

<meta name="robots" content="noindex" />

http request header

X-Robots-Tag: noindex

二者区别：用 meta 方法，其实本页面已经被“爬过”了，但得知站长不想要它们收录。后者 request header，http 握手之后，转身就走。

传说中的 nofollow

流氓内容

大象因为象牙而被贪婪的人们猎杀，所以干脆主动不要象牙！nofollow 思路大抵如此：既然流氓们，到处 spam 的目的就是 pagerank 盗取外站链接，那我们则宣布：朕不给，你不能拿！

NOODP

Open Directory Project 开放目录，google yahoo msn 支持，让搜索引擎可以列出站点结构。

Crawling policy

搜索引擎的爬虫遵循以下规则

a selection policy that states which pages to download,
a re-visit policy that states when to check for changes to the pages,
a politeness policy that states how to avoid overloading Web sites, and
a parallelization policy that states how to coordinate distributed web crawlers.

选择，重新检查（更新）、礼貌（甭把人家站点弄挂掉，成 DDOS 攻击了）,并发(派出几号间谍)

有兴趣可以研究一下 Web_crawler 原理，貌似开源的爬虫还是蛮多的。

网页历史版本

Web_archiving 这里的网页存档站点还不少呢。

wikipedia 需要捐助

wikipedia 需要捐助伟大的维基百科，雇员 202，全世界 8000 兼职,每月访问 5.3亿人次。

via Robots_exclusion_standard

Digest of guoshuang

robots txt

robots.txt 不能跨（子sub）域。

允许搜索引擎访问全部

不允许搜索引擎收录

不允许搜索引擎收录某些目录

不允许搜索引擎收录某些具体文件

不允许某些搜索爬虫(Googlebot MSNbot)

非标准属性

在 meta 和 headers 中使用

传说中的 nofollow

NOODP

Crawling policy

网页历史版本

wikipedia 需要捐助

留言

robots.txt 不能跨（子sub）域。

允许搜索引擎访问全部

不允许搜索引擎收录

不允许搜索引擎收录 某些目录

不允许搜索引擎收录 某些具体文件

不允许 某些 搜索爬虫(Googlebot MSNbot)

非标准属性

在 meta 和 headers 中使用

传说中的 nofollow

NOODP

Crawling policy

网页历史版本

wikipedia 需要捐助

留言

不允许搜索引擎收录某些目录

不允许搜索引擎收录某些具体文件

不允许某些搜索爬虫(Googlebot MSNbot)