10 09/2014

robots txt

最后更新: Wed Sep 10 2014 12:39:11 GMT+0800

robots.txt 不能跨(子sub)域。

比如

http://guoshuang.com/robots.txt

不能控制

http://www.guoshuang.com/
http://labs.guoshuang.com/
https://guoshuang.com/
http://guoshuang.com:8080

允许搜索引擎访问全部

等于没有(默认) robots.txt 一样!

User-agent: *
Disallow:    

不允许搜索引擎收录

User-agent: *
Disallow:    /

不允许搜索引擎收录 某些目录

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /page/

不允许搜索引擎收录 某些具体文件

User-agent: *
Disallow: /directory/file.html

不允许 某些 搜索爬虫(Googlebot MSNbot)

User-agent: googlebot
Disallow: /private/

非标准属性

让爬虫(crawlers 蜘蛛 spider robots)不要来的太密集!

User-agent: *
Crawl-delay: 10 # 间隔10秒

允许某文件 但不允许该目录的其它文件(顺序无所谓)

Allow: /directory1/myfile.html
Disallow: /directory1/

站点地图。搜索引擎会自动找 / 目录下的 sitemap.xml,但如果不是这个名字的话,写一些还是好一些。

Sitemap: http://guoshuang.com/sitemap.xml.gz

多个镜像站点可以 “推荐一个” 给搜索引擎(Yandex, Google)

Host: guoshuang.com

Disallow:* 这个没用! 恐怕你想要的是 Disallow:/

google 支持文件带 * 匹配。其它 搜索引擎 可能不同。

在 meta 和 headers 中使用

不要索引(收录)本页!

<meta name="robots" content="noindex" />

http request header

X-Robots-Tag: noindex

二者区别:用 meta 方法,其实本页面已经被“爬过”了,但得知 站长 不想要它们收录。后者 request header,http 握手之后,转身就走。

传说中的 nofollow

流氓内容

大象因为 象牙 而被贪婪的人们猎杀,所以干脆主动不要 象牙!nofollow 思路大抵如此:既然流氓们,到处 spam 的目的就是 pagerank 盗取外站链接,那我们则宣布:朕不给,你不能拿!

NOODP

Open Directory Project 开放目录,google yahoo msn 支持,让 搜索引擎 可以列出站点结构。

Crawling policy

搜索引擎 的爬虫遵循以下规则

  • a selection policy that states which pages to download,
  • a re-visit policy that states when to check for changes to the pages,
  • a politeness policy that states how to avoid overloading Web sites, and
  • a parallelization policy that states how to coordinate distributed web crawlers.

选择,重新检查(更新)、礼貌(甭把人家站点弄挂掉,成 DDOS 攻击了),并发(派出 几号 间谍)

有兴趣可以研究一下 Web_crawler 原理,貌似开源的 爬虫 还是蛮多的。

网页历史版本

Web_archiving 这里的 网页存档 站点还不少呢。

wikipedia 需要捐助

wikipedia 需要捐助 伟大的维基百科,雇员 202,全世界 8000 兼职,每月访问 5.3亿人次。

via Robots_exclusion_standard