10
09/2014
robots txt
robots.txt 不能跨(子sub)域。
比如
http://guoshuang.com/robots.txt
不能控制
http://www.guoshuang.com/ http://labs.guoshuang.com/ https://guoshuang.com/ http://guoshuang.com:8080
允许搜索引擎访问全部
等于没有(默认) robots.txt 一样!
User-agent: * Disallow:
不允许搜索引擎收录
User-agent: * Disallow: /
不允许搜索引擎收录 某些目录
User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /page/
不允许搜索引擎收录 某些具体文件
User-agent: * Disallow: /directory/file.html
不允许 某些 搜索爬虫(Googlebot MSNbot)
User-agent: googlebot Disallow: /private/
非标准属性
让爬虫(crawlers 蜘蛛 spider robots)不要来的太密集!
User-agent: * Crawl-delay: 10 # 间隔10秒
允许某文件 但不允许该目录的其它文件(顺序无所谓)
Allow: /directory1/myfile.html Disallow: /directory1/
站点地图。搜索引擎会自动找 / 目录下的 sitemap.xml,但如果不是这个名字的话,写一些还是好一些。
Sitemap: http://guoshuang.com/sitemap.xml.gz
多个镜像站点可以 “推荐一个” 给搜索引擎(Yandex, Google)
Host: guoshuang.com
Disallow:* 这个没用! 恐怕你想要的是 Disallow:/
google 支持文件带 * 匹配。其它 搜索引擎 可能不同。
在 meta 和 headers 中使用
不要索引(收录)本页!
<meta name="robots" content="noindex" />
http request header
X-Robots-Tag: noindex
二者区别:用 meta 方法,其实本页面已经被“爬过”了,但得知 站长 不想要它们收录。后者 request header,http 握手之后,转身就走。
传说中的 nofollow
流氓内容
大象因为 象牙 而被贪婪的人们猎杀,所以干脆主动不要 象牙!nofollow 思路大抵如此:既然流氓们,到处 spam 的目的就是 pagerank 盗取外站链接,那我们则宣布:朕不给,你不能拿!
NOODP
Open Directory Project 开放目录,google yahoo msn 支持,让 搜索引擎 可以列出站点结构。
Crawling policy
搜索引擎 的爬虫遵循以下规则
- a selection policy that states which pages to download,
- a re-visit policy that states when to check for changes to the pages,
- a politeness policy that states how to avoid overloading Web sites, and
- a parallelization policy that states how to coordinate distributed web crawlers.
选择,重新检查(更新)、礼貌(甭把人家站点弄挂掉,成 DDOS 攻击了),并发(派出 几号 间谍)
有兴趣可以研究一下 Web_crawler 原理,貌似开源的 爬虫 还是蛮多的。
网页历史版本
Web_archiving 这里的 网页存档 站点还不少呢。
wikipedia 需要捐助
wikipedia 需要捐助 伟大的维基百科,雇员 202,全世界 8000 兼职,每月访问 5.3亿人次。