python网络爬虫——robots协议

发表于 2019-2-19 23:57:11

今天学习了一下爬虫的robots协议。这个协议相当于一种道德法律。网站通过robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。robots协议是网站国际互联网界同行的道德规范，其目的是确保用户个人信息不被侵犯，因其不是命令，故需要搜索引擎自觉遵守。
Screenshot_20190219_233619_com.netease.edu.ucmooc.jpg

Screenshot_20190219_233619_com.netease.edu.ucmooc.jpg

Screenshot_20190219_233629_com.netease.edu.ucmooc.jpg

Screenshot_20190219_233642_com.netease.edu.ucmooc.jpg

下面来通过介绍京东的robots协议来介绍robots协议
Screenshot_20190219_233647_com.netease.edu.ucmooc.jpg

第一行：
无论任何访问来源都要遵循如下协议
第二行：
任何访问来源都不能以问号开头
第三行：
任何访问都不能访问以pop/*开头的网址
第四行：
符合这一通配符的网络表示不能访问
后四行：
后面四行是四个网络爬虫，京东不允许这四个爬虫爬取京东的任何界面，可以理解为这四个网络爬虫是恶意爬虫。
一下还有一些其他网站的robots协议
Screenshot_20190219_233651_com.netease.edu.ucmooc.jpg

Screenshot_20190219_233651_com.netease.edu.ucmooc.jpg

有些网站没有robots协议，这就说明该网站允许所有爬虫无限制的爬取其内容。

[寒假笔记] python网络爬虫——robots协议