登录  | 立即注册

游客您好!登录后享受更多精彩

扫一扫,访问微社区

QQ登录

只需一步,快速开始

开启左侧

[寒假笔记] python网络爬虫——robots协议

[复制链接]
发表于 2019-2-19 23:57:11 | 显示全部楼层 |阅读模式
学习笔记
学习科目: 编程
学习安排: 了解robots协议相关内容
开始时间: 2019-02-19
结束时间: 2019-02-19
今天学习了一下爬虫的robots协议。这个协议相当于一种道德法律。网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。robots协议是网站国际互联网界同行的道德规范,其目的是确保用户个人信息不被侵犯,因其不是命令,故需要搜索引擎自觉遵守。
Screenshot_20190219_233619_com.netease.edu.ucmooc.jpg Screenshot_20190219_233629_com.netease.edu.ucmooc.jpg Screenshot_20190219_233642_com.netease.edu.ucmooc.jpg


下面来通过介绍京东的robots协议来介绍robots协议
Screenshot_20190219_233647_com.netease.edu.ucmooc.jpg
第一行:
无论任何访问来源都要遵循如下协议
第二行:
任何访问来源都不能以问号开头
第三行:
任何访问都不能访问以pop/*开头的网址
第四行:
符合这一通配符的网络表示不能访问
后四行:
后面四行是四个网络爬虫,京东不允许这四个爬虫爬取京东的任何界面,可以理解为这四个网络爬虫是恶意爬虫。
一下还有一些其他网站的robots协议
Screenshot_20190219_233651_com.netease.edu.ucmooc.jpg
有些网站没有robots协议,这就说明该网站允许所有爬虫无限制的爬取其内容。


Screenshot_20190219_233656_com.netease.edu.ucmooc.jpg
既自以心为形役,奚惆怅而独悲。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表