结合网络爬虫课程内容,请你描述一下,对Robots协议的理解
查看答案
指定一个网站(例如中国天气网站http://www.weather.com.cn/weather/101280601.shtml),利用多线程控制爬取这个网站中的所有图像文件,同时把这些文件保存到程序所在文件夹的子文件夹中,分别对深圳、无锡、上海三个城市完成图片爬取任务,并分别存储在image-sz、image-wx、image-sh文件夹中。
在中国天气网(http://www.weather.com.cn)中输入一个城市的名称,例如输入深圳,那么会转到地址http://www.weather.com.cn/weather1d/101280601.shtml的网页显示深圳的天气预报,其中101280601是深圳的代码,每个城市或者地区都有一个代码。在次基础之上,试获取北京、上海、广州、深圳、无锡的城市代码,爬取这些城市的天气预报数据,存储到sqllite数据库weathers.db,并完成界面输出。
下列数据中,能够被网络爬虫抓取的是()。
A. 用户的注册信息
B. 网站后台信息
C. 互联网公开的且可访问到的信息
D. 互联网非公开信息
下列选项中,被称为全网爬虫的是()。
A. 增量式网络爬虫
B. 通用网络爬虫
C. 深层爬虫
D. 聚焦网络爬虫