今天开始学习爬虫了，主要参考的是崔庆才的《python3 网络爬虫开发实战》。
由于第一章主要是python环境的搭建以及一些可能用到的库的安装，所以直接从第二章开开始学习，需要什么装什么。

今天主要学习的是关于爬虫的一些基础知识。

HTTP基本原理

URI:Uniform Resource Identifier 统一资源标志符
URL:Uniform Resource Locator 统一资源定位符
URN:Uniform Resource Name 统一资源名称(只命名资源,不指定如何定位)
URL是URI的子集

$URL \bigcup URN = URI$

但是现在，一般来说所有的URL都是URI，很少用URN了。

URL的开头都会有http/https，这是协议类型，ftp/sftp/smb也是协议类型，前者用的较多。
HTTP:超文本传输协议，用于从网络传输超文本数据到本地浏览器的传送协议
HTTPS:HTTP的安全版，HTTP下加入SSL层
HTTP的安全基础是SSL，传输内容经过SSL加密，主要作用是：
1.建立安全通道保证数据传输的安全
2.确认网站的安全性
下面说明一下HTTP的请求过程：

手机/PC端的浏览器向网站所在的服务器发起一个请求，网站服务器接收到该请求后进行处理和解析，然后返回对应的响应，传回给浏览器，响应里包含了页面源代码等内容，浏览器对其进行解析，然后呈现出来。

请求

客户端向服务端发出，分为请求方法、请求的网址、请求头、请求体四部分。

请求方法Request Method

GET/POST
GET:比如说在百度python，就是一个GET请求，URL中包含了请求的参数信息。数据最多1024字节
POST:大多在表单提交时发起，比如说对于登录表单，输入用户名和密码后，点击“登陆”按钮，就发起了一个POST请求，数据以表单方式传输，不表现在URL中，而是包含在请求体中。数据大小无限制。
还有一些其他的请求方法，下图来源于runoob：

请求的网址Request URL

即URL,唯一确定我们想请求的资源

请求头Request Headers

用来说明服务器要使用的附加信息，

Accept:指定客户端可以接受的信息类型
Accept-language:指定客户端可以接受的语言类型
Accept-Encoding:指定客户端可以接受的内容编码
Host:指定请求资源的主机IP和端口号，是请求URL的原始服务器或网管的位置
Cookies:比如说用户之前登陆过某网站，服务器存储了登录状态信息，那么后面刷新或请求该站点的其他页面时，服务器通过cookie识别出是该用户，返回的是登陆后才能看到的页面
Referer:标识该请求从哪个页面发起，服务器可以通过这个信息作来源统计、防盗链处理等
User-Agent:UA,使服务器识别用户的操作系统以及版本、浏览器以及版本等信息，写爬虫时加上这一信息，可以伪装成浏览器
Content-Type:表示具体请求中的媒体类型信息，text/html表示HTML格式，image/gif表示GIF，application/json表示JSON，mutipart/form-data表示文件等

在写爬虫时，大多要设定请求头。

请求体Request Body

一般承载的是POST请求的表单数据，对于GET请求，请求体是空的。

响应

服务端返回给客户端，分为响应状态码、响应头、响应体三部分

响应状态码Response Status Code

表示服务器的响应状态：200表示服务器正常响应、404代表页面未找到、500表示服务器内部发生错误等。

响应头Response Headers

包含了服务器对请求的应答信息

Date:响应产生的时间
Last-Modified:指定资源的最后修改时间
Content-Encoding:指定响应内容的编码
Server:服务器的信息，比如名称、版本号等
Content-Type:指定返回数据的类型
Set-Cookie:告诉浏览器需要将该内容放在cookies中，下次请求要携带cookies
Expires:制定响应的过期时间

响应体Response Body

响应的正文数据，请求网页，响应体就是HTML代码；请求图片，响应体就是图片的二进制数据。
写爬虫请求网页时，解析的内容就是响应体。

网页基础

主要介绍了网页的基本组成、结构和节点等

网页组成

HTML+CSS+JS

网页结构

主要就是介绍了HTML的结构吧

节点树及节点间的关系

HTML中，所有标签定义的内容都是节点，构成了HTML DOM树

选择器

CSS选择节点时，#开头代表id，.开头代表class,还可以直接用标签名来筛选。
可以嵌套
具体语法可以自行搜索
还有一种常用的选择器是XPath,是一种用来确定XML文档中某部分位置的语言。

爬虫的基本原理

爬虫概述

爬虫是一种获取网页并提取和保存信息的自动化程序。

获取网页:可以用urllib、requests等库来实现HTTP请求，得到响应后解析body部分。
提取信息:得到网页源代码后，要分析源代码，万能方法时采用正则表达式提取，还可以用根据网页节点属性、CSS选择器或XPath来提取网页信息的库（Beautiful Soup、pyquery、lxml等）
保存数据:txt、json、数据库、远程服务器
自动化程序:爬虫进行异常处理、错误重试等确保爬取持续高效进行

抓取的数据

常规网页一般是html;
有的网页还有大部分的API接口会返回JSON字符串,这种格式方便抓取和解析;
二进制数据，比如图片、音频、视频等;
各种扩展名的文件，比如css、js、config等。

JS渲染页面

有时候我们用requests、urllib抓取的网页得到的源代码和浏览器中见到的不一样，这是因为这些网页由js进行渲染，原始的html可能就是个空壳。
对于这种情况，可以用Selenium、Splash等进行js的模拟。

会话和Cookies

会话和Cookies用于保持HTTP连接状态。
会话在服务端保存用户的会话信息。
Cookies在客户端(浏览器端),浏览器下次访问网页时会自动附带它发送给服务器，然后服务器通过识别Cookies[保存了登陆的凭证]来鉴定是哪个用户，再判断该用户是否为登录状态，然后返回响应。
所以遇到需要登录的界面，一般把登陆后的Cookies放在请求头里直接请求,避免了重新登陆。

会话

用来存储特定用户会话所需的属性以及配置信息。
当用户请求来自应用程序的Web页时，若用户还没有会话，那么Web服务器自动创建一个会话对象，当会话过期或被放弃后，服务器终止该会话。

Cookies

会话维持

客户端第一次请求服务端时，服务器返回一个请求头中带有Set-Cookies字段的响应给客户端，用来标记时哪个客户，客户端会把该Cookies保存起来，当下一次浏览器再次请求该网站时，浏览器把该Cookies放到请求头提交给服务器，由于Cookies携带了会话ID信息，服务器检查Cookies找到对应的会话，然后判断会话来辨认用户的状态。
如果Cookies无效或会话已经过期，则不能继续访问。

属性结构

可以打开开发者工具的Application下查看Cookies的信息，有很多属性

Name:该Cookie的名称，不可更改
Value:Cookie值，若为Unicode字符，需要为字符编码；如果是二进制数据，需要用BASE64编码
Domain:可以利用该Cookie的域名；如果是.zhihu.com这种形式，那么所有以zhihu.com结尾的域名都可以访问该cookie
Max Age:Cookie有效期，单位为秒，若为负数，那么关闭浏览器则失效
Path:设置为/path/,只有路径为/path/的页面可访问该Cookie，设置为/，那么本域名下所有页面都可以访问该Cookie
Size:Cookie大小
HTTP:httponly属性，若为True,那么只有在HTTP头中会带有此Cookie的信息
Secure:该Cookie是否被使用安全协议传输，安全协议有HTTPS、SSL等；默认为False

代理的基本原理

运行爬虫时，如果服务器检测到某个IP在单位时间内请求次数超过某个阈值，可能会拒绝服务，这时候需要我们伪装IP，使用代理是一种比较好的方法。
代理实际上指的是代理服务器，proxy server。就是在客户端和服务器之间搭建一个中转站，客户端向代理服务器发起请求，请求由代理发给Web服务器，然后Web服务器把响应发给代理，代理转发给我们。那么这时候，Web服务器识别的真实IP就是代理服务器的IP，所以就实现了IP伪装。
具体到爬虫中，可以通过不断更换代理，避免IP被封锁。一般要使用高匿代理，避免追查到真实IP。