国民大可爱、

Book思议在划水


  • Home

  • Archives

微信公众号文章爬取实战

Posted on 2018-12-07 |
实验目的  在之前的爬虫实战中,我们基于关键词搜索相关微信公众号文章,并得到了一系列相关的文章标题、链接等,找到自己需要的文章后,需要将其保存下来,本实验目的就是爬取微信公众号文章正文内容。 实验环境python3主要用到requests、pyquery库 步骤分析 & ...
Read more »

python爬虫之搭建代理池

Posted on 2018-12-04 |
实验目的  在利用爬虫爬取我们想要的信息时,往往会遇到一些反爬虫能力很强的网站,返回状态码403Forbidden或是提醒我们”您的IP访问频率太高”,需要我们输入验证码或是直接封了当前IP。遇到这种情况,使用代理IP是一个不错的选择,利用代理IP发起请求,而不用影响我们的真实I ...
Read more »

基于关键词爬取微信公众号文章

Posted on 2018-12-04 |
实验目的  本实验的目的是利用关键词搜索相关的微信公众号文章标题、公众号、链接等内容并保存到本地。  爬取的来源是搜狗微信搜索平台, 是搜狗在2014年6月9日推出的一款针对微信公众平台而设立的,支持搜索微信公众号和微信文章,可以通过关键词搜索相关的微信公众号 ...
Read more »

爬取空间说说并制作词云图

Posted on 2018-12-02 |
实验目的  本次实验的目的是爬取QQ空间的说说,并进行分词制作词云图,词云图的效果如下图所示: 实验环境Chrome V70ChromeDriver V2.43python3主要用到selenium、pyquery、jieba、wordcloud、matplotlib等pytho ...
Read more »

爬虫学习(7)

Posted on 2018-12-01 |
  有些网站会有反爬虫措施,比如服务器会检测某个IP在单位时间内的请求次数,如果超过某个阈值,那么服务器会拒绝服务,返回错误信息,也就是我们俗称的“封IP”。遇到这种情况,我们就需要使用代理,应对这一封IP的举措。 设置代理  可以自己在本地搭建代理,也可以去 ...
Read more »

Selenium:爬取淘宝商品信息

Posted on 2018-11-29 |
实验目的  利用Selenium抓取淘宝商品并解析出商品的信息,包括图片、名称、价格、销量、店铺名称、店铺地址等信息,并将结果保存在数据库中。 实验环境Chrome: -V 70ChromeDriver: -V 2.43确保已经安装python3的Selenium库、pyquer ...
Read more »

爬虫学习(6)

Posted on 2018-11-23 |
JavaSript动态渲染页面的方式不止Ajax一种。例如中国青年网,分页部分由JS生成,这其中并不包含Ajax请求;淘宝的页面虽然是Ajax抓取的数据,但是Ajax接口含有很多加密参数,很难找到规律,所以也很难直接分析Ajax来抓取。对于以上情况,可以模拟浏览器运行,就可以做到在浏览器中看到是什么 ...
Read more »

Ajax:今日头条图片合集

Posted on 2018-11-19 |
实验目的通过在头条的搜索栏搜索关键词,分析Ajax请求,将搜索结果的图集以文件夹形式下载并保存到本地 抓取分析打开搜索栏,比如我们搜索的keyword是“国庆”,查看图集栏目,结果如图所示:打开开发者工具,刷新要爬取的页面,打开第一个请求,该请求的URL就是当前网页的链接:https://www.t ...
Read more »

爬虫学习(5)

Posted on 2018-11-18 |
requests获取的是静态页面,是初始的HTML,但正常我们通过浏览器看到的页面是经过JS处理数据后生成的结果,这些数据的来源可能是Ajax加载的,也可能是HTML文档中的,还有可能是通过JS和特定算法计算生产的。对于Ajax加载,这是一种异步加载方式,原始页面加载完毕后,再向服务器请求某个接口获 ...
Read more »

爬虫学习(4)

Posted on 2018-11-11 |
这一章主要就是学习数据存储的相关内容。解析器解析出数据后,可以保存为txt、json、csv等文本文件,还可以保存到数据库中,比如关系型数据库MySQL、非关系型数据库MongoDB、Redis等。 文件存储文本文件存储存储为文本文件十分简单,缺点就是不便于检索。下面以一个实例来看看过程:保存知乎上 ...
Read more »
1234
Chen Zhaoyun

Chen Zhaoyun

33 posts
8 tags
© 2019 Chen Zhaoyun
Powered by Hexo
|
Theme — NexT.Pisces v5.1.4