国民大可爱、

Book思议在划水


  • Home

  • Archives

爬虫学习(3)

Posted on 2018-11-07 |
使用正则表达式来提取信息不是非常方便,而通过html的节点可以方便的定位,通过XPath和CSS选择器可以方便的提取节点,然后调用相应方法来获取想获取的内容。这一过程可以通过解析库来完成。比较厉害的解析库有lxml、Beautiful Soup、pyquery。 XPthXML Path Langu ...
Read more »

爬取豆瓣电影Top250榜单

Posted on 2018-11-07 |
目标分析目标站点:https://movie.douban.com/top250目标信息:豆瓣电影Top250中每部影片的片名、评分、图片、排名等信息另外,在页面的下方,我们看到该榜单一共有10页的分页,点击第二页,可以看到URL变成了:https://movie.douban.com/top250 ...
Read more »

抓取猫眼电影排行榜

Posted on 2018-11-06 |
目标分析利用之前学习的requests库和正则表达式,我们来试着爬取猫眼电影Top100榜单的电影名称、时间、评分以及电影图片,并以文件形式保存爬取的结果。我们的目标站点为:http://maoyan.com/board/4下图就是我们可以查看到的榜单信息:可以看到,排名第一的是《霸王别姬》,页面中 ...
Read more »

爬虫学习(2)

Posted on 2018-10-31 |
第三章主要是介绍并使用了一些写爬虫过程中使用到的基本库。最基础的HTTP库有urllib、httplib2、requests、treq等。接下来我们就学习一下几个常用的库并在最后通过一个实例来应用。 urllibpython3中,将urllib和urllib2统一为urllib。urllib是pyt ...
Read more »

爬虫学习(1)

Posted on 2018-10-30 |
今天开始学习爬虫了,主要参考的是崔庆才的《python3 网络爬虫开发实战》。由于第一章主要是python环境的搭建以及一些可能用到的库的安装,所以直接从第二章开开始学习,需要什么装什么。 今天主要学习的是关于爬虫的一些基础知识。 HTTP基本原理URI:Uniform Resource Ident ...
Read more »

python数据分析与挖掘实战——学习笔记(3)

Posted on 2018-10-29 |
这一章是介绍决策树的,由于在之前一篇文章里已经大致学习过了,所以这里就只记录一些补充的知识,以及实例。 数据预处理这里采用的是NBA2013-2014的数据集 数据集清洗用pandas的read_csv()读入数据后,查看数据,可以看到数据是有问题的,例如表头不完整,日期是字符串格式而不是日期对象等 ...
Read more »

python数据分析与挖掘实战——学习笔记(2)

Posted on 2018-10-26 |
第二章主要介绍了数据挖掘通用框架,方便后续的数据挖掘应用。主要关注scikit-learn库。 估计器scikit-learn库把一些相关功能封装成估计器,估计器用于分类任务,主要包括fit(),predict()两个函数。大部分scikit-learn估计器接收和输出的数据格式为numpy数组。 ...
Read more »

python数据分析与挖掘实战——学习笔记(1)

Posted on 2018-10-23 |
亲和性分析定义:根据样本个体之间的相似度,确定关系的亲疏。 应用场景投放广告、推荐商品、寻找有亲缘关系的人 实例:商品推荐向上销售:向已经购买商品的顾客推荐另一种商品。规则:如果一个人买了商品X,那么很有可能购买商品Y判断规则的优劣:支持度(support)和置信度(confidence)支持度:指 ...
Read more »

人工神经网络ANN

Posted on 2018-10-22 |
人工神经网络是一种模拟生物神经网络进行信息处理的数学模型。
Read more »

回归分析之决策树

Posted on 2018-10-20 |
决策树在分类、预测、规则提取等领域有着广泛作用,对于非线性关系的变量筛选方面有着重要作用。下面就简单的介绍一下决策树有关的几种算法及其应用。 决策树树状结构,叶子节点代表一个分类,非叶节点代表某个属性的划分,根据样本在该属性上的不同取值将其划分为若干子集。对于分类问题,从已知类标的训练样本中学习并构 ...
Read more »
1234
Chen Zhaoyun

Chen Zhaoyun

33 posts
8 tags
© 2019 Chen Zhaoyun
Powered by Hexo
|
Theme — NexT.Pisces v5.1.4