爬虫学习(3)

Posted on 2018-11-07 |

使用正则表达式来提取信息不是非常方便，而通过html的节点可以方便的定位，通过XPath和CSS选择器可以方便的提取节点，然后调用相应方法来获取想获取的内容。这一过程可以通过解析库来完成。比较厉害的解析库有lxml、Beautiful Soup、pyquery。 XPthXML Path Langu ...

爬取豆瓣电影Top250榜单

Posted on 2018-11-07 |

目标分析目标站点:https://movie.douban.com/top250目标信息:豆瓣电影Top250中每部影片的片名、评分、图片、排名等信息另外，在页面的下方，我们看到该榜单一共有10页的分页，点击第二页，可以看到URL变成了:https://movie.douban.com/top250 ...

抓取猫眼电影排行榜

Posted on 2018-11-06 |

目标分析利用之前学习的requests库和正则表达式，我们来试着爬取猫眼电影Top100榜单的电影名称、时间、评分以及电影图片，并以文件形式保存爬取的结果。我们的目标站点为:http://maoyan.com/board/4下图就是我们可以查看到的榜单信息:可以看到，排名第一的是《霸王别姬》,页面中 ...

爬虫学习(2)

Posted on 2018-10-31 |

第三章主要是介绍并使用了一些写爬虫过程中使用到的基本库。最基础的HTTP库有urllib、httplib2、requests、treq等。接下来我们就学习一下几个常用的库并在最后通过一个实例来应用。 urllibpython3中，将urllib和urllib2统一为urllib。urllib是pyt ...

爬虫学习(1)

Posted on 2018-10-30 |

今天开始学习爬虫了，主要参考的是崔庆才的《python3 网络爬虫开发实战》。由于第一章主要是python环境的搭建以及一些可能用到的库的安装，所以直接从第二章开开始学习，需要什么装什么。今天主要学习的是关于爬虫的一些基础知识。 HTTP基本原理URI:Uniform Resource Ident ...

python数据分析与挖掘实战——学习笔记(3)

Posted on 2018-10-29 |

这一章是介绍决策树的，由于在之前一篇文章里已经大致学习过了，所以这里就只记录一些补充的知识，以及实例。数据预处理这里采用的是NBA2013-2014的数据集数据集清洗用pandas的read_csv()读入数据后，查看数据，可以看到数据是有问题的，例如表头不完整，日期是字符串格式而不是日期对象等 ...

python数据分析与挖掘实战——学习笔记(2)

Posted on 2018-10-26 |

第二章主要介绍了数据挖掘通用框架，方便后续的数据挖掘应用。主要关注scikit-learn库。估计器scikit-learn库把一些相关功能封装成估计器，估计器用于分类任务，主要包括fit(),predict()两个函数。大部分scikit-learn估计器接收和输出的数据格式为numpy数组。 ...

python数据分析与挖掘实战——学习笔记(1)

Posted on 2018-10-23 |

亲和性分析定义：根据样本个体之间的相似度，确定关系的亲疏。应用场景投放广告、推荐商品、寻找有亲缘关系的人实例：商品推荐向上销售：向已经购买商品的顾客推荐另一种商品。规则：如果一个人买了商品X,那么很有可能购买商品Y判断规则的优劣：支持度(support)和置信度(confidence)支持度：指 ...

人工神经网络ANN

Posted on 2018-10-22 |

人工神经网络是一种模拟生物神经网络进行信息处理的数学模型。

回归分析之决策树

Posted on 2018-10-20 |

决策树在分类、预测、规则提取等领域有着广泛作用，对于非线性关系的变量筛选方面有着重要作用。下面就简单的介绍一下决策树有关的几种算法及其应用。决策树树状结构，叶子节点代表一个分类，非叶节点代表某个属性的划分，根据样本在该属性上的不同取值将其划分为若干子集。对于分类问题，从已知类标的训练样本中学习并构 ...