zoukankan      html  css  js  c++  java
  • 关于爬虫的学习

    最近一直在学习PYTHON语言,想学会一门编程语言,因为PYTHON简单易学,另外功能强大,只有我想不到的,没有PYTHON做不到的,所以就选择了这门编程语言。

    学习完它的基础语法后,想进一步的提升,此时同事介绍了两个方法,一个是去GITHUB网站做练习题,一个是去学习爬虫,到网站中爬数据,去数据库中爬数据。

    我刚开始时去做习题,但发现有些习题不会做,不如爬虫实战的效果明显。故开始学习爬虫。

    学会一门编程语言就是要来解决实际工作中的需求,从这个角度来看,直接学爬虫吧。

    学习爬虫也只有一个星期的时间,大体的学习思路与流程简单说明一下吧,方便后来者借鉴(我也不能说自己的方法一定正确,如果有用,能帮助到人,也不枉自己花的这点时间了。)

    python爬虫主要用到的几个库,urllib,urllib2,cookielib,re,这是我这周碰到的几个。

    首先从最基本的,爬取一个网页的HTML码。

    然后难度升级,加入HEADERS的信息,再爬,如:headers中的user——agent信息,data信息,timeout信息,设置代理等。

    get 请求,post请求不同的爬取方式。

    获取cookie信息,保存cookie信息到文本,从文本中读取保存的cookie信息,保存登录的cookie后,再读取登录后别的页面的信息。

    再次,学习正则表达式,用来匹配与筛选信息。PYTHON中的正则表达式的用法,可以系统性的学习下。

    最后,当以上的基础打牢后,就进行一些实战了。

    在实战中巩固基础,在实战中提高。

    每天坚持练习一个小时的代码,一直坚持下去,会达到“悟”的水平的。

  • 相关阅读:
    排序
    最小栈
    移除链表元素
    回文链表
    maven自动建立目录骨架
    maven的结构和构建命令
    递归
    链表的中间结点
    括号匹配
    软件工程个人作业01
  • 原文地址:https://www.cnblogs.com/star12111/p/8215210.html
Copyright © 2011-2022 走看看