zoukankan      html  css  js  c++  java
  • 慕课网《Python遇见数据采集》学习过程笔记【1】(这个视频不适合我,终断)

    一.


    二.windows如何安装beautifulsoup4?

    打开命令行输入:

    pip install beautifulsoup4

    pip3 install beautifulsoup4

    检查是否安装成功

    在命令行中输入python进入python编程环境

    再输入from bs4 import BeautifulSoup 看是否报错,如果没有那么安装成功


    三.urllib的用法

    1urllib可以轻松模拟用户使用浏览器访问网页


    2导入urllib库的request模块

    from urllib import request


    3.请求url

    resp=request.urlopen("http://www.baidu.com")


    4.使用响应对象输出数据

    print(resp.read().decode("utf-8"))


    5.模拟真实浏览器

    有些浏览器通过判断User-Agent头来判断是否使用爬虫

    req=request.Request(url)

    req.add_header(key,value)    #key就是"User-Agent" value就是按F12查看network  User-Agent对应的值

    resp=request.urlopen(req)

    print(resp.read().decode("utf-8"))


    from urllib import request
    req=request.Request("http://www.baidu.com/")
    req.add_header("User-Agent","Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Mobile Safari/537.36")
    resp=request.urlopen("http://www.baidu.com")
    print(resp.read().decode("utf-8"))
    

    6.如何使用urllib发送一个post请求?

     导入urllib库下面的parse 即 from urllib import parse

    使用urllencode生成post数据

    postData=parse.urllencode([

    (key1,val1),

    (key2,val2),

    (keyn,valn)

    ])

    使用postData对象发送post请求

    request.urlopen(req,data=postData.encode("utf-8"))  #req是Request类的对象

    得到请求状态:resp.status

    得到服务器的类型:resp.reason


    7.通过网站http://m.thsrc.com.tw/tw/TimeTable/SearchResult 学习发送post 请求

    打开网站按F12 点击到doc位置(因为如果选择ALL的话网页的所有东西都会加载出来),选择站点,选择查询

    得到





    8.一个网站检查哪里查看是否为用户访问

    第一User-Agent

    第二

    第三

  • 相关阅读:
    关于局域网内IIS部署网站,本机可访问,而网内其他用户无法访问问题的解决方法
    spark出现task不能序列化错误的解决方法
    Ganglia安装
    Hadoop自定义JobTracker和NameNode管理页面
    如何编写自定义hive UDF函数
    HighChart利用servlet导出中文PNG图片乱码问题解决
    sparkR介绍及安装
    在Linux中安装redmine
    在Ubuntu14.10中部署Hadoop2.6.0单节点伪分布集群
    【转】Spark on Yarn遇到的几个问题
  • 原文地址:https://www.cnblogs.com/iamjuruo/p/7470872.html
Copyright © 2011-2022 走看看