zoukankan      html  css  js  c++  java
  • python语言实现网络爬虫---requests库、BeautifulSoup4库

    一、引入问题

        python语言的简洁性以及脚本特点十分适合连接和网页处理,因此在python的计算生态中,与url和网页处理有关的第三方库有很多。这些库的作用不同,使用方法不同,用户的体验也不同。其中我们今天就先来了解requests库、BeautifulSoup库。

    二、requests库的使用

    (一)requests库的概述

        requests库是一个简洁且简单处理HTTP请求的第三方库,它的最大优点是程序编写过程更接近正常URL访问过程。这个库建立在python语言的urlib3库的基础上,类似这种在其他函数库之上再封装功能,提供更友好函数的方式在python语言中十分常见。在python生态圈里,任何人都有通过技术创新或体验创新发表意见和展示才华的机会。

    (二)介绍requests库的一些函数

    1、get()获取网页

    import requests
    #使用get方法打开淘宝连接
    r = requests.get('http://ip.taobao.com/service/getIpInfo2.php?ip=111.174.77.14')
    print(type(r))

    结果:

     2、requests的一些基本方法

    import requests
    r = requests.get('http://ip.taobao.com/service/getIpInfo2.php?ip=111.174.77.14')

    print(r.status_code)#打印get请求的状态码
    print(r.encoding)#打印编码
    print(r.text)#打印请求到的内容
    print(r.cookies)
    print(r.json())#输出json格式数据

    结果:

     3、根据以上内容进行实际操作

    import requests
    r = requests.get('http://ip.taobao.com/service/getIpInfo2.php?ip=111.174.77.14')
    result = r.json()
    country = result['data']['country']
    area = result['data']['area']
    region = result['data']['region']
    print(country+area+region)

     结果:

     三、BeautifulSoup4库的使用

    (一)BeautifulSoup4库的概述

     BeautifulSoup是一种专门用于进行HTML/XML数据解析的一种描述语言,可以很好的分析和筛选HTML/XML这样的标记文档中的指定规则数据。在数据筛选过程中其基础技术是通过封装HTML DOM树实现的一种DOM操作,通过加载网页文档对象的形式,从文档对象树模型中获取目标数据。

    (二)介绍BeautifulSoup4库的一些使用函数

    import requests
    from bs4 import BeautifulSoup
    r = requests.get('http://www.baidu.com')
    r.encoding = None
    result = r.text
    bs = BeautifulSoup(result,'html.parser')
    print(bs.title)
    print(bs.title.text)

     结果:

  • 相关阅读:
    java如何遍历Enumeration
    attachEvent与addEventlistener兼容性
    jquery如何把一个html元素替换成另外一个html元素?
    Struts2使用struts标签判断变量是否为空的写法
    ORACLE WITH AS 用法,创建临时表
    Hibernate传递list参数的例子
    java利用反射机制获取list中的某个字段并以list形式返回
    深入Golang之sync.Pool详解
    深入Golang调度器之GMP模型
    软技能,程序员编程之外的升值之道!【转】
  • 原文地址:https://www.cnblogs.com/CJR-QYF/p/11810637.html
Copyright © 2011-2022 走看看