zoukankan      html  css  js  c++  java
  • 爬虫学习--Day4(小猿圈爬虫开发_2)

    requests模块
    - urllib模块
    - requests模块

    requests模块:python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。
    作用:模拟浏览器发送请求。

    如何使用:(requests模块的编码流程)
    - 指定url
    - 发起请求
    - 获取响应数据
    - 持久化存储

    环境的安装:
    pip install requests

    实战编码:
    - 需求:爬取搜狗首页页面的数据
     1 # coding=gbk
     2 #Created on 2019/7/7
     3 #@author: XiaoHu
     4 
     5 # 需求:爬取搜狗首页的页面数据
     6 import requests
     7 if __name__ == "__main__":
     8     #step_1 指定url
     9     url = 'https://www.sogo.com/'
    10     #step_2 发起请求
    11     #get方法会返回一个响应对象
    12     response=requests.get(url=url)
    13     #step_3 获取响应数据.text返回的是字符串形式的响应数据
    14     page_text=response.text
    15     print(page_text)
    16     #step_4 持久化存储
    17     with open('./sogo.html','w',encoding='utf-8') as fp:
    18         fp.write(page_text)
    19     print('爬取数据结束!!!!!!')














  • 相关阅读:
    UML学习笔记<1>
    安装和配置jBPM4,并举个hello.w
    Myeclipse--jBPM4.3插件
    今天讲座的感悟--java
    程序员必看的书
    SSH的整合
    一款Timer倒计时器
    一款jq的计时器
    Code Complete-13/7/29
    java-Timer类使用方法
  • 原文地址:https://www.cnblogs.com/wyh-study/p/11162621.html
Copyright © 2011-2022 走看看