zoukankan      html  css  js  c++  java
  • python爬百度首页

    使用requests模块

    import requests
    res=requests.get("http://www.baidu.com")
    res.encoding='utf-8-sig'
    
    file=open('baidu.html','w',encoding='utf-8-sig')
    file.write(res.text)
    file.close()
    print(res.text)
    

    或者

    import requests
    url='https://www.baidu.com'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36',
    }
    get_response = requests.get(url,headers=headers,params=None)
    page=get_response.content
    with open('baidu2.html','wb') as f:
        f.write(page)
    print(get_response.text)
    print(get_response.content)
    print(get_response.json)
    

    get_response.text得到的是str数据类型。
    get_response.content得到的是Bytes类型,需要进行解码。作用和get_response.text类似。
    get_response.json得到的是json数据。
    使用urllib模块

    import urllib.request
    
    headers = {
         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36',
     }
    req=urllib.request.Request(url='http://www.baidu.com',headers=headers)
    response=urllib.request.urlopen(req)
    webpage=response.read()
    
    with open('baidu3.html','wb') as f:
         f.write(webpage)
    
  • 相关阅读:
    转 oracle catalog 库常用脚本
    转 【ORACLE】ORA-12537 问题整理
    转 Trace a specific ORA- error
    15%
    MySQL 存储过程
    MySQL 命令行客户机的分隔符
    MySQL 连接join
    MySQL 正则表达式
    MySQL 日期时间函数
    Arthas 快速入门
  • 原文地址:https://www.cnblogs.com/faberbeta/p/13889456.html
Copyright © 2011-2022 走看看