zoukankan html css js c++ java

爬虫学习汇总

import requests
import os

#url 请求
def getHTMLText(url):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()  #如果状态不是200，引发HttpError异常
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"

#带参数的url请求
def getHTMLParams(url, params):
    try:
        r = requests.get(url, params)
        r.raise_for_status()  #如果状态不是200，引发HttpError异常
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"

#爬取图片  path存储文件的路径
def getPicture(url,path):
    try:
        if not os.path.exists(root):
            os.mkdir(root)
        if not os.path.exists(path):
            r = requests.get(url)
            with open(path, 'wb') as f:
                f.write(r.content)
                f.close()
                print('文件保存成功')
        else:
            print('文件已存在')
    except:
        print('爬取失败')


if __name__ == "__main__":
   # url = "http://www.baidu.com"
   # print(getHTMLText(url))

    #kv = {'wd': 'python'}
    #url = "http://www.baidu.com/s"
    #r = getHTMLParams(url, kv)
    #print(len(r))
    #爬取图片的简单样例
    url = "http://pic41.nipic.com/20140508/18609517_112216473140_2.jpg"
    root = "D://pics//"
    path = root + url.split('/')[-1]
    getPicture(url,path)
#robots协议  举例可以查看京东https://www.jd.com/robots.txt
#百度搜索关键字接口
#http://www.baidu.com/s?wd=keyword

#www.ip138.com  IP归属地查询

查看全文

相关阅读:
Spyder的汉化
 Python，Pycharm，Anaconda等的关系与安装过程~为初学者跳过各种坑
 好了，我的第一篇博客！
Xcode 最低要求和支持的 SDK
python连接hive （安装impyla）的采坑之旅
 java泛型（泛型接口、泛型类、泛型方法）
oracle命令查看表结构及表索引
 Linux环境下安装、配置Nginx1.14.2（CentOS Linux release 7.6.1810）
Caffe入门随笔
 Gradient Boosting算法简介

原文地址：https://www.cnblogs.com/mutong1228/p/11373740.html