zoukankan html css js c++ java

Requests库入门实例

了解了Requests库的基本用法，附上一篇理论链接https://www.cnblogs.com/hao11/p/12593419.html

我们就可以做一些小实例了

1.亚马逊商品的爬取

首先用get方法对亚马逊网站发送请求，然后看返回的状态码，此处503不是200，表明没有成功，

然后要看text内容,首先检查编码格式，header中不存在，用备用的替代，然后看到text中 For information about migrating to our APIs refer to our Marketplace APIs 还有确认我们是不是爬虫，说明这个网站对爬虫做了限制。

于是如下处理

首先查看请求头，可以看到是原生的python请求，这样会被一些网站认为爬虫被拒绝访问

　　我们将请求头的代理字段替换， ‘Mozilla/5.0’ 伪装成火狐浏览器进行访问即可

　　最后写的健壮点

#RequestAmazon.py
import requests
url = 'https://www.amazon.cn/'
try:
    kv = {'user-agent':'Mozilla/5.0'}
    r = requests.get(url, headers=kv)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[1000:2000])
except:
    print("爬取失败")

2.百度/谷歌搜索关键词提交

　　首先打开百度，输入python并回车，观察网址变化

　　百度的wd字段就是我们搜索的关键词

　　于是我们可以尝试：

　　　　http://www.baidu.com/s?wd=python

　　　　也是一样的

　　　　同理查看google可知其接口为

　　　　https://www.google.com/search?q=keyword

　　于是可以用爬虫实现查找功能

#Requestbaidu.py
import requests
keyword = 'python'
url = 'https://www.baidu.com/s' #google把网站换了 s换成search
try:
    kv = {'wd':keyword}  #google把wd换成q
    r = requests.get(url, params=kv)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[1000:2000])
except:
    print("爬取失败")

3.图片爬取和存储

　　百度搜索一张图片，点击右键，在新分页中开启图片，然后复制网址过来即可。

#Pcis.py
import requests
import os
url = 'https://pic4.zhimg.com/80/f2ded3c7f2873e5e7d48c139e1203e5f_720w.jpg'
root = 'D://pics//'
path = root +url.split('/')[-1]　　　　　#文件名用本来的名字
try:
    if not os.path.exists(root):        #不存在路径则创建
        os.mkdir(root)
    if not os.path.exists(path):
        r = requests.get(url, timeout=30)
        with open(path,'wb') as f:      #将文件以二进制打开
            f.write(r.content)          #content是二进制数据
            f.close()
            print('文件保存成功')
    else:
        print('文件已存在')
except:
    print("爬取失败")

　　跑一下，成功后去对应的路径就能看到

4.ip归属地查询

　　　这个实例和实例二是类似，但有区别，这个实例直接字符串连接。

　　　　首先登录m.ip138.com 查询ip地址

　　　　于是其接口是：http://m.ip138.com/ip.asp?ip=ipaddress

#IpQuerry.py
import requests
url = 'http://m.ip138.com/iplookup.asp?ip='
ip = '111.111.11.11'
try:
    r = requests.get(url+ip, timeout=30)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.status_code)
    print(r.text[-300:])
except:
    print("爬取失败")

查看全文

相关阅读:
详细描述一下 Elasticsearch 索引文档的过程 ?
elasticsearch 索引数据多了怎么办，如何调优，部署 ?
elasticsearch 了解多少，说说你们公司 es 的集群架构，索引数据大小，分片有多少，以及一些调优手段 ?
Dubbo 和 Dubbox 之间的区别？
Dubbo 支持服务降级吗？
Pipeline 有什么好处，为什么要用 pipeline？
为什么redis 需要把所有数据放到内存中？
你对线程优先级的理解是什么？
在 java 中 wait 和 sleep 方法的不同？
一个线程运行时发生异常会怎样？

原文地址：https://www.cnblogs.com/hao11/p/12609807.html