zoukankan      html  css  js  c++  java
  • python爬虫入门笔记--爬取垃圾分类查询【还有待改善】

    import urllib.request
    import urllib.parse
    import re
    
    #后期应对网页内容用正则表达式进行提取
    
    word = input('输入你想搜索的内容:')
    # word = '啤酒瓶'
    url = 'http://lajifenleiapp.com/sk/'
    #参数写为一个字典(相当于数组)
    data = {
        'sk':word,
    }
    headers={
    
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36',
    
    }
    #对word进行 urlencode解码,将啤酒瓶转为%E5%95%A4%E9%85%92%E7%93%B6
    query_string = urllib.parse.urlencode(data)
    #python中字符串自带的split方法一次只能使用一个字符对字符串进行分割,但是python的正则模块则可以实现多个字符分割
    #对  sk=%E5%95%A4%E9%85%92%E7%93%B6 进行多字符分割
    arr=re.split('[=]', query_string)
    #将字符存入列表arr,并对url进行拼接
    url = url + arr[1]
    
    request = urllib.request.Request(url=url,headers = headers)
    response = urllib.request.urlopen(request)
    print(response.read().decode())
  • 相关阅读:
    PHP添加Redis模块及连接
    Redis高级应用
    Redis常用命令
    Redis的数据类型及操作
    Redis下载及安装部署
    NoSQL介绍
    8种Nosql数据库系统对比
    JQ插件
    libcurl一般用法
    密钥对加密原理
  • 原文地址:https://www.cnblogs.com/zhahu/p/11931413.html
Copyright © 2011-2022 走看看