zoukankan      html  css  js  c++  java
  • python爬虫入门_踩过的坑 No1

      爬取网站:阿里巴巴招聘 使用python3.6    urllib  正则

    需求:爬取指定工作地点的岗位名称.

    import json
    from urllib import request
    
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36",
    }
    # 刚开始的url是 url=https://job.alibaba.com/zhaopin/positionList.htm?keyWord=cHl0aG9u&_input_charset=UTF-8&
    for i in range(10):
        url = "https://job.alibaba.com/zhaopin/socialPositionList/doList.json?pageSize=%d" % (i)
        # 获取 html 页面
        req = request.Request(url, headers=headers)
        response = request.urlopen(req)
        content = response.read().decode('utf-8')  # read 读取所有内容  decode 解码
        # 获取的时json数据
        data = json.loads(content)  # 装换成字典
        # print(data)
    
        datas = data.get('returnValue')
        data_list = datas['datas']  # 拿到字典
    
        for data_job in data_list:
            # print(data_list)
            job = data_job['name']
            print(job)

     

    • 爬虫是入门级别的, 非常简单. 但是在爬的过程中也遇到了些问题:

    1> 刚开始爬取的url是直接复制的 浏览器url输入框里面的url, 后来发现这个url爬取的html页面没有我想要爬取的信息.

    2> 查资料发现 我需要爬取的信息是 Ajax 动态生成的. 需要爬取的是 动态生成的Ajax页面. 

    3> 最后通过抓包工具拿到了这个 Ajax动态生成的 json 页面.成功的抓取到了想要的信息.

    非常简单的爬虫小案例, 写下来主要是想记录自己踩过的小坑!  大神请忽略.

  • 相关阅读:
    Django框架---- 信号
    算法----迷宫问题
    算法----数据结构
    算法----其他排序
    Twisted简介
    爬虫----selenium模块
    爬虫----Scrapy框架
    爬虫----requests模块
    关于电脑运行ubunut出现严重发热的问题
    基本操作命令详解
  • 原文地址:https://www.cnblogs.com/zhuyalong/p/11130206.html
Copyright © 2011-2022 走看看