zoukankan      html  css  js  c++  java
  • python 爬虫

    import time
    import urllib.request
    from bs4 import BeautifulSoup
    file = open(r'meituancde.txt', 'w')
    
    
    def get_url(i):
        url = 'https://www.lagou.com/zhaopin/ceshi/%s/?filterOption=%s' % (i, i)
        return url
    
    
    def get_html(i):
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
        }
        response = urllib.request.Request(url=get_url(i), headers=headers)
        html = urllib.request.urlopen(response).read().decode('utf-8')
        sopu = BeautifulSoup(html,"html.parser")
        return sopu
    
    
    def parse(i):
        soup = get_html(i)
        me = soup.findAll('', {'class': 'money'})  # 工资
        me1 = soup.findAll('', {'class': 'format-time'})  # 发布时间
        me2 = soup.findAll('', {'class': 'li_b_r'})  # 福利
        me3 = soup.findAll('', {'data-lg-tj-id': '8F00'})  # 公司名字
        meitu = {}
        i = 0
        for title in me:
            meitu['gongzi'] = me[i].text
            for jianjie in me1:
                meitu['发布时间'] = me1[i].text
                for sellum in me2:
                    meitu['福利'] = me2[i].text
                    for pire in me3:
                        meitu['公司名称'] = me3[i].text
            i += 1
            print(meitu)
            if len(meitu) != 0:
                file.write(str(meitu))
                file.write("
    ")
                file.close
    if __name__ == '__main__':
        for i in range(1, 31):
            parse(i)

    爬去结果:

    {'gongzi': '20k-40k', '发布时间': '1天前发布', '福利': '“大数据平台,千万级用户,高并发系统,技术”', '公司名称': '人人行(借贷宝)'}
    {'gongzi': '15k-28k', '发布时间': '1天前发布', '福利': '“五险一金,团队分享,友好的同事,地铁周边”', '公司名称': '玖富集团'}
    {'gongzi': '12k-24k', '发布时间': '1天前发布', '福利': '“团队协作,技术大牛,办公环境”', '公司名称': '平安好房'}
    {'gongzi': '5k-10k', '发布时间': '1天前发布', '福利': '“五险一金,免费住宿,免费班车”', '公司名称': '惠龙易通'}
    {'gongzi': '10k-15k', '发布时间': '09:55发布', '福利': '“技术大牛,不打卡,十四薪,六险一金”', '公司名称': '洋钱罐'}
    {'gongzi': '5k-10k', '发布时间': '09:57发布', '福利': '“公司前景好 双休 五险一金”', '公司名称': '高达软件'}
    {'gongzi': '8k-16k', '发布时间': '09:18发布', '福利': '“发展迅速,全员持股,国外旅游,自由打卡”', '公司名称': '蜂融网络'}
    {'gongzi': '10k-15k', '发布时间': '09:01发布', '福利': '“节日礼金,年底奖金,体检旅游,带薪年假”', '公司名称': '江苏亿科达'}
    {'gongzi': '6k-12k', '发布时间': '09:39发布', '福利': '“发展空间好,团队氛围好,福利好,敏捷开发”', '公司名称': '达摩网络'}
    {'gongzi': '10k-15k', '发布时间': '09:37发布', '福利': '“证券行业,上市公司”', '公司名称': '金证股份'}
    {'gongzi': '4k-6k', '发布时间': '08:05发布', '福利': '“周末双休,带薪年假,旅游团建多,发展空间大”', '公司名称': '传影科技'}
    {'gongzi': '6k-12k', '发布时间': '09:57发布', '福利': '“各项补贴,年假病假”', '公司名称': '华云数据'}
    {'gongzi': '5k-8k', '发布时间': '09:13发布', '福利': '“高成长企业,团队强悍,地铁周边”', '公司名称': 'Udesk-企业级智能客服平台'}
    {'gongzi': '10k-13k', '发布时间': '08:33发布', '福利': '“大平台 稳定 轻松”', '公司名称': '上海中软华腾软件系统有限公司'}
    {'gongzi': '10k-20k', '发布时间': '1天前发布', '福利': '“五险一金,员工旅游,年底双薪,年底奖金”', '公司名称': 'Trusfort芯盾时代'}
    [Finished in 18.8s]

     
    目前还在学习中,希望会对大家有所帮助,觉得不错,就点赞支持一下。 另外,转载时请附带链接。谢谢!
  • 相关阅读:
    另一个博客
    友情链接&部分题目的密码
    知识点汇总
    一些模板的调试样例
    摘抄
    通过代理连接Microsoft Store和更新Windows系统
    模电复习
    Codeforces Round #583 F Employment
    杂感(三)
    杂感(二)
  • 原文地址:https://www.cnblogs.com/dangkai/p/9154282.html
Copyright © 2011-2022 走看看