zoukankan      html  css  js  c++  java
  • 网络爬虫了解下

    今天就简单学习了下网络爬虫基础知识。网络爬虫其实就是对网站的分析,然后抽取自己需要的信息,这就是一个熟练的过程。

    目的:兴趣,以后可能会用到,就暂时先了解下。明天该回到正题了:计算机视觉,。毕竟要开题了,不能瞎浪了,忧伤!

    今天:爬取了前程无忧上面关于机器学习的部分职位信息

    code:

    from bs4 import BeautifulSoup
    from urllib.request import urlopen

    def seek_job(URL):
    #URL = "https://search.51job.com/list/090200,000000,0000,00,9,99,%25E6%259C%25BA%25E5%2599%25A8%25E5%25AD%25A6%25E4%25B9%25A0,2,1.html?"
    html = urlopen(URL).read().decode('gbk')
    soup = BeautifulSoup(html, 'html5lib')
    d = soup.find("div", {"class": "dw_table", "id": "resultList"})
    div = d.find_all('div', {"class": 'el'})
    print("本页招聘公司个数:", len(div))

    for l1 in range(1, len(div)): # 第一个有问题,所有写出来
    #print(l1)
    l = div[l1]
    p = l.find("p", {"class": 't1'})
    position = p.find("span").find("a")['title']
    company2 = l.find("span", {"class": 't2'})
    company = company2.find("a")["title"]
    place = l.find("span", {"class": 't3'}).text
    salary = l.find("span", {"class": 't4'}).text
    print('%-3s' %"职位:",'%-20s' % position,'%-3s' % "公司:",'%-20s'%company,'%-15s' % "年薪:", salary, '%-12s' %"地点:", place)


    # 一共爬取7页内容
    for i in range(1,8):
    URL = "https://search.51job.com/list/090200,000000,0000,00,9,99,%25E6%259C%25BA%25E5%2599%25A8%25E5%25AD%25A6%25E4%25B9%25A0,2,"+str(i)+".html?"
    #print(URL)
    seek_job(URL)
    人生很长,一秒太短,一个月不长不短刚刚好! 加油少年! ---------LeaningBD
  • 相关阅读:
    Java线程专题 3:java内存模型
    Java线程专题 2:synchronized理解
    Java线程专题 1:线程创建
    设计模式七大原则
    JVM 运行时数据区
    css_selector定位,比xpath速度快,语法简洁
    xpath绝对定位和相对定位
    selenium多种定位
    操作浏览器基本元素(不定时更新)
    爬取网页图片并且下载(1)
  • 原文地址:https://www.cnblogs.com/mengxiangtiankongfenwailan/p/10065858.html
Copyright © 2011-2022 走看看