zoukankan html css js c++ java

爬虫之爬取求职小网站

import requests
form bs4 import BeautifulSoup



爬取实习生的网站
https://www.shixiseng.com/it/2


def translate_number(s):
    s = s.encode("utf-8")
    
    s = s.replace(b"xeex83x88",b"0")#字符串替换  将二进制数据替换成数字
    s = s.replace(b"xeexbbx85",b"1")#字符串替换
    s = s.replace(b"xefx8bx85",b"2")#字符串替换
    s = s.replace(b"xeex8fxbe",b"3")#字符串替换
    s = s.replace(b"xeexb8xae",b"4")#字符串替换
    s = s.replace(b"xeex96x83",b"5")#字符串替换
    s = s.replace(b"xefx86xb1",b"6")#字符串替换
    s = s.replace(b"xefx91xa8",b"7")#字符串替换
    s = s.replace(b"xefx8ax9b",b"8")#字符串替换
    s = s.replace(b"xefx9bxbb",b"9")#字符串替换
    return s.decode("utf-8")


def url():
    req = requests.get(url)
    html = req.text#获取标签中的文本值
    soup = BeautifulSoup(html,"lxml"）
    
    job_name = soup.select(".new_job_name“)[0].string
    company_name = soup.select(".job_com_name")[0].string
    job_position = soup.select(".job_position")[0].string 
    job_academic = soup.select(".job_academic")[0].string
    job_money = translate_number(soup.select(".job_money")[0].string.encode("utf-8"))
    print(job_money)    
    print("职位：{}，公司：{}，地点：{}，学历：{},薪资：{}”.format(job_name,conpany_name,job_position,job_academic,job_money)
    
    
for page in range(20):
    #输入需要爬取的网站网址来进行爬取
    rep = requests.get("https://www.shixiseng.com/it/2".format(page))
    html = req.text#获取标签中的文本值
    soup= BeautifulSoup(html,"lxml")
    for job in soup.select("a.name")
        url = job.get("herf")
        print(url)
        detail_page("https://www.shixiseng.com"+detail_url)

查看全文

相关阅读:
JFinal连接多个数据库
 ERROR 2003 (HY000): Can't connect to MySQL server on 'localhost' (10061) net start mysql服务名无效
 oracle中文显示为问号
 IDEA开发环境的设置约定
 WSL distro导入导出
 Linux服务器的x11图形模式方式远程管理参考
 WSL Linux 的 Windows 子系统[笔记]
devops-cd之esxi和docker实战
 devops-cd之vagrant virtualbox实战
 ansible高级使用知识点

原文地址：https://www.cnblogs.com/tangda/p/10824273.html