爬前叨叨
今天要爬取一下正规大学名单,这些名单是教育部公布具有招生资格的高校名单,除了这些学校以外,其他招生的单位,其所招学生的学籍、发放的毕业证书国家均不予承认,也就是俗称的野鸡大学!
网址是 https://daxue.eol.cn/mingdan.shtml
爬取完毕之后,我们进行一些基本的数据分析,套路如此类似,哈哈
这个小项目采用的是scrapy
,关键代码
import scrapy
from scrapy import Request,Selector
class SchoolSpider(scrapy.Spider):
name = 'School'
allowed_domains