zoukankan      html  css  js  c++  java
  • Python爬虫与一汽项目【综述】

    项目来源

    这个爬虫项目是 去年实验室去一汽后的第一个项目(基本交工,现在处于更新维护阶段)。内容大概是,获取到全国31个省份政府的关于汽车的招标公告,再用图形界面的方式展示爬虫内容。在完成政府招标采购网之后,提出新的关于国企的招标信息,这些爬虫都是关于这些企业的爬虫代码。

    爬虫编写说明

    需要的安装的东西不多,语言就用python3

    数据库:mysql  可以安装正常的mysql,也可以安装wampserver的php服务器(wampserver里面有轻量级的mysql服务器,很方便)

    数据库安装完成后,再安装一个mysql前端的管理工具,mysql front或者navicat premium(之前用的就是这个)

    ******************************************************

    安装完成之后,是编写说明

    爬取网站中 与车相关 的网页列表,要往数据库存 title(标题),href(网页的链接),招标时间,content(网页中的招标内容)

    编写风格 可以参照 附件里的爬虫文件,解析工具的话 可以用Beautiful Soup,也可以用Xpath(我习惯于Xpath,因此后续的文件都是用Xpath写的)

    附件里爬虫文件的流程:

    1. 先根据URL (可能是get也可能是post) 获取到html

    2. 通过解析工具从网页列表中 获得每个单独网页的 标题 时间 网页链接

    3. 判断  标题是否和车相关,时间是否符合设置要求

    4. 如果符合条件 ,根据网页链接  来获取网页中的content内容

    5. 这个内容 其实就是把 整个网页中的文字,去掉标签,加到一起变成一段str

  • 相关阅读:
    「luogu2414」[NOI2011]阿狸的打字机
    【模板】KMP算法,AC自动机
    「luogu2336」[SCOI2012]喵星球上的点名
    「luogu2463」[SDOI2008]Sandy的卡片
    【模板】后缀数组
    「luogu1972」 [SDOI2009]HH的项链
    北师大部分题解
    D:Sequence Swapping
    Tinkoff Internship Warmup Round 2018 and Codeforces Round #475 (Div. 2)
    点双连通分量F. Simple Cycles Edges
  • 原文地址:https://www.cnblogs.com/bep-feijin/p/10602798.html
Copyright © 2011-2022 走看看