zoukankan      html  css  js  c++  java
  • 水木清华社区招聘信息定时抓取

    水木上有非常活跃的招聘者在公布招聘信息,可是水木的速度却非常慢。于是试着将其抓取下来,这样子浏览的速度就快了非常多。并且将其部署在SAE上面。可以仅仅查看须要的信息。减少了本地流量耗费,在新浪云平台上启用了两个JVM,云豆预计可以用的。

    在浏览器中请求水木时候,它会分不同的数据返回,首先就是页面的框架和广告。最后才是内容!

    分析了它的返回数据的构成之后,就能够利用Jsoup去请求了。取回来的数据直接进行抽取和过滤,留下须要的数据。然后存到数据库中去。最后再显示到页面上来。

    整个过程大概就是如此。

    同一时候认为要是手动去抓取的话。就太没有意思了,于是设置了定时器,能够定时地去抓取数据并保存。每个小时抓取一次。这样算是差点儿相同能追上论坛的更新了吧,(突然想到还能够晚上的时间段歇息,减少消耗)。

    突然想到,能够加个功能。每一篇招聘信息中差点儿都会有邮箱地址,能够解析出来,准备好一个简历模板,自己主动批量发简历!

    之后可能会加入别的站点的数据。

    界面简单微笑

    可能会有非常多bug敲打

    详细能够移步:http://huntinfo.sinaapp.com/

    完整代码放在 :https://github.com/laozhaokun/huntinfo

  • 相关阅读:
    JavaScript的执行
    关于k阶裴波那契序列的两种解法
    科普 eclipse中的Java build
    [BZOJ 1037] 生日聚会Party
    [POJ 1185] 炮兵阵地
    [POJ 1935] Journey
    [POJ 2397] Spiderman
    [POJ 2373][BZOJ 1986] Dividing the Path
    [POJ 3378] Crazy Thairs
    [POJ 2329] Nearest number-2
  • 原文地址:https://www.cnblogs.com/gccbuaa/p/7324539.html
Copyright © 2011-2022 走看看