zoukankan      html  css  js  c++  java
  • 如何自己动手获取大量知乎网民数据?

    前言

    去年在接触Java爬虫的时候,接触到了一个关于知乎的爬虫。个人觉得写的非常好,当时抓取的效率和成功率还是特别特别高,现在可能知乎反扒做的更好,这个开源知乎爬虫没之前抓取的那么顺利了。我记得当时在我的i7+8g的机器上爬了将近两天,大概爬取了60多w的数据。当然,实际抓取的用户数据数量肯定比这个多,只是持久化过程不同步而已,也就是抓取的好几个用户可能只有一个存入数据库中。

    为什么推荐这个项目呢?

    如果你自己去阅读这个开源知乎爬虫的源码你会发现它在Ip代理以及多线程的处理上都特别好,适合大家去阅读学习。

    这个项目的github地址为:https://github.com/wycm/zhihu-crawler

    项目的使用方式

    下载

    git clone https://github.com/wycm/zhihu-crawler.git 克隆项目到本地
    git 下载

    下载
    或关注微信公众号:“Java面试通过手册”
    关注微信公众号
    回复:“知乎爬虫”即可获取知乎网民数据+项目源码

    使用

    成功导入Maven项目后运行Main.java即可。

    如果你需要保存到数据库(Mysql)

    修改配置文件config.properties

    然后修改
    db.enable = true
    再把下面其他参数修改成你的数据库的参数。

  • 相关阅读:
    序列操作
    上帝造题的七分钟2 / 花神游历各国
    火柴排队
    pair(对组)用法
    线段树
    链上分治
    Rem与Px的转换
    css中单位px和em,rem的区别
    css网页自适应-1
    css网页自适应-2
  • 原文地址:https://www.cnblogs.com/snailclimb/p/9086418.html
Copyright © 2011-2022 走看看