如何自己动手获取大量知乎网民数据？ - 走看看

zoukankan html css js c++ java

如何自己动手获取大量知乎网民数据？

前言

去年在接触Java爬虫的时候，接触到了一个关于知乎的爬虫。个人觉得写的非常好，当时抓取的效率和成功率还是特别特别高，现在可能知乎反扒做的更好，这个开源知乎爬虫没之前抓取的那么顺利了。我记得当时在我的i7+8g的机器上爬了将近两天，大概爬取了60多w的数据。当然，实际抓取的用户数据数量肯定比这个多，只是持久化过程不同步而已，也就是抓取的好几个用户可能只有一个存入数据库中。

为什么推荐这个项目呢？

如果你自己去阅读这个开源知乎爬虫的源码你会发现它在Ip代理以及多线程的处理上都特别好，适合大家去阅读学习。

这个项目的github地址为：https://github.com/wycm/zhihu-crawler

项目的使用方式

下载

git clone https://github.com/wycm/zhihu-crawler.git 克隆项目到本地

或

或关注微信公众号：“Java面试通过手册”

回复：“知乎爬虫”即可获取知乎网民数据+项目源码。

使用

成功导入Maven项目后运行Main.java即可。

如果你需要保存到数据库（Mysql）

修改配置文件config.properties

然后修改
db.enable = true
再把下面其他参数修改成你的数据库的参数。

查看全文

相关阅读:
WeihanLi.Npoi 1.10.0 更新日志
 消除代码中的坏味道，编写高质量代码
 代码重构之法——方法重构分析
 使用 C# 捕获进程输出
 .net core 中的经典设计模式的应用
 JDBC 规范中文版 4.2 -第一章简介
 基础回顾-线程的几种状态
 一文读懂BeanFactory和FactoryBean区别
 阿里云云计算ACA 第三章阿里云存储服务
 阿里云云计算ACA 第二章阿里云弹性计算

原文地址：https://www.cnblogs.com/snailclimb/p/9086418.html

Copyright © 2011-2022 走看看