[Java]知乎下巴第0集：让我们一起来做一个知乎爬虫吧哦耶

[Java]知乎下巴第0集：让我们一起来做一个知乎爬虫吧哦耶

身边的小伙伴们很多都喜欢刷知乎，当然我也不例外，

但是手机刷太消耗流量，电脑又不太方便。

于是，就诞生了这一款小软件：铛铛铛铛！知乎下巴=。=

知乎下巴，音译就是知乎下吧 ~

首先我们来缕一缕思绪，想想到底要做什么，列个简单的需求。

需求如下：

1.模拟访问知乎官网（http://www.zhihu.com/）

2.下载指定的页面内容，包括：今日最热，本月最热，编辑推荐

3.下载指定分类中的所有问答，比如：投资，编程，挂科

4.下载指定回答者的所有回答

5.最好有个一键点赞的变态功能（这样我就可以一下子给雷伦的所有回答都点赞了我真是太机智了！）

那么需要解决的技术问题简单罗列如下：

1.模拟浏览器访问网页

2.抓取关键数据并保存到本地

3.解决网页浏览中的动态加载问题

4.使用树状结构海量抓取知乎的所有内容

好的，目前就想了这些。

接下来就是准备工作了。

1.确定爬虫语言：由于以前写过一系列爬虫教程（点击这里），百度贴吧，糗事百科，山东大学的绩点查询等都是用python写的，所以这次决定使用Java来写（喂完全没有半毛钱联系好吗）。

2.科普爬虫知识：网络爬虫，即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛通过网页的链接地址来寻找网页。具体的入门介绍请（点击这里）。

3.准备爬虫环境：Jdk和Eclipse的安装和配置就不多说啦。这里啰嗦一句，一个好用的浏览器对于爬虫来说非常重要，因为首先你需要自己浏览网页知道你需要的东西在哪里，你才能告诉你的爬虫们去哪里怎么爬。个人推荐火狐浏览器，或者谷歌浏览器，它们的右键审查元素和查看源代码的功能都非常强大。

下面我们开始正式的爬虫之旅！~

欢迎各位小伙伴在Github提交PR：https://github.com/callmewhy/ZhihuDown

http://blog.csdn.net/pleasecallmewhy/article/details/17538809

查看全文

相关阅读:
从客户端复制文件到服务器
 随便选择两个城市作为预选旅游目标。实现两个独立的线程分别显示10次城市名，每次显示后休眠一段随机时间(1000ms以内)，哪个先显示完毕，就决定去哪个城市。分别用Runnable接口和Thread类实现。
编写BinIoDemo.java的Java应用程序，程序完成的功能是：完成1.doc文件的复制，复制以后的文件的名称为自己的学号姓名.doc。
编写IoDemo.java的Java应用程序，程序完成的功能是：首先读取text.txt文件内容，再通过键盘输入文件的名称为iodemo.txt,把text.txt的内容存入iodemo.txt
编写TextRw.java的Java应用程序，程序完成的功能是：首先向TextRw.txt中写入自己的学号和姓名，读取TextRw.txt中信息并将其显示在屏幕上。
定义类Human，具有若干属性和功能；定义其子类Man、Woman；在主类Test中分别创建子类、父类和上转型对象，并测试其特性。
实现如下类之间的继承关系，并编写Music类来测试这些类。
Servlet基础
 JavaBean技术的一些讲解
 Jsp 内置对象

原文地址：https://www.cnblogs.com/shareshow/p/4785315.html