zoukankan      html  css  js  c++  java
  • [Java]知乎下巴第0集:让我们一起来做一个知乎爬虫吧哦耶【转】

    文章来源:http://jp.51studyit.com/article/details/16203.htm

    作者:  汪海洋

    身边的小伙伴们很多都喜欢刷知乎,当然我也不例外,

    但是手机刷太消耗流量,电脑又不太方便。

    于是,就诞生了这一款小软件:铛铛铛铛!知乎下巴=。=

    知乎下巴,音译就是知乎下吧 ~

    首先我们来缕一缕思绪,想想到底要做什么,列个简单的需求。

    需求如下:

    1.模拟访问知乎官网(http://www.zhihu.com/

    2.下载指定的页面内容,包括:今日最热,本月最热,编辑推荐

    3.下载指定分类中的所有问答,比如:投资,编程,挂科

    4.下载指定回答者的所有回答

    5.最好有个一键点赞的变态功能(这样我就可以一下子给雷伦的所有回答都点赞了我真是太机智了!)


    那么需要解决的技术问题简单罗列如下:

    1.模拟浏览器访问网页

    2.抓取关键数据并保存到本地

    3.解决网页浏览中的动态加载问题

    4.使用树状结构海量抓取知乎的所有内容

    好的,目前就想了这些。

    接下来就是准备工作了。

    1.确定爬虫语言:由于以前写过一系列爬虫教程,百度贴吧,糗事百科,山东大学的绩点查询等都是用python写的,所以这次决定使用Java来写(喂完全没有半毛钱联系好吗)。

    2.科普爬虫知识:网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛通过网页的链接地址来寻找网页。具体的入门介绍请。

    3.准备爬虫环境:Jdk和Eclipse的安装和配置就不多说啦。这里啰嗦一句,一个好用的浏览器对于爬虫来说非常重要,因为首先你需要自己浏览网页知道你需要的东西在哪里,你才能告诉你的爬虫们去哪里怎么爬。个人推荐火狐浏览器,或者谷歌浏览器,它们的右键审查元素和查看源代码的功能都非常强大。

    下面我们开始正式的爬虫之旅!~

  • 相关阅读:
    记录一则enq: TX
    RAC节点两边存储名字不一致导致的故障及相关延伸
    记录一则fsck的简单案例
    RAC某节点v$asm_disk查询hang分析处理
    统计信息自动收集任务失效原因排查
    OEMCC 13.2 安装部署
    Linux平台Oracle 12.1.0.2 单实例安装部署
    java 除法运算只保留整数位的4种方式
    eclipse spring 配置文件xml校验时,xsd报错
    oracle decode()函数的参数原来可以为sql语句!
  • 原文地址:https://www.cnblogs.com/xxoome/p/5591882.html
Copyright © 2011-2022 走看看