zoukankan      html  css  js  c++  java
  • 云计算项目实战之爬虫部分

    第一部分 需求分析

     

    爬虫在项目中间的作用

      分析用户的行为需要根据用户浏览网页的分类及特征来决定,所以获取网页内容需要爬虫
      单线程爬虫难以满足项目的需求,需要多线程爬虫来处理

    部分 技术点

    WgetHttpClient

      Wget  是一个从网络上自动下载文件的自由工具    支持通过  HTTP    HTTPS    FTP  三个最常见的  TCP/IP  协议下载,并可以使用  HTTP  代理
      HttpClient  是  Apache Jakarta Common  下的子项目,可以用来提供高效的、最新的、功能丰富的支持  HTTP  协议的客户端编程工具包,并且它支持  HTTP  协议最新的版本和建议

     

    功能需求

      分析网页内容取得词频
      获取词与网页的对应关系
    Page

    rowkey:

    url

    C_FAMILY

    category


    Term_Page

    rowkey:

    term!`!url

    C_FAMILY

    cg_raw

    部分 代码实现

    请参考视频和源码

     

    私塾在线原创独家云计算课程

  • 相关阅读:
    第九周上机作业
    购物商城
    安卓第四周作业
    第十五周作业
    第十三周作业-集合
    第十三周上机练习
    第十二周作业
    上机练习 5.21
    java第十一周作业
    java第十一周上机练习
  • 原文地址:https://www.cnblogs.com/riasky/p/3478977.html
Copyright © 2011-2022 走看看