zoukankan      html  css  js  c++  java
  • 云计算项目实战之爬虫部分

    第一部分 需求分析

     

    爬虫在项目中间的作用

      分析用户的行为需要根据用户浏览网页的分类及特征来决定,所以获取网页内容需要爬虫
      单线程爬虫难以满足项目的需求,需要多线程爬虫来处理

    部分 技术点

    WgetHttpClient

      Wget  是一个从网络上自动下载文件的自由工具    支持通过  HTTP    HTTPS    FTP  三个最常见的  TCP/IP  协议下载,并可以使用  HTTP  代理
      HttpClient  是  Apache Jakarta Common  下的子项目,可以用来提供高效的、最新的、功能丰富的支持  HTTP  协议的客户端编程工具包,并且它支持  HTTP  协议最新的版本和建议

     

    功能需求

      分析网页内容取得词频
      获取词与网页的对应关系
    Page

    rowkey:

    url

    C_FAMILY

    category


    Term_Page

    rowkey:

    term!`!url

    C_FAMILY

    cg_raw

    部分 代码实现

    请参考视频和源码

     

    私塾在线原创独家云计算课程

  • 相关阅读:
    tornado之获取参数
    tornado中命名路由及反向解析使用
    options模块介绍
    服务的启动
    redis操作
    python中使用redis模块, 设置过期时间
    LaTeX
    word 摘要
    常用命令
    机器学习的建议
  • 原文地址:https://www.cnblogs.com/riasky/p/3478977.html
Copyright © 2011-2022 走看看