zoukankan      html  css  js  c++  java
  • SmartDo数据挖掘思路

    SmartDo数据挖掘思路

    数据挖掘部分:

    数据挖掘的主要网址为:

    https://www.amazon.com/Best-Sellers/zgbs

    挖掘部分为网址左边的入口,大约20多个,其中页面分级如下:

    一级:
    https://www.amazon.com/Best-Sellers/zgbs
    
    二级:(Home-Kitchen)
    https://www.amazon.com/Best-Sellers-Home-Kitchen/zgbs/home-garden/ref=zg_bs_nav_0
    
    三级:(Bedding)
    https://www.amazon.com/Best-Sellers-Home-Kitchen-Bedding/zgbs/home-garden/1063252/ref=zg_bs_nav_hg_1_hg
    
    四级:(Quilts-Sets)
    https://www.amazon.com/Best-Sellers-Home-Kitchen-Quilts-Sets/zgbs/home-garden/10671039011/ref=zg_bs_nav_hg_2_1063252
    
    五级:(Quilts)
    https://www.amazon.com/Best-Sellers-Home-Kitchen-Quilts/zgbs/home-garden/3732171/ref=zg_bs_nav_hg_3_10671039011
    

    其中括号内的为点击的URL入口。

    本次抓取的步骤如下:

    1. 将所有类目下的URL储存到数据库中
    2. 分配不同的类目的URL到不同的计算机,实行分布抓取
    3. 将抓取的HTML保存到本地
    4. 一边保存HTML时一边进行解析,将自己需要的信息提取出来
    5. 将信息储存到数据库中

    数据储存部分:

    数据储存首先要搭建储存的框架,初定拟定每个DB储存4个类目的所有信息,每个DB的分支如下:

    graph LR
    DB库-->table表1
    DB库-->table表2
    DB库-->table表3
    DB库-->table表4
    

    其中DB库为年份命名,例如2016;table表为类目下的所有信息,命名为“年-月-日-时-分-秒一级类目名-二级类目名...”,例如2016-10-06-14-18-55-per-dog-A

    数据库的搭建较为繁琐,需要从长计议。

  • 相关阅读:
    SpringBoot整合Elasticsearch
    Elasticsearch环境搭建和介绍(Windows)
    Java并发AtomicBoolean类的使用
    RequestMapping详细用法
    RSA公钥加密 私钥解密
    java随机生成RSA密钥对
    java通过实体类生成数据库表 并生成注释
    设计模式-策略模式
    设计模式-模板方法模式使用
    设计模式-模板方法模式
  • 原文地址:https://www.cnblogs.com/TTyb/p/5933837.html
Copyright © 2011-2022 走看看