zoukankan      html  css  js  c++  java
  • ELK-logstash导入数据以及配合kibana使用

    ELK-logstash导入数据以及配合kibana使用

    1、数据集下载

         MovieLens数据集包含多个用户对多部电影的评级数据,也包括电影元数据信息和用户属性信息。本文所用的数据为1M的数据,对应的版本是ml-latest-small.zip。点击此处下载

         这个数据集经常用来做推荐系统,机器学习算法的测试数据集。尤其在推荐系统领域,很多著名论文都是基于这个数据集的。(PS: 它是某次具有历史意义的推荐系统竞赛所用的数据集)。

    2、配置文件

         logstash.conf

     1 input {
     2   file {
     3     path =>["D:/logstash-6.0.0/movielens/ml-latest-small/movies.csv"]   #csv文件路径
     4     start_position => "beginning"
     5     sincedb_path => "D:/logstash-6.0.0/movielens/ml-latest-small/null"  #监听文件读取信息记录的位置:beginning表示从头开始读取文件,end表示读取最新的
     6   }
     7 }
     8 filter {                                    #filter插件负责过滤解析input读取的数据
     9   csv {
    10     separator => ","                        #拆分符
    11     columns => ["id","content","genre"]     #csv文件中的字段,注意:要和 csv文件中字段顺序一致
    12   }
    13 
    14   mutate {
    15     split => { "genre" => "|" }
    16     remove_field => ["path", "host","@timestamp","message"]
    17   }
    18 
    19   mutate {
    20 
    21     split => ["content", "("]
    22     add_field => { "title" => "%{[content][0]}"}
    23     add_field => { "year" => "%{[content][1]}"}
    24   }
    25 
    26   mutate {
    27     convert => {
    28       "year" => "integer"
    29     }
    30     strip => ["title"]
    31     remove_field => ["path", "host","@timestamp","message","content"]
    32   }
    33 
    34 }
    35 output {
    36    elasticsearch {
    37      hosts => "http://localhost:9200"
    38      index => "movies"
    39      document_id => "%{id}"
    40    }
    41   stdout {}
    42 }

         然后在logstash所在的bin目录下执行:logstash -f logstash.conf

         如果出现类似下图,就说明数据集导入成功

    3、配合Kinaba使用

    1)创建索引

     

    2)discover-分析

      可以看出针对类型中的每一个字段,对应的每一个值的所占占比,都会有柱状图以及百分比显示。

     

    参考链接:

    https://www.jianshu.com/p/58b1087f12b3

  • 相关阅读:
    java并发ThreadLocal
    PermGen space 与 Java heap space
    java vm内存设置
    linux下ssh使用和配置
    ubuntu进入命令登录界面
    7-21 求前缀表达式的值
    7-20 表达式转换
    7-19 求链式线性表的倒数第K项
    7-18 银行业务队列简单模拟
    7-17 汉诺塔的非递归实现
  • 原文地址:https://www.cnblogs.com/hld123/p/13362187.html
Copyright © 2011-2022 走看看