zoukankan      html  css  js  c++  java
  • 日志分析(php+nosql+rsync+crontable)

    是不是经常要分析用户的行为?是不是经常遇到多台server上传的日志一起分析?是不是对数据统计的间隔时间要求非常短?还有木有由于日志文件过大,而须要分块处理?

    1、说明一点在日志写入的时候必须依照一种严格的格式,这样在做解析的时候,才好分割。比方 gameid:123  gameid:2333。分割统一标准即可。

    2、在生成日志的文件名称的时候也要依照一定规则,在分析的时候,正則表達式好匹配,如 serverhostname_date.log  这样在匹配的时候 仅仅须要 glob(*—date.log); //glob 见php函数手冊,寻找与模式匹配的文件路径。

    3、为什么要用nosql?事实上project师不是只局限于知道怎么实现,而是要多思考什么样的业务用什么样的工具来解决。非关系型数据非常适合这样的,日志中经常添�新的行为,你用key-value的方式,不须要日志新增了要分析的行为,你就得手动改变你程序的配置,这样我个人认为不是太好。~假如用mysql,你纵向设计数据库,

    结构: id gameid count createtime

              1   1001    3000  2013-03-23  12:22:21

              2   1002   2222   2013-03-23  12:22:21

            ………………

    这样设计的话那么不会由于新增gameid来改动数据表,这样有什么坏处?那就是每次插入数据非常多,假如30秒插入一次,一次插入30个游戏的统计值,那么一天的增量  2*30*60*24 = 86400 条数据,这样显然不合理。

    那么横向设计,一次插入一条数据。

    id gameid_1001 gameid_1002 gameid_1003 …… createtime 

    1  3000             2222             40000               2013-03-23 09:08:56

    2  4000             1800             4000                2013-03-23 09:09:20

    ……

     这种坏处是 每次新增了游戏ID 那么就得改变数据表结构,加字段,当然你牛逼点的能够所实用程序来实现,可是这样我认为不太好。

    mongo中有这个内嵌文档,非常爽。推荐使用hadoop

    存储结构例如以下

            +{

                "_id":3e3ess3sazxcdsdsfdf,

                "createtime":"2013-03-23 09:13:02",

                "data":{

                        "gameid_1001": 2000,

                        "gameid_1002": 3000,

                        ……

                          }


            }

    一次仅仅插入一条数据,新增游戏类型不须要做不论什么改变,perfect~

    4、为什么要用rsync?将多台server的日志同步到一个文件夹下,一起处理,比較方便。

    5、须要用到的几个函数,glob, fopen,fget,isset,explode

    程序最好不要写得非常死板,

     批量读入日志文件

    $sLogfileName = '/path/../*_date.log';

    $aLogfileName = glop($sLogfileName); // 匹配要处理的日志文件,读入数组中。

    ……

    fopen();

    while() //用while循环,处理完文件里的一行数据再去文件里取,假设用foreach一次读入数组,内存会溢出。

    {

    ……

    }

    ……

    $aCountResult = array();

    $iNum = 100;

    if(isset($aCountResult[$iGameId]))

            $aCountResult[$iGameId] = (int)$aCountResult[$iGameId] + $iNum;

    else

            $aCountResult[$iGameId] = $iNum;

    ……

    统计完插入。。

    然后添�计划程序中,ok。。

    主要还是不同的业务用不同的方法解决。

    @update 2013-3-25 21:31:45

    在日志分析中 是一个非常重要的分割符,避免防止内存溢出,不要以

    EOF 作为分割符,同事要严格依照日志标准格式写入,这样在解析的时候比較好解析。用fgets方式获取,不能一次读入内存中。

  • 相关阅读:
    【CSDN博客之星评选】我为什么坚持写博客
    关于纯css布局的概况
    IIS服务器下301跳转是怎么样实现的?
    如何使用数据库保存session的方法简介
    PHP如何通过SQL语句将数据写入MySQL数据库呢?
    PHP中文函数顺序排列一数组且其序数不变
    angular实时显示checkbox被选中的元素
    oracle查询正在执行的语句以及正被锁的对象
    angular中ng-repeat去重
    接口自动化测试框架--http请求的get、post方法的实现
  • 原文地址:https://www.cnblogs.com/yxwkf/p/3851991.html
Copyright © 2011-2022 走看看