zoukankan      html  css  js  c++  java
  • 项目整体流程

    #!/bin/bash
    
    ## 文件目录
    ######################## Local Contens ##############################
    # 主目录
    root_dir= hadoop@bigdata03:/data/beiyou/minelab/
    #子目录
        $root_dir/Src/liming/
                    /yinhang/
                    /shaoxianlei/
    # 子目录
        $root_dir/source_data
        Commmon/search_keywords.data
               /datafilter_keywords.data
               /stopwords.list
               /rate_avg_overlap.data(rate_i avg_i overlap_i)(计算覆盖范围)
               /director_filter_keywords.data
               /anchorman_filter_keywords.data
               /program_actor_filter_keywords.data
               
        Conf/topicid/2014****/topicname_id.data.total
            
        SinaUser/2014****/sinauser.data(用户id    昵称    性别    location    图片url    生日    粉丝数    微博数    关注数    标签列表)
        TencentUser/2014****/tencentuser.data(用户id    昵称    性别    location    图片url    生日    粉丝数    微博数    关注数    标签列表)
        
        SinaWeibo/2014****/sina.retain(微博id    用户id    创建时间    内容    评论数    转发数    赞数    关键词id)
                          /sina.droped(微博id    用户id    创建时间    内容    评论数    转发数    赞数    关键词id)
                          /sina.unfiltered(weiboid	content(分词,去停用词,空格分隔)	topicid(没有为-1,多个用:分割)	评论	转发	赞	userid	关键词id	创建时间)
                          /sina.data(weiboid	content(分词,空格分隔)	topicid(没有为-1,多个用:分割)	评论	转发	赞	userid	关键词id	创建时间)
                          /weiboid_update.list(关键词id    微博id    微博url 微博内容 用户id)
                          /comment_retweet_praise.update(微博id 评论 转发 赞 微博内容 用户id topicid)
                          
        TencentWeibo/2014****/tencent.retain(微博id    用户id    昵称    创建时间    内容    评论数    关键词id)
                             /tencent.droped(微博id    用户id    昵称    创建时间    内容    评论数    关键词id)
                             /tencent.unfiltered(weiboid	content(分词,去停用词,空格分隔)	topicid(没有为-1,多个用:分割)	评论	转发	赞	userid	关键词id	创建时间)
                             /tencent.data(weiboid	content(分词,空格分隔)	topicid(没有为-1,多个用:分割)	评论	转发	赞	userid	关键词id	创建时间)
                             /comment.update(无)
                             
        Tianya/2014****/tianya.retian(帖子id    楼主id    楼主姓名    帖子内容    帖子标题    发帖时间    点击数    回复数    关键词id)
                       /tianya.droped(帖子id    楼主id    楼主姓名    帖子内容    帖子标题    发帖时间    点击数    回复数    关键词id)
                       /tianya.unfiltered(帖子id	content(分词,去停用词,空格分隔)	-1	回复数	点击数	0	userid	关键词id	创建时间)
                       /tianya.data(帖子id	content(分词,空格分隔)	-1	回复数	点击数	0	userid	关键词id	创建时间)
                       /click_reply.update(无)
                       
        TieBa/2014****/tieba.retain(帖子ID    帖子标题    回复数    创建时间    关键词id)
                      /tieba.droped(帖子ID    帖子标题    回复数    创建时间    关键词id)
                      
        Video/2014****/pptv/pptv.retain(评论id    视频名称    评论内容    用户昵称    回复数    评论时间)
                           /pptv.droped(评论id    视频名称    评论内容    用户昵称    回复数    评论时间)
                           
        Video/2014****/sohu/sohu.retain(评论id        总的视频名称(如央视春晚2013)+子节目名(如春暖花开 那英)    视频id    评论内容    用户id    评论时间)
                           /sohu.droped(评论id        总的视频名称(如央视春晚2013)+子节目名(如春暖花开 那英)    视频id    评论内容    用户id    评论时间)
                           
        Video/2014****/youku/youku.retain(评论id    视频名称    视频id    评论内容    用户id    评论时间)
                            /youku.droped(评论id    视频名称    视频id    评论内容    用户id    评论时间)
                            
        Video/2014****/aiqiyi/aiqiyi.retain(评论id    视频名称    视频id    评论内容    用户id    评论时间)
                             /aiqiyi.droped(评论id    视频名称    视频id    评论内容    用户id    评论时间)
        Miss_craw_rate/2014****/miss_craw.data(所有关键词在新浪微博上显示的总条数(int))
    #子目录
        $root_dir/TotalStatus/2014****/overall_effect.result(total_comment_count total_forward_count total_attention_count)
                                    /word_count.data(万字)
        $root_dir/Program/2014****/topn_program.list(1    programname    count)
                                  /topn_program.weibo                                
        $root_dir/Actor/2014****/topn_actor.list(1    actorname count)
                                /topn_actor.weibo
        $root_dir/TotalTopic/2014****/topn_topic.list(1    topicname count)
                                     /topn_topic.weibo
        $root_dir/DirectorTopic/2014****/topn_topic_director.list
                                        /topn_topic_director.weibo
        $root_dir/AnchormanTopic/2014****/topn_topic_anchorman.list
                                         /topn_topic_anchorman.weibo
        $root_dir/TiebaTopic/2014****/
        
        $root_dir/TimeTrend/2014****/topic_timetrend.data(topic_name time)
                                     
        
    #子目录
        $root_dir/lda_model/2014****/
                                    /train.data
                                    /wordmap.txt
                                    /linenum_topicid.map
                                    /model-final.tassign
                                    /model-final.twords
                                    /model-final.others
                                    /model-final.perplexity
                                    /model-final.phi
                                    /model-final.theta
                                    /nw.data
                                    /nd.data
                                    /realtopic_ldatopic.map(ldatopic	realtopic:attribute	realtopic:attribute)
                                    /topicid.data(topicid topiccontent count)
    #子目录
        $root_dir/director_model/2014****
                                        /director.data(sina	weiboid	content(分词,去停用词)	topicid(没有为-1,多个用:分割)	评论	转发	赞	userid	关键词id	creat_time)
                                        /train.data
                                        /inf.data
                                        /wordmap.txt
                                        /linenum_topicid.map
                                        /model-final.tassign
                                        /model-final.twords
                                        /model-final.others
                                        /model-final.perplexity
                                        /model-final.phi
                                        /model-final.theta
                                        /nw.data
                                        /nd.data
                                        /realtopic_ldatopic.map
                                        /topicid.data
                                        /data_topic.final(source, weiboid, realtopic(只有一个,选最相似的那个,没有则为‘null’), 评论,转发,赞,userid,sex,location, age, fanscoutnt, weibocount, 标签列表,searchkeywords_id, creat_time)
                                        /final.data(source,weiboid,ldatopic(4th),self_topic('null'),评论,转发,赞,userid,sex,location, age, fanscoutnt, weibocount, 标签列表,searchkeywords_id, creat_time)
                                                    自身的Topic在最终计算的时候另外考虑
        
    
    #子目录
        $root_dir/anchorman_model/2014****
                                        /anchorman.data(sina	weiboid	content(分词,去停用词)	topicid(没有为-1,多个用:分割)	评论	转发	赞	userid	关键词id	creat_time)
                                        /train.data
                                        /inf.data
                                        /wordmap.txt
                                        /linenum_topicid.map
                                        /model-final.tassign
                                        /model-final.twords
                                        /model-final.others
                                        /model-final.perplexity
                                        /model-final.phi
                                        /model-final.theta
                                        /nw.data
                                        /nd.data
                                        /realtopic_ldatopic.map    
                                        /topicid.data
                                        /data_topic.final(source, weiboid, realtopic(只有一个,选最相似的那个),评论,转发,赞,userid,sex,location, age, fanscoutnt, weibocount,标签列表, searchkeywords_id, creat_time)
                                        /final.data(source,weiboid,ldatopic(4th),self_topic,评论,转发,赞,userid,sex,location, age, fanscoutnt, weibocount, 标签列表,searchkeywords_id, creat_time)
                                                    自身的Topic在最终计算的时候另外考虑
    
                                   
    #子目录
        $root_dir/lda_inference/2014****/inf.data(第一个字段为数据来源:source	weiboid	content(分词,空格分开))
                                        /result_data/(第一个字段为数据来源:sina	encent	ianya) (source	weibo_id	1:39(空格)3:24)
                                        /data_topic.final(source, weiboid, realtopic(只有一个,选最相似的那个),评论,转发,赞,userid,sex,location, age, fanscoutnt, weibocount,标签列表, searchkeywords_id, creat_time)
                                        /final.data(source,weiboid,ldatopic(4th),self_topic('null'), 评论,转发,赞,userid,sex,location, age, fanscoutnt, weibocount,标签列表, searchkeywords_id, creat_time)
                                                    自身的Topic在最终计算的时候另外考虑
        
    #子目录(延迟两天计算,只计算一次)
        $root_dir/Influence/2014****
                           /common/top_comment_retweet_praise.list(weiboid count content userid)
                           /opinion_leader/opinion_leader_weibo.data
                                          /opinion_leader.data
                                          /topn_opinion_leader.list
                           /analysis/topic_topweibo.list(topicid topiccontent	weiboid1:retweet	weiboid2:retweet	weiboid3:retweet) 
                                    /influence_weiboid.list(weiboid)
                                 
    
    #子目录(延迟两天计算,只计算一次,汇总所有的结果)
        $root_dir/FinalResult/overall_effect.final(total_comment_count    total_forward_count    total_attention_count)
                             /hot_talk/topn_topic.final(topic_content related_count)
                                      /topn_program.final(program_name related_count)
                                      /topn_actor.final(actor_name related_count)
                                      /topn_topic_director.final(topic_content related_count)
                                      /topn_topic_anchorman.final(topic_content related_count)
                                      /topic_timetrend_chw.final(topic_name    count_list[])
                                      /topic_timetrend_60.final(1 topic_name    count)
                                      
                                      
                             /influence/topic_coverage.final
                                       /influence_propagation.final(topiccontent weibo_timer_shaft)
                                       /opinion_leader.final(username    coment_retweet_praise)
                                       /top_comment_retweet_praise.final(weiboid    count userid    weibo_content)
    
    ###########################################################################
    
    ###################### Hadoop Contents #############################################
    #主目录
    hdfs_root_dir = "cctv"
                       
    #子目录
        $hdfs_root_dir/lda_model/2014****
                                         /nw.data
                                         /wordmap.txt
    
    #子目录
        $hdfs_root_dir/lda_inference/2014****
                                    /inf.data
                                    /newnw.data
                                    /newnw.data.tmp
                                    /middle_data/result_data/part-r-00***
                                    /output/
    
    #####################################################################################
    
    
    
    ################################ 数据预处理 #########################################
    #原始数据存放位置及命名:
        root_dir:hadoop@bigdata02:/home/minelab/raw_data/
        每天创建文件夹:2014****/
            数据文件夹:
                SinaWeibo/${keyword_id}.txt
                TencentWeibo/${keyword_id}.txt
                TianYa/${keyword_id}.txt
                TieBa/${keyword_id}.txt
                Viedo/${video_source}/${video_source}.txt
            数据字段(字段之间都用‘	‘分割,对于没有的字段填充’null‘,字段说明在单独的配置文件中,不用写到文件的第一行):
                SinaWeibo:
                    主键key 关键词 微博id 用户id 微博url 创建时间 内容 图片url 视频url 音乐url 发博来源 转发数 评论数 赞数 所转发微博id 所评论微博id(目前都是0) 抓取时间
                TencentWeibo:
                    微博ID    用户ID    用户名    微博内容    评论数    发布时间    抓取时间
                Tianya:
                    帖子ID    楼主姓名    帖子内容    帖子标题    发帖时间    点击数    回复数    楼主ID
                TieBa:
                    帖子ID    帖子标题    创建时间    楼主名称    正文
                Video:
                    pptv:
                        评论id    视频名称    评论内容    用户昵称    是否vip    ip地址    回复数    评论时间    
    
                    搜狐视频:
                        评论id    视频名称    视频id    评论内容    用户id    评论时间
    
                    优酷:
                        评论id    视频名称    视频id    评论内容    用户id    评论时间
                        
                    爱奇艺
                        评论id    视频名称    视频id    评论内容    用户id    评论时间
                SinaUser:
                    主键key 用户id testresult 昵称 property domainname 性别 描述 用户类型 认证原因 location 省份 城市 图片url 博客url 微号 生日 星座 关注数 粉丝数 微博数 qq msn mail 性取向 情感状况 血型 关注列表 粉丝列表 标签列表 创建时间 更新时间
    
    
    详见:数据预处理.pipeline
    
    ################################ 整体情况 ############################################
    详见整体情况.pipeline            
    
    ################################ 热议指数 ############################################
    详见热议指数.pipeline
    
    ################################ 影响力   ############################################
    详见影响力.pipeline
    
    ## 数据可视化
    详见
    整体流程
  • 相关阅读:
    在数组中的两个数字如果前面一个数字大于后面的数字, 则这两个数字组成一个逆序对。 输入一个数组,求出这个数组中的逆序对的总数
    输入一个正整数数组,把数组里所有数字拼接起来排成一个数。打印能拼接出所有数字中最小的一个
    输入一个整型数组,数组里有正数,也有负数。求所有子数组的和的最大值
    数组中有一个数字出现的次数超过数组长度的一半
    输入一个字符串,打印出该字符串中字符的所有排列
    输入一颗二叉搜索树,将该二叉搜索树转换成一个排序的双向链表
    输入一颗二叉树和一个整数,打印出二叉树中结点值的和为输入整数的所有路径
    判断某数组是否是某二叉搜索树的后序遍历的结果
    栈的压人、弹出序列
    Valid Number
  • 原文地址:https://www.cnblogs.com/bobodeboke/p/3534039.html
Copyright © 2011-2022 走看看