zoukankan      html  css  js  c++  java
  • Jike_Time

    数据分析全景图

    1. 数据采集。它是我们的原材料,也是最“接地气”的部分,因为任何分析都要有数据
    源。


    2. 数据挖掘。它可以说是最“高大上”的部分,也是整个商业价值所在。之所以要进行数
    据分析,就是要找到其中的规律,来指导我们的业务。因此数据挖掘的核心是挖掘数据
    的商业价值,也就是我们所谈的商业智能 BI。


    3. 数据可视化。它可以说是数据领域中万金油的技能,可以让我们直观地了解到数据分析
    的结果。

     数据采集:

     数据挖掘:

     数据可视化:

    学习数据分析就是从“思
    维”到“工具”再到“实践”的一个过程。今天我会从更多的角度来和你分享我的学习经
    验,我们可以把今天的内容叫作“修炼指南”。
    借用傅盛的话来说,人与人最大的差别在于“认知”,所谓成长就是认知的升级。
    很多人存在对“认知“的误解,认为认知不就是概念么?那么你有没有想过,针对同一个
    概念,为什么不同的人掌握的程度是不一样的呢?
    我们只有把知识转化为自己的语言,它才真正变成了我们自己的东西。这个转换的过程,
    就是认知的过程。

    先思考模型算法---选择工具---

    画图软件SketchBook

    数据挖掘知识清单

     

     基本流程:

     数据分析的基本概念

    如今在超市中,我们还能看到不少组合的套装打包在一起卖,比如宝洁的产品:飘柔洗发水 + 玉兰油沐浴露、海飞丝洗发水 + 舒肤佳沐浴露等等。
    商品的捆绑销售是个很有用的营销方式,背后都是数据分析在发挥作用。

    商业智能 BI、数据仓库 DW、数据挖掘 DM 三者之间的关系

     

    数据挖掘的流程:

    数据挖掘的一个英文解释叫 Knowledge Discovery in Database,简称KDD,也就是数据库中的知识发现

    在数据挖掘中,有几个非常重要的任务,就是分类、聚类、预测和关联分析。我来解释下
    这些概念。

    分类属于监督学习,聚类属于无监督学习

    (1)分类:

    就是通过训练集得到一个分类模型,然后用这个模型可以对其他数据进行分类。

    (2)聚类

    人以群分,物以类聚。聚类就是将数据自动聚类成几个类别,聚到一起的相似度大,不在
    一起的差异性大。我们往往利用聚类来做数据划分。

    (3)预测

    顾名思义,就是通过当前和历史数据来预测未来趋势,它可以更好地帮助我们识别机遇和
    风险。

    (4)关联分析

    就是发现数据中的关联规则,它被广泛应用在购物篮分析,或事务数据分析中。

     上帝不会告诉我们规律,而是展示给我们数据

     用户画像:标签化就是数据的抽象能力

    如果说互联网的上半场是粗狂运营,因为有流量红利不需要考虑细节。那么在下半场,精
    细化运营将是长久的主题有数据,有数据分析能力才能让用户得到更好的体验。
    所以,用户是根本,也是数据分析的出发点。

     为业务赋予能量

    用户画像的准则
    首先就是将自己企业的用户画像做个白描,告诉他这些用户“都是谁”“从哪来”“要去
    哪”。
    你可以这么和老板说:“老板啊,用户画像建模是个系统的工程,我们要解决三个问题。
    第一,就是用户从哪里来,这里我们需要统一标识用户 ID,方便我们对用户后续行为进 行跟踪。我们要了解这些羊肉串的用户从哪里来,他们是为了聚餐,还是自己吃宵夜,这 些场景我们都要做统计分析。

    第二,这些用户是谁?我们需要对这些用户进行标签化, 方便我们对用户行为进行理解。

    第三,就是用户要到哪里去?我们要将这些用户画像与 我们的业务相关联,提升我们的转化率,或者降低我们的流失率。”

    用户唯一标识是整个用户画像的核心。
    
    设计唯一标识可以从这些项中选择:用户名、注册手机号、联系人手机号、邮箱、设备
    号、CookieID 等。
    
    


    其次,给用户打标签。是核心
    用户消费行为分析”。我们可以从这 4 个维度来进行标签划
    分。
    1. 用户标签:它包括了性别、年龄、地域、收入、学历、职业等。这些包括了用户的基础
    属性。
    2. 消费标签:消费习惯、购买意向、是否对促销敏感。这些统计分析用户的消费习惯。 3. 行为标签:时间段、频次、时长、访问路径。这些是通过分析用户行为,来得到他们使 用 App 的习惯。
    4. 内容分析:对用户平时浏览的内容,尤其是停留时间长、浏览次数多的内容进行分析, 分析出用户对哪些内容感兴趣,比如,金融、娱乐、教育、体育、时尚、科技等。 可以说,用户画像是现实世界中的用户的数学建模,我们正是将海量数据进行标签化,来 得到精准的用户画像,从而为企业更精准地解决问题。

    最后,当你有了用户画像,可以为企业带来什么业务价值呢?

    我们可以从用户生命周期的三个阶段来划分业务价值,包括:获客、粘客和留客。

    1. 获客:如何进行拉新,通过更精准的营销获取客户。


    2. 粘客:个性化推荐,搜索排序,场景运营等。


    3. 留客:流失率预测,分析关键节点降低流失率。


    如果按照数据流处理的阶段来划分用户画像建模的过程,可以分为数据层、算法层和业务
    。你会发现在不同的层,都需要打上不同的标签。


    数据层指的是用户消费行为里的标签。我们可以打上“事实标签”,作为数据客观的记
    录。


    算法层指的是透过这些行为算出的用户建模。我们可以打上“模型标签”,作为用户画像
    的分类标识。


    业务层指的是获客、粘客、留客的手段。我们可以打上“预测标签”,作为业务关联的结
    果。


    所以这个标签化的流程,就是通过数据层的“事实标签”,在算法层进行计算,打上“模
    型标签”的分类结果,最后指导业务层,得出“预测标签”。

     分析:

    用户画像:标签,是一个什么样的人
    给羊肉串连锁店进行用户画像分析
    消费者行为分析:
    用户标签:性别、年龄、电话,家乡,公司、居住地、婚姻
    消费标签:消费口味、喜欢类新,消费均价,团购
    行为标签:用餐时间,进店消费,外卖消费,平均点藏用时,访问路径
    内容标签:基于用户平时浏览的内容进行统计
    
    朋友圈用户画像:
    用户标签:性别、年龄、电话,家乡,公司、居住地、婚姻
    行为标签:互动,点攒、评论
    关系标签:同学、亲戚、
    内容标签:原创,转发,文字、图片、视频

    数据如何自动化采集

    一个数据的走势,是由多个维度影响的。我们需要通过多源的数据
    采集,收集到尽可能多的数据维度,同时保证数据的质量,这样才能得到高质量的数据挖掘结果

    这四类数据源包括了:开放数据源、爬虫抓取、传感器和日志采集

     1、如何使用开放数据源

    我们先来看下开放数据源,教你个方法,开放数据源可以从两个维度来考虑

    一个是单位的维度,比如政府、企业、高校;
    一个就是行业维度,比如交通、金融、能源等领域。

    这方面,国外的开放数据源比国内做得好一些,当然近些年国内的政府和高校做开放数据源 的也越来越多。一方面服务社会,另一方面自己的影响力也会越来越大。

     2、如何使用爬虫做抓取

     第三方爬取网站:

    火车采集器

    八爪鱼

    集搜客

    3、如何使用日志采集工具

     埋点是日志采集的关键步骤,那什么是埋点呢?

    埋点就是在有需要的位置采集相应的信息,进行上报。

     八爪鱼的基本操作--使用Xpath解析

     

  • 相关阅读:
    深度可分离卷积、分组卷积、空洞卷积、转置卷积
    Batch Normalization
    激活函数
    容器————vector
    39XML文档类
    38初识xml
    37QT程序打包
    36可视化操作数据库
    35使用模型操作数据库
    34sqlite
  • 原文地址:https://www.cnblogs.com/foremostxl/p/11797003.html
Copyright © 2011-2022 走看看