zoukankan      html  css  js  c++  java
  • 【职问 数据分析】

    一、统计学知识

    均值、中值、众数、最大最小值、方差、标准差

     1、正态分布

     2、相关

     

    如图,Y轴和X轴存在相关性,X越大,Y越大。因此花粉数量和防晒霜销量呈正相关

     3、回归

     

     

     

     

    二、Excel

    Vlookup

     三、数据库

    文本类型

     数值类型

     日期类型

     1、创建、调整、删除表

    #生成数据表结构
    create table users(
        user_id int primary key,
        name varchar(20),
        age int,
        city varchar(20),
        state varchar(20),
        monthly_active int
    );
    
    #描述表结构
    describe users;
    
    #删除表
    drop table users;
    
    #再次创建表:1、主键放最后声明;2、加上name非空、city唯一的限制;3、设置city缺省值
    create table users(
        user_id int,
        name varchar(20) not null,
        age int,
        city varchar(20) unique default 'unknown',
        state varchar(20),
        monthly_active int,
        primary key(user_id)
    );
    
    #调整数据表:增加字段、删除字段
    alter table users add gender char(1);
    alter table users drop column gender;

    2、增删改

    2.1、 insert

    # 1、向空表插入数据
    insert into users values 
    (1,'Jack',19,'Dallas','Texas',22),
    (2,'Lucy',20,'Boston','Massachusetts',15),
    (3,'Tom',13,'Los Angeles','California',8),
    (4,'Alice',22,'San Jose','California',17),
    (5,'Zhang',32,'Chicago','Illinois',22);
    
    #2、向指定列添加数据 
    INSERT INTO users (user_id,age,city,state,monthly_active) VALUES (1,19,'Dallas','Texas',22);

    2.2、 delete

    # 删除符合某种条件的记录
    DELETE FROM users WHERE user_id=4;
    DELETE FROM users WHERE monthly_active<15;

    2.3、 update

    UPDATE users SET state='CA' WHERE state='California';
    UPDATE users SET name='Jackie',age=29 WHERE user_id=1;

    3、其他

    3.1、 COUNT函数

    COUNT(1)=COUNT(*),统计所有的记录

    COUNT(列名),列名中为NULL的忽略不计

    3.2、 ER图

     四、Python

    1、基本数据类型

     1)Number

    id=1000           #int类型
    deposit=2013.88   #float类型
    is_male=True      #bool类型
    com=2013.88+1000j #复数类型 

    2)String

    3)List

     

     

    4)Tuple

    列表用[]定义,元组用()定义;列表内容可修改,元组不可修改

    tup1 = () # 空元组
    tup2 = (20,) # 一个元素,需要在元素后添加逗号
    tup3 = (100000, 100001, 100002, 100003, 100004)

    5)Set

    6、Dictionary

     

    2、条件控制与循环

     

     

    3、科学计算库Numpy

    4、数据分析处理库Pandas

    5、数据可视化库Matplotlib

    6、Python与SQL的联动

     五、可视化

    tableau和AntV

     六、爬虫

     七、机器学习

     八、商业分析

    1、百度财报分析

     财报基本概念——三张表(资产负载表、利润表、现金流量表)

     1、2019Q1百度财报总览

       百度股价相对年初下降40%+

     2、主营业务介绍

      财务分析

      挑战和机遇

    3、新业务和AI战略业务分析

      爱奇艺业务分析:整体概览、挑战、优势和机遇

      DuerOS业务分析:整体概览、挑战、机遇

       Apollo无人驾驶业务分析:~

     4、基于数据和业务分析的洞察和判断(建议)

      主营业务-搜索和信息流(用户端、商业端)

      新业务和AI战略业务

    2、商业分析

     1、老板要什么

      老板的职责、你应该交付什么

    2、整体分析,局部分析

      看整体:看主营业务,看其他

      整体和局部分析后的进一步洞察(总结、结论)

    3、看大盘,看竞对,看团队

      看大盘:广告在GDP的比重,在线广告和传统广告走势

      看竞对:国外Google,腾讯,微博,头条

      综合大盘和竞对的洞察(总结、结论)

      看团队

    4、形成方案和计划

      对交付的考虑

      交付方案要点

      方案和计划组成:目标为可量化的具体描述(如手机百度DAU从200W到250W)

      

  • 相关阅读:
    数据压缩算法---LZ77算法 的分析与实现
    数据压缩算法---霍夫曼编码的分析与实现
    数据压缩的重要组成部分---位操作
    排序算法的C语言实现(上 比较类排序:插入排序、快速排序与归并排序)
    广度优先(bfs)和深度优先搜索(dfs)的应用实例
    数据结构 图的定义和搜索方法(清晰图解)
    数据结构-堆 接口定义与实现分析(详细注释与图解)
    数据结构-堆的定义描述
    数据结构 链式哈希表(Hash Table)的接口定义与实现分析(完整代码)
    SQLServer常用快捷键汇总
  • 原文地址:https://www.cnblogs.com/little-monkey/p/10950937.html
Copyright © 2011-2022 走看看