zoukankan      html  css  js  c++  java
  • advanced regression to predict housing prices

    https://docs.google.com/presentation/d/e/2PACX-1vQGlXP6QZH0ATzXYwnrXinJcCn00fxCOoEczPAXU-n3hAPLUfMfie7CwW4Vk4owYPiNh6g4uc9dx757/pub?start=false&loop=false&delayms=3000&slide=id.g3149e75136_0_130

    Pandas 处理 dummy variable

    p-value:拒绝原假设H0时犯错误的概率,即其值越小,越说明拒绝原假设H0 接受备择假设H1是正确的。 
    直观来说,就是犯错概率越低越好。

    也可以解释为,假定“不靠谱”原假设为真时,得到与样本相同或者比样本更极端结果的概率。 
    例如,原假设“人们拇指平均长度是10cm”,根据样本数据得到p-value是0.03,这意味着如果人们拇指平均长度是10cm,得到样本或更极端结果的概率是0.03,小于0.05,这时我们就可以认为原假设不可能成立,即拒绝原假设。

    这里需要注意的是,P值不是给定样本结果时原假设为真的概率,而是给定原假设为真时样本结果出现的概率。

    p-value与alpha值: 
    p值精确地算出一个取样的稀罕程度,alpha值是事先给出的对样本稀有程度的判定界限。

    Lasso regression(稀疏学习,R)

    探索性数据分析

    Kaggle房价预测进阶版/bagging/boosting/AdaBoost/XGBoost

    kaggle 房价预测经典文章

    ===稀疏数据

    The Wide and Deep Learning Model(译文+Tensorlfow源码解析)

    ppt=======

    missingno

    没有高质量的数据,就没有高质量的数据挖掘结果,当我们做监督学习算法,难免会碰到混乱的数据集,缺失的值,当缺失比例很小时,可直接对缺失记录进行舍弃或进行手工处理,missingno提供了一个小型的灵活的、易于使用的数据可视化和实用工具集,用图像的方式让你能够快速评估数据缺失的情况,而不是在数据表里面步履维艰。你可以根据数据的完整度对数据进行排序或过滤,或者根据热度图或树状图来考虑对数据进行修正。
    missingno 是基于matplotlib建造的一个模块,所以它出图速度很快,并且能够灵活的处理pandas数据。

    xgboost

    介绍

    花了几天时间粗略地看完了xgboost原论文和作者的slide讲解,仅仅是入门入门入门笔记。给我的感觉就是xgboost算法比较复杂,针对传统GBDT算法做了很多细节改进,包括损失函数、正则化、切分点查找算法优化、稀疏感知算法、并行化算法设计等等。本文主要介绍xgboost基本原理以及与传统gbdt算法对比总结,后续会基于python版本做了一些实战调参试验。想详细学习xgboost算法原理建议通读作者原始论文与slide讲解。  

    skew定义

    偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。偏度(Skewness)亦称偏态、偏态系数。 表征概率分布密度曲线相对于平均值不对称程度的特征数。直观看来就是密度函数曲线尾部的相对长度。 定义上偏度是样本的三阶标准化矩:

      

    机器学习中数据缺失值处理方法

  • 相关阅读:
    UVa10779
    UVa10779
    C++ 内存管理学习笔记
    c++ 学习笔记
    AcWing 275 传纸条
    I
    Tree HDU6228
    Lpl and Energy-saving Lamps
    C
    Secret Poems
  • 原文地址:https://www.cnblogs.com/lightmare/p/10425095.html
Copyright © 2011-2022 走看看