数据挖掘 - 走看看

zoukankan html css js c++ java

数据挖掘

什么是分类和预测？

分类和预测具有大量应用，包括欺诈检测、针对销售、性能预测、制造和诊断。例如，可以建立一个分类模型，对银行贷款应用的安全或风险进行分类（那些贷款申请者是“安全的”，，银行的“风险”是什么）；也可以建立预测模型，给定潜在顾客的收入和职业，预测他们在计算机设备上的花费。

市场经理需要数据分析，以便帮助他来猜测具有某些特征的顾客是否会购买一台新的计算机；医学研究者希望分析乳腺癌数据，预测病人应当接受三种具体治疗方案的哪一种。这都是分类的例子。

而如果市场经理希望预测一位顾客在一次销售期间将花多少钱，该数据任务就属于数值预测，其中所构造的模型预测一个连续值函数或有序值。这种模型是预测器（predictor）。回归分析（regression analysis）是数值预测最常用的统计学方法。我们也可以预测银行可以安全地贷给贷款人的贷款量。

分类和数值预测是预测问题的两种主要类型。

分类和预测都的第一步都可以看作是学习一个映射或函数y = f(X)。对于分类来说，它可以预测给定元组X的关联类标号y；而对于预测来说，X是输入，而y是连续的或有序的输出值。而且，不应当使用训练集来平规分类或预测的准确率，而应当使用一个独立的检验集。

预测是构造和使用模型评估无样本类，或评估给定样本可能具有的属性或值空间。

预测与分类的异同

　　相同点

　　　　两者都需要构建模型

　　　　都用模型来估计未知值

　　

　　　　　　预测中主要的估计方法是回归分析

　　　　　　　　线性回归和多元回归

　　　　　　　　非线性回归　　

　　不同点

　　　　分类法主要是用来预测类标号（分类属性值）

　　　　预测法主要是用来估计连续值（量化属性值）

时间序列数据挖掘模式包括：

　　　　　　　　时间序列模式提取

　　　　　　　　规则归纳，规则评估

现有研究算法有基于统计学方法的自回归模型和自回归移动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA)，这两种方法都要求数据具有线性，周期性，平衡的采样率。

As signal processing methods, Fourier transform, Wavelet,
and fractal analysis method have been also developed
to analyze such well formed time-series data.

而处理一些不规则的数据则无法利用这些方法，例如病人病历信息

To analyze these ill-formed time-series data, we take
another time-series data analysis method such as DTW
(Dynamic Time Wrapping)动态时间归整[1], time-series clustering
with multiscale matching[5], and finding Motif based
on PAA (Piecewise Approximation Aggregation)[6].
As the one of the methods to find out useful
knowledge depended on time-series, timeseries/temporal rule induction methods such as Das’sframework [2] have been developed.

We can extract time-series rules in which representative patterns are expressed as closes of their antecedent and consequent with this method.

一个时间序列数据挖掘环境应该包括：时间序列数据预处理，数据挖掘，挖掘后处理，结果验证和其他数据库操作去核实每个阶段的结果

With this environment, we aim the following efforts
for each agent:
1. Developing and improving time-series data
mining procedures for system developers
2. Collaborative data processing and rule
induction for data miners
3. Active evaluation and interaction for
domain experts

To implement the environment, we have analyzed
time-series data mining frameworks.

Then we have
identified procedures for pattern extraction as data preprocessing,（数据预处理时就开始模式提取）

http://blog.csdn.net/zouxy09/article/details/9140207

查看全文

相关阅读:
前端大文件分片上传/多线程上传
 网页大文件分片上传/多线程上传
 docker基础入门之二
 linux之iptable
linux内核之网络协议栈
 ubuntu之iptables
c++栈管理库TCMalloc、jeMalloc
curl之post提交xml
ceph基本操作整理
 docker基础入门之一

原文地址：https://www.cnblogs.com/puck/p/3725743.html