目录
前言
第1章导论1
1.1数据的威力1
1.2什么是数据科学1
1.3激励假设:DataSciencester2
1.3.1寻找关键联系人3
1.3.2你可能知道的数据科学家5
1.3.3工资与工作年限8
1.3.4付费账户10
1.3.5兴趣主题11
1.4展望12
第2章Python速成13
2.1基础内容13
2.1.1Python获取13
2.1.2Python之禅14
2.1.3空白形式14
2.1.4模块15
2.1.5算法16
2.1.6函数16
2.1.7字符串17
2.1.8异常18
2.1.9列表18
2.1.10元组19
2.1.11字典20
2.1.12集合22
2.1.13控制流23
2.1.14真和假24
2.2进阶内容25
2.2.1排序25
2.2.2列表解析25
2.2.3生成器和迭代器26
2.2.4随机性27
2.2.5正则表达式28
2.2.6面向对象的编程28
2.2.7函数式工具29
2.2.8枚举31
2.2.9压缩和参数拆分31
2.2.10args和kwargs32
2.2.11欢迎来到DataSciencester33
2.3延伸学习33
第3章可视化数据34
3.1matplotlib34
3.2条形图36
3.3线图40
3.4散点图41
3.5延伸学习44
第4章线性代数45
4.1向量45
4.2矩阵49
4.3延伸学习51
第5章统计学53
5.1描述单个数据集53
5.1.1中心倾向55
5.1.2离散度56
5.2相关58
5.3辛普森悖论60
5.4相关系数其他注意事项61
5.5相关和因果62
5.6延伸学习63
第6章概率64
6.1不独立和独立64
6.2条件概率65
6.3贝叶斯定理66
6.4随机变量68
6.5连续分布68
6.6正态分布69
6.7中心极限定理72
6.8延伸学习74
第7章假设与推断75
7.1统计假设检验75
7.2案例:掷硬币75
7.3置信区间79
7.4P—hacking80
7.5案例:运行A/B测试81
7.6贝叶斯推断82
7.7延伸学习85
第8章梯度下降86
8.1梯度下降的思想86
8.2估算梯度87
8.3使用梯度90
8.4选择正确步长90
8.5综合91
8.6随机梯度下降法92
8.7延伸学习93
第9章获取数据94
9.1stdin和stdout94
9.2读取文件96
9.2.1文本文件基础96
9.2.2限制的文件97
9.3网络抓取99
9.3.1HTML和解析方法99
9.3.2案例:关于数据的O’Reilly图书101
9.4使用API105
9.4.1JSON(和XML)105
9.4.2使用无验证的API106
9.4.3寻找API107
9.5案例:使用TwitterAPI108
9.6延伸学习111
第10章数据工作112
10.1探索你的数据112
10.1.1探索一维数据112
10.1.2二维数据114
10.1.3多维数据116
10.2清理与修改117
10.3数据处理119
10.4数据调整122
10.5降维123
10.6延伸学习129
第11章机器学习130
11.1建模130
11.2什么是机器学习131
11.3过拟合和欠拟合131
11.4正确性134
11.5偏倚—方差权衡136
11.6特征提取和选择137
11.7延伸学习138
第12章k近邻法139
12.1模型139
12.2案例:喜欢的编程语言141
12.3维数灾难146
12.4延伸学习151
第13章朴素贝叶斯算法152
13.1一个简易的垃圾邮件过滤器152
13.2一个复杂的垃圾邮件过滤器153
13.3算法的实现154
13.4测试模型156
13.5延伸学习158
第14章简单线性回归159
14.1模型159
14.2利用梯度下降法162
14.3最大似然估计162
14.4延伸学习163
第15章多重回归分析164
15.1模型164
15.2最小二乘模型的进一步假设165
15.3拟合模型166
15.4解释模型167
15.5拟合优度167
15.6题外话:Bootstrap168
15.7回归系数的标准误差169
15.8正则化170
15.9延伸学习172
第16章逻辑回归173
16.1问题173
16.2Logistic函数176
16.3应用模型178
16.4拟合优度179
16.5支持向量机180
16.6延伸学习184
第17章决策树185
17.1什么是决策树185
17.2熵187
17.3分割之熵189
17.4创建决策树190
17.5综合运用192
17.6随机森林194
17.7延伸学习195
第18章神经网络196
18.1感知器196
18.2前馈神经网络198
18.3反向传播201
18.4实例:战胜CAPTCHA202
18.5延伸学习206
第19章聚类分析208
19.1原理208
19.2模型209
19.3示例:聚会210
19.4选择聚类数目k213
19.5示例:对色彩进行聚类214
19.6自下而上的分层聚类216
19.7延伸学习221
第20章自然语言处理222
20.1词云222
20.2n—grams模型224
20.3语法227
20.4题外话:吉布斯采样229
20.5主题建模231
20.6延伸学习236
第21章网络分析237
21.1中介中心度237
21.2特征向量中心度242
21.2.1矩阵乘法242
21.2.2中心度244
21.3有向图与PageRank246
21.4延伸学习248
第22章推荐系统249
22.1手工甄筛250
22.2推荐流行事物250
22.3基于用户的协同过滤方法251
22.4基于物品的协同过滤算法254
22.5延伸学习256
第23章数据库与SQL257
23.1CREATETABLE与INSERT257
23.2UPDATE259
23.3DELETE260
23.4SELECT260
23.5GROUPBY262
23.6ORDERBY264
23.7JOIN264
23.8子查询267
23.9索引267
23.10查询优化268
23.11NoSQL268
23.12延伸学习269
第24章MapReduce270
24.1案例:单词计数270
24.2为什么是MapReduce272
24.3更加一般化的MapReduce272
24.4案例:分析状态更新273
24.5案例:矩阵计算275
24.6题外话:组合器276
24.7延伸学习277
第25章数据科学前瞻278
25.1IPython278
25.2数学279
25.3不从零开始279
25.3.1NumPy279
25.3.2pandas280
25.3.3scikit—learn280
25.3.4可视化280
25.3.5R281
25.4寻找数据281
25.5从事数据科学281
25.5.1HackerNews282
25.5.2消防车282
25.5.3T恤282
25.5.4你呢?283