PAI使用方法
PAI是阿里集团开发。是一款机器学习(支持流计算基于odps-alink)的平台。
1、地址:https://pai.alibaba-inc.com
使用手册:https://yuque.antfin-inc.com/pai-user/manual/km7ht2?spm=a2c3x.12342929.0.0.43d84a9b7KzcCG
2、使用前提:需要有odps项目,由项目管理员将待使用者加入项目
4、数据源
数据源:UCI heart disease (http://archive.ics.uci.edu/ml/datasets/Heart+Disease?spm=a2c4e.11153959.blogcont54260.7.4d976746tnAd2G)
5、新建数据表
下载的数据在odps建立数据表。
如何导入数据表有待研究????????????????????????????????????
3、建立作业
登录 PAI-stud
选用已经建好的实验
也可自己创建实验
6、选择组件进行拖拽
7、sql数据预处理
实际是string处理为0,1,2
8、机器学习流程
数据预处理,特征工程,训练,预测,评估
特征工程:
1)从机器学习的结果看 性别对是否患心脏病权重为0,但是否有可能 性别 特征和其他特征组合就会产生新的 有价值的特征? 还是仅单单因为权重为0,即可断定无论如何组合均不能产生 价值新特征。
可以重组特征
2)如果 性别 特征可以与其他特征重组,经验上会选择哪个,权重最高的特征? 不一定
3)有什么特征重组的方法? autocross 自动化特征工程,阿里有工具 five
分箱
pai支持分箱,在组件中搜索分箱
9、参数
在每个元素内都可以修改参数
10、查看每个节点数据
在每个图像元素均可邮件查看数据
11、完成线上部署