下载安装kettle。我的版本为7.0.0.0
安装完成后,双击spoon.dat,进入kettle。
(等待几秒)
首先做csv文件导入,在数据库中(我用的辅助工具nevicat),将要导入的表的字段进行创建,并创建该表。(尽量将内容长度长的字段类型设置为text而不是varchar)
创建一个转换。(如图)
创建DB连接。
双击。(填写自己数据库连接的相关信息,记得在kettle文件lib目录下添加mysql连接驱动包)
可以自动获取csv的字段。
之间连接(shift+左键连接)
将自己数据库字段与csv文件的字段相对应。(源字段为csv的字段,目标字段是数据库表字段)
之后点击执行即可。(添加就完成了)
我们接下来进行排序、映射和去重。(这是个新的转换,记得重新创建DB连接)
首先创新一个新的表(表字段跟之前的表一样,将字段复制过来就行(我们定义为final_test2))
将之前的表所有数据select出来。
按照字段序号进行排序,该字段不能为varchar或者text类型,在这我设置的类型为int,不然会出现错误。
接下来值映射(我认为就是修改)将查出来的结果字段为省市的内容为河北的修改为河北省,北京修改为北京市,空值修改为天津市。
进行去重(根据字段成果名称去重)。
将清洗结果输出到新表中。
运行整个作业。
数据库截图。