DataStax Bulk Loader教程（六）

zoukankan html css js c++ java

DataStax Bulk Loader教程（六）
DataStax Bulk Loader系列教程共分为六篇，这是此系列的最后一篇，本教程到此篇为止也将告一段落。很多时候我们会想要从其它地方向DataStax Enterprise (DSE)中加载数据，此篇文章中我们将给出相关的案例。

另外，我们也建议您在使用dsbulk时参考dsbulk 文档页面，从而了解所有的相关参数和选项。

范例30：从另一个DSE集群中加载数据

一个常见的情景就是将数据从一个DSE集群中移到另一个集群，dsbulk没有“迁移”功能，但是我们可以通过原生的装载卸载功能达到目的。一种方式是先将集群中的数据卸载到本地文件系统，然后再将这些数据装载到另一个集群：
$ dsbulk unload -h localhost -k dsbulkblog -t iris_with_id -url /tmp/dsbulkblog/migrate$ dsbulk load -h localhost -k dsbulkblog -t iris_with_id -url /tmp/dsbulkblog/migrate
这里的一个窍门是我们可以一次性将dsbulk unload to dsbulk load的结果通过Linux管道输出：
$ dsbulk unload -h localhost -k dsbulkblog -t iris_with_id | dsbulk load -h localhost -k dsbulkblog -t iris_with_id
这样就得到以下输出结果：
Operation directory: /tmp/logs/LOAD_20190314-172058-173447. Operation directory: /tmp/logs/UNLOAD_20190314-172058-192179. total | failed | rows/s | mb/s | kb/row | p50 ms | p99ms | p999ms 150 | 0 | 302 | 0.01 | 0.04 | 20.12 | 20.19 | 20.19 Operation UNLOAD_20190314-172058-192179 completed successfully in 0 seconds. total | failed | rows/s | mb/s | kb/row | p50 ms | p99ms | p999ms | batches 　150 | 0 | 52 | 0.00 | 0.04 | 20.94 | 60.29 | 61.34 | 1.00O peration LOAD_20190314-172058-173447 completed successfully in 2 seconds. Last processed positions can be found in positions.txt
虽然第二种方法挺巧妙的，但是我们必须要点出这个方法的一个弊端。这里面的卸载和装载都是单线程的，因为他们都是通过标准输入/标准输出 (stdout/stdin)来完成的。两步走的方式更为稳妥且两步之间互不干扰，但是你将不得不先完成所有的卸载，然后才能进行装载。

范例30.1：保留存活时间(TTLs)和时间戳的数据迁移

有的时候我们希望在迁移数据时保留写入时间(writetime)和存活时间(TTL)，我们可以通过dsbulk和自定义的CQL查询语句达到目的。首先，我们在卸载数据时需要保留数据的写入时间和存活时间：
$ dsbulk unload -h localhost -query "SELECT id, petal_length, WRITETIME(petal_length) AS w_petal_length, TTL(petal_length) AS l_petal_length, petal_width, WRITETIME(petal_width) AS w_petal_width, TTL(petal_width) AS l_petal_width, sepal_length, WRITETIME(sepal_length) AS w_sepal_length, TTL(sepal_length) AS l_sepal_length, sepal_width, WRITETIME(sepal_width) AS w_sepal_width, TTL(sepal_width) AS l_sepal_width, species, WRITETIME(species) AS w_species, TTL(species) AS l_species FROM dsbulkblog.iris_with_id" -url /tmp/dsbulkblog/migrate
下一步是装载数据。我们将通过批量语句(batch statements)完成这一步，原因是对于每一个INSERT语句，我们只能设置一个写入时间和存活时间。

所以我们需要对每一个常规字段(petal_length, petal_width, sepal_length, sepal_width, and species)都用一个INSERT语句。

我们将会把这些INSERT语句都放入同一个批处理(batch)中并对应同一个分区键（即id），这样这些语句就会在Cassandra中被视为同一批改变(mutation)并在执行时保证原子性。
$ dsbulk load -h localhost -query "BEGIN BATCH INSERT INTO dsbulkblog.iris_with_id(id, petal_length) VALUES (:id, :petal_length)USING TIMESTAMP :w_petal_length AND TTL :l_petal_length; INSERT INTO dsbulkblog.iris_with_id(id, petal_width) VALUES (:id, :petal_width)USING TIMESTAMP :w_petal_width AND TTL :l_petal_width; INSERT INTO dsbulkblog.iris_with_id(id, sepal_length) VALUES (:id, :sepal_length)USING TIMESTAMP :w_sepal_length AND TTL :l_sepal_length; INSERT INTO dsbulkblog.iris_with_id(id, sepal_width) VALUES (:id, :sepal_width)USING TIMESTAMP :w_sepal_width AND TTL :l_sepal_width; INSERT INTO dsbulkblog.iris_with_id(id, species) VALUES (:id, :species)USING TIMESTAMP :w_species AND TTL :l_species; APPLY BATCH;" -url /tmp/dsbulkblog/migrate --batch.mode DISABLED
```
 
```
范例30.2：在同一集群中迁移数据

上述范例同样可用于源集群和目标集群是同一集群的情况。一个典型的情况就是如果你想要改变一个已经存有数据的表的模式(schema)，你就可以借鉴上述方案。

虽然CQL支持添加或删除常规字段且很容易就能做到，但是CQL不支持改变主键（包括分区键partition keys和聚类列clustering columns）。想要做到这点，你需要复制数据——然而CQL也不支持数据复制。

比如，让我们改变我们前面用的iris数据的schema，让species这个字段变成分区键，然后让ID这个字段变成聚类列。我们可以通过CQL实现：
$ cqlsh -e "CREATE TABLE dsbulkblog.iris_by_species(id INT, petal_length DOUBLE, petal_width DOUBLE, sepal_length DOUBLE, sepal_width DOUBLE, species TEXT, PRIMARY KEY ((species), id));"
到这一步，我们可以从iris_with_id这个表卸载数据，然后再将这些数据装载到叫iris_by_species的表：
$ dsbulk unload -h localhost -k dsbulkblog -t iris_with_id | dsbulk load -h localhost -k dsbulkblog -t iris_by_species
我们可以通过对比dsbulk count的结果来抽查数据迁移的成果：
$ dsbulk count -k dsbulkblog -t iris_with_id -stats global --log.verbosity 0150$ dsbulk count -k dsbulkblog -t iris_by_species -stats global --log.verbosity 0150
范例31：从DSEFS装载数据

一个常见的用例就是考虑如何从DSEFS（DataStax Enterprise默认的分布式文件系统）装载数据。

dsbulk没有从DSEFS URL装载数据的原生功能，但是我们有几种方式可以搞定这个问题。为了演示方便，让我们在一个Analytics开启（意味着DSEFS开启）的集群中放入一些数据：
$ dse fs "mkdir dsefs:///dsbulkblog"$ dse fs "cp file:///tmp/dsbulkblog/iris.csv dsefs:///dsbulkblog/"
我们可以通过下面的命令看到数据已经被存入集群了：
$ dse fs "cat dsefs:///dsbulkblog/iris.csv"
然后我们可以用同样的命令将这些数据导入dsbulk：
$ dse fs "cat dsefs:///dsbulkblog/iris.csv" | dsbulk load -k dsbulkblog -t iris_with_id
我们也可以用针对DSEFS的WebHDFS达成同样的效果：
$ dsbulk load -k dsbulkblog -t iris_with_id -url http://localhost:5598/webhdfs/v1/dsbulkblog/iris.csv?op=OPEN
范例32：从MySQL装载数据

利用同样的思路，我们也可以从关系型数据库向DSE迁移数据——即综合使用关系型数据库的命令行，先向它的标准输出(stdout)写入数据，再将数据导入dsbulk。以MySQL为例，你可能需要这么操作（提示：MySQL的输出会以制表键为分隔符）：
$ mysql --user=mysqluser --password=mypassword -B --execute="SELECT id, petal_length, petal_width, sepal_length, sepal_width, species FROM mydb.iris_with_id" | dsbulk load -k dsbulkblog -t iris_with_id -delim " " -header false -m "id,petal_length,petal_width,sepal_length,sepal_width,species"
点击这里下载 DataStax Bulk Loader。

本系列所有文章：

第一篇：入门和加载

第二篇：更多关于加载的例子

第三篇：常规设置

第四篇：卸载

第五篇：计数

第六篇：从其它渠道加载数据
查看全文

相关阅读:
easyui-datagrid 编辑模式下保存数据，光标所在单元格无法保存。
esayui datebox 系统日期之后禁止选择
 使用easy-TreeGrid完成角色权限设置；使用checkbox
jquery easyui easyui-combobox 与easyui-textbox 取值赋值操作
 原生js table中点击操作按钮，获取相应行某列需要的值作为参数请求跳转
 excel 导出兼容到ie (JavaScript)
vue 路由导航重复跳转报错解决记录
 变量提升
 定时器轮播，轮播一次加载一张图；
es7 es8 新加的特性。

原文地址：https://www.cnblogs.com/datastax/p/13876341.html