我的项目有一张表,始终是手动导入数据。我接手之前的同事总是喜欢用pl/sql developer,但是我觉得还是黑框框看着有技术含量。
这里顺便就写一下有关sqlldr的简单用法。
有关sqlldr资料比较全面的应该就是帮助了,打出来看一下。
SQL*Loader: Release 11.2.0.1.0 - Production on 星期六 8月 4 12:54:31 2012 Copyright (c) 1982, 2009, Oracle and/or its affiliates. All rights reserved. 用法: SQLLDR keyword=value [,keyword=value,...] 有效的关键字: userid -- ORACLE 用户名/口令 control -- 控制文件名 log -- 日志文件名 bad -- 错误文件名 data -- 数据文件名 discard -- 废弃文件名 discardmax -- 允许废弃的文件的数目 (全部默认) skip -- 要跳过的逻辑记录的数目 (默认 0) load -- 要加载的逻辑记录的数目 (全部默认) errors -- 允许的错误的数目 (默认 50) rows -- 常规路径绑定数组中或直接路径保存数据间的行数 (默认: 常规路径 64, 所有直接路径) bindsize -- 常规路径绑定数组的大小 (以字节计) (默认 256000) silent -- 运行过程中隐藏消息 (标题,反馈,错误,废弃,分区) direct -- 使用直接路径 (默认 FALSE) parfile -- 参数文件: 包含参数说明的文件的名称 parallel -- 执行并行加载 (默认 FALSE) file -- 要从以下对象中分配区的文件 skip_unusable_indexes -- 不允许/允许使用无用的索引或索引分区 (默认 FALSE) skip_index_maintenance -- 没有维护索引, 将受到影响的索引标记为无用 (默认 FALSE) commit_discontinued -- 提交加载中断时已加载的行 (默认 FALSE) readsize -- 读取缓冲区的大小 (默认 1048576) external_table -- 使用外部表进行加载; NOT_USED, GENERATE_ONLY, EXECUTE (默认 NOT_USED) columnarrayrows -- 直接路径列数组的行数 (默认 5000) streamsize -- 直接路径流缓冲区的大小 (以字节计) (默认 256000) multithreading -- 在直接路径中使用多线程 resumable -- 启用或禁用当前的可恢复会话 (默认 FALSE) resumable_name -- 有助于标识可恢复语句的文本字符串 resumable_timeout -- RESUMABLE 的等待时间 (以秒计) (默认 7200) date_cache -- 日期转换高速缓存的大小 (以条目计) (默认 1000) no_index_errors -- 出现任何索引错误时中止加载 (默认 FALSE) PLEASE NOTE: 命令行参数可以由位置或关键字指定 。前者的例子是 'sqlldr scott/tiger foo'; 后一种情况的一个示例是 'sqlldr control=foo userid=scott/tiger'。位置指定参数的时间必须早于 但不可迟于由关键字指定的参数。例如, 允许 'sqlldr scott/tiger control=foo logfile=log', 但是 不允许 'sqlldr scott/tiger control=foo log', 即使 参数 'log' 的位置正确。
好在我是中文版的oracle,看起来很明了。我的目的是把文本文件导入到数据库中,因此我只需要几个很简单的参数。下面是我的数据文件的格式:
xa0010011,88721,201207
xa0010012,88722,201207
......
下面是我的数据表的结构:
create table sqlldr_test
(
user_no varchar2(100),
user_rate number,
month_id varchar2(6)
)。
那么,sqlldr的控制文件应该这样写:
load data infile 'E:\Script\data.txt' append into table sqlldr_test fields terminated by ',' trailing nullcols ( user_no, user_rate, month_id )
其中,append代表直接插入到队尾。append什么原理,可以参考网络资料。这个我个人认为可以提高导入的速度,因为数据直接插到了数据表的队尾。另外还有参数:truncate,replace,insert,他们分别和truncate table,delete from table和insert into table对应,前两个是要删除数据的慎用。
我的文本文件中,数据是用逗号“,”分割的,所以这里写上了,这句一定要写。
trailing nullcols,代表表的字段没有值时,允许为空。
到此为止,控制文件的写作就算完成了,已经可以满足我的应用了。
接下来就要用了。不管是在linux里,还是windows里,都是用命令行来控制的,当然了也可以写一个程序控制,但是我不会。命令行的命令如下:
sqlldr wings/wings@OBAMA control=control.ctl log=log.log bad=bad.log errors=5000 rows=500
这里面的所有参数在文章最开始的地方已经解释过了,这里便不再赘述。下面点一下回车就执行了。
我觉得需要说的应该就是rows了,因为从最开始接触oracle就有人告诉我,每次插入数据的时候,最好每多少多少行提交一次,因为undo空间是有限的。至于每次使用sqlldr的时候多少行提交一次,我想应该根据自己的文件大小决定。
记得记日志,不然错了你都不知道错到哪里了。