如何提高数据库查询效率
2017-02-15
1 硬件调整性能
2 数据库设计方面
2.1 建立索引
2.2 字段类型
2.3 表变量和临时表
3 SQL语句方面
3.1 避免全表扫描
3.2 只取需要的字段和行
3.3 尽量避免使用游标
3.4 尽量避免大事务操作,提高系统并发能力
3.5 使用存储过程
在一个千万级的数据库查寻中,如何提高查询效率?
1 硬件调整性能
最有可能影响性能的是磁盘和网络吞吐量,解决办法扩大虚拟内存,并保证有足够可以扩充的空间;把SQL数据库服务器的吞吐量调为最大
2 数据库设计方面
2.1 建立索引
SQL索引有两种,聚集索引和非聚集索引(聚簇索引与非聚簇索引的区别)。聚集索引 表数据按照索引的顺序来存储的,而非聚集索引 表数据存储顺序与索引顺序无关。
动作描述 |
使用聚集索引 |
使用非聚集索引 |
外键列 |
应 |
应 |
主键列 |
应 |
应 |
列经常被分组排序(order by) |
应 |
应 |
返回某范围内的数据 |
应 |
不应 |
小数目的不同值 |
应 |
不应 |
大数目的不同值 |
不应 |
应 |
频繁更新的列 |
不应 |
应 |
频繁修改索引列 |
不应 |
应 |
一个或极少不同值 |
不应 |
不应 |
2.2 字段类型
- 尽量使用数字型字段,若只含数值信息的字段尽量不要设计为字符型,这会降低查询和连接的性能,并会增加存储开销。这是因为引擎在处理查询和连接时会逐个比较字符串中每一个字符,而对于数字型而言只需要比较一次就够了。
- 尽可能的使用 varchar/nvarchar 代替 char/nchar ,因为首先变长字段存储空间小,可以节省存储空间,其次对于查询来说,在一个相对较小的字段内搜索效率显然要高些。
2.3 表变量和临时表
- 尽量使用表变量来代替临时表。如果表变量包含大量数据,请注意索引非常有限(只有主键索引)。
- 避免频繁创建和删除临时表,以减少系统表资源的消耗。
- 临时表并不是不可使用,适当地使用它们可以使某些例程更有效,例如,当需要重复引用大型表或常用表中的某个数据集时。但是,对于一次性事件,最好使用导出表。
- 在新建临时表时,如果一次性插入数据量很大,那么可以使用 select into 代替 create table,避免造成大量 log ,以提高速度;如果数据量不大,为了缓和系统表的资源,应先create table,然后insert。
- 如果使用到了临时表,在存储过程的最后务必将所有的临时表显式删除,先 truncate table ,然后 drop table ,这样可以避免系统表的较长时间锁定。
3 SQL语句方面
3.1 避免全表扫描
- 应尽量避免在 where 子句中使用!=或<>操作符,否则将引擎放弃使用索引而进行全表扫描。
- 应尽量避免在 where 子句中使用 or 来连接条件,否则将导致引擎放弃使用索引而进行全表扫描。
select id from t where num=10 or num=20 -- 改为 select id from t where num=10 union all select id from t where num=20
- in 和 not in 也要慎用,否则会导致全表扫描
select id from t where num in(1,2,3) -- 改为 select id from t where num between 1 and 3
- 下面的查询也将导致全表扫描:
select id from t where name like ‘%abc%’
- 如果在 where 子句中使用参数,也会导致全表扫描。因为SQL只有在运行时才会解析局部变量,但优化程序不能将访问计划的选择推迟到运行时;它必须在编译时进行选择。然而,如果在编译时建立访问计划,变量的值还是未知的,因而无法作为索引选择的输入项。如下面语句将进行全表扫描:
select id from t where num=@num -- 可以改为强制查询使用索引: select id from t with(index(索引名)) where num=@num
- 应尽量避免在 where 子句中对字段进行表达式操作,这将导致引擎放弃使用索引而进行全表扫描。如:
select id from t where num/2=100 -- 应改为: select id from t where num=100*2
- 应尽量避免在where子句中对字段进行函数操作,这将导致引擎放弃使用索引而进行全表扫描。
select id from t where substring(name,1,3)=’abc’ -- 改为 select id from t where name like ‘abc%’ select id from t where datediff(day,createdate,’2005-11-30′)=0–‘2005-11-30’ -- 改为 select id from t where createdate>=’2005-11-30′ and createdate<’2005-12-1′
- 不要在 where 子句中的“=”左边进行函数、算术运算或其他表达式运算,否则系统将可能无法正确使用索引。
- 很多时候用 exists 代替 in 是一个好的选择(sql中in和exists的区别效率问题 转):
select num from a where num in(select num from b) -- 改为: select num from a where exists(select 1 from b where num=a.num)
3.2 只取需要的字段和行
- 任何地方都不要使用 select * from t ,用具体的字段列表代替“*”,不要返回用不到的任何字段。
- 尽量避免向客户端返回大数据量,若数据量过大,应该考虑相应需求是否合理。
3.3 尽量避免使用游标
- 因为游标的效率较差,如果游标操作的数据超过1万行,那么就应该考虑改写。
3.4 尽量避免大事务操作,提高系统并发能力
3.5 使用存储过程
- 应用程序的实现过程中,能够采用存储过程实现的对数据库的操作尽量通过存储过程来实现,因为存储过程是存放在数据库服务器上的一次性被设计、编码、测试,并被再次使用,需要执行该任务的应用可以简单地执行存储过程,并且只返回结果集或者数值,这样不仅可以使程序模块化,同时提高响应速度,减少网络流量,并且通过输入参数接受输入,使得在应用中完成逻辑的一致性实现。