今天在mysql上处理一个数据量达到千万级的数据库表时,要取出满足条件的数据集,然后存入到mongo数据库,使用JPA提供的Pageble去拿分页,再用多线程去取数据时,发现刚开始效率还可以,肯定比单线程强很多,但是这个Pageable有一个问题,在生成sql语句时,会自动加上一个limit *,10000,这样的限制条件,“*”代表从哪一行开始取数据,10000代表本次操作取10000条数据。这种操作会严重占用服务器的缓存,如果你在执行这种操作,别人也在访问时,会导致大家一起都卡得一比。
解决方法就是用一个并发队列来存储每一页的最后一条数据的id,但是我遇到了一个问题:
This version of MySQL doesn't yet support 'LIMIT & IN/ALL/ANY/SOME subquery
limit不能和IN这样的只是范围的关键字直接连用,错误的sql和改进后的sql。
//出错的sql select max(id) from news_info where id in (select id from news_info where where pub_date>?1 and id>?2 order by id limit 10000) //正确的sql select max(id) from news_info where id in (select id from (select id from news_info where pub_date>?1 and id>?2 order by id limit 10000) as news)
既然不能直接连用,那就再中间创建一个临时表咯。