爬虫过程中的数据插入问题及其解决方案 - 走看看

zoukankan html css js c++ java

爬虫过程中的数据插入问题及其解决方案

在爬虫的过程过，我们有时候往往是开多线程或者多进程或者是协程，有时间下载速度能达到2兆左右的数据，如果和这些数据插入到数据库中，使我们必须解决的问题：

目前去搞个数据库集群或者其他的对硬件的方案，可能是大公司无所谓，小公司未必能通过老板那一关。我想说的是通过代码去解决数据插入的问题，主要简单的介绍两种方案

第一种方案：批量插入：

　　因为爬取的数据量很大，我们的服务器一分钟能下载三千个网页，如果一条一天的去插入，肯定会遇到数据库报错误 (2003, "Can't connect to MySQL server on )，如果一次插入一千条数据，那么这个问题就解决了

第二种方案：借助redis：

　　redis号称每秒钟能接受10万次的读写，这么优异的性能，怎么能不加以利用呢？把数据插入到redis中，然后再把数据批量存入数据库中去，这样就解决了大数据的插入问题。

没有写出来觉得代码，希望以上的思路对大家有帮忙。谢谢

查看全文

相关阅读:
CodeForces 404C Restore Graph (构造)
UVa 1204 Fun Game (状压DP)
HDU 5038 Grade (水题，坑题)
mybatis整合Spring编码
 关于Spring MVC写的不错的几篇博客
 SpringMVC配置文件详解：<context:annotation-config/>和<context:component-scan base-package=""/>和<mvc:annotation-driven />
常见文件下载后缀
 Spring MVC
Spring
反射

原文地址：https://www.cnblogs.com/xuchunlin/p/8668068.html

Copyright © 2011-2022 走看看