爬虫方面的进展 - 走看看

zoukankan html css js c++ java

爬虫方面的进展

经过几个月的摸索、实践、调试，对Scrapy的使用掌握的比较熟练了。并且结合Selenium的使用，目前已经完成了当当图书数据的抓取，大概260多万条吧，并且每隔几天会自动抓取新增图书数据。

这几个月无论对于Scrapy还是Selenium的使用，都有了不少的收获。

美中不足的是当当的数据比较杂乱，并且图书标题等信息也不够规范，接下来打算抓取豆瓣和京东图书的数据，争取将这份数据给完善起来。

查看全文

相关阅读:
SQL Server XML数据解析
 c# XML和实体类之间相互转换(序列化和反序列化)
C#解析XML详解（XPath以及带命名空间NameSpace）
Jquery实现按钮点击遮罩加载，处理完后恢复
 jquery控制div随滚动条滚动效果
 asp.net中利用Jquery+Ajax+Json实现无刷新分页(二)
easyUI tree点击文字展开节点
 201805牛客模拟考
 策略模式
 非线程安全演变成线程安全---原子性与加锁机制

原文地址：https://www.cnblogs.com/mazhiyong/p/11582318.html

Copyright © 2011-2022 走看看