最近项目中遇到需要大量爬取歌曲数据的需求,且需要爬取歌曲的网站比较多,自己写爬虫显然开发成本很高,所以找了个集搜客来用。
1.安装教程可以自行百度,基本都是直接下一步,不过这个软件需要.net4.0的支持这里给个官网的连接.net framework
2.打开软件,输入网址,这里以酷狗为例,在地址栏输入地址http://www.kugou.com/yy/html/rank.html
3.点击指定规则,输入主题名和网址,主题名是保存在该软件唯一的自己写就可以,输入完成点击查重,提示可用即可,如果不可用换一个即可
4.在工作台切换到创建规则tab页,点击新建,输入整理箱名,这里可以把整理箱看成一个没有任何作用的容器
5.右击酷狗->添加->包容
6.输入要抓取的内容,并点击关键内容连接(勾选该按钮,没有链接的歌曲会被过滤)
7.映射相应关系
8.上边已经完成一条数据的映射,需要把他当做一个模板
9.选择另一条数据的任意元素,映射为第二条
10.点击测试
11.点击右上角的存规则->爬数据
12.大功告成,去本地找数据吧
C:UsersfxlDataScraperWorkskugou_paihang_fxl下的xml文件就是你需要的数据