这几天突然想到学习爬虫,于是就从python开始,python教程瞄了两眼,就去网上找别人写的爬虫(爬音乐网站的歌曲)
磕磕绊绊中渐渐地熟悉了python中常用的库和模块。
1.python 2.x(以python2.7为例)和python 3.x(以python 3.4为例)差别还是相当大的
网上有一种戏称,称python 3是python 3000(python 3k),不难看出python 3.x 和python 2.x 的区别有多大了,
这里有两篇对python两个版本的区别总结:博客一、博客二。
python都改了,那么对其支持的第三方模块也是会有变动的,拿beautifulsoup来说吧:
pip install BeautifulSoup 用于安装bs3;bs3仅能在python2下工作(python 3.4之前没有内置pip)
pip install beautifulsoup4 用于安装bs4;bs4可以在python2(2.7+)和python3等版本下工作。
2.Selenium自动化测试框架
期间看到了一个使用selenuim+python爬取网站歌曲的博客:Selenium+Python,
首先,我不知道博主的Python和Selenium是什么版本的,但是鉴于urllib包没报错,推断是Python是python 3.x;
其次文中没有提到 driver = webdriver.Chrome() 启动浏览器是要提前下载驱动的:webdriver启动浏览器,可能这是
自动化测试的常识吧,但我没搞过自动化测试,对这个不清楚。
没有安装driver运行的时候报了这样的错:
对比网页的html,我实在找不出错的原因,根据dom树,就该是这样定位含有歌曲名的a标签,但是它报错了!
3.