zoukankan      html  css  js  c++  java
  • python爬虫错误总结

    这几天突然想到学习爬虫,于是就从python开始,python教程瞄了两眼,就去网上找别人写的爬虫(爬音乐网站的歌曲)

    磕磕绊绊中渐渐地熟悉了python中常用的库和模块。

    1.python 2.x(以python2.7为例)和python 3.x(以python 3.4为例)差别还是相当大的

    网上有一种戏称,称python 3是python 3000(python 3k),不难看出python 3.x 和python 2.x 的区别有多大了,

    这里有两篇对python两个版本的区别总结:博客一博客二

    python都改了,那么对其支持的第三方模块也是会有变动的,拿beautifulsoup来说吧:

    pip install BeautifulSoup      用于安装bs3;bs3仅能在python2下工作(python 3.4之前没有内置pip)

    pip install beautifulsoup4     用于安装bs4;bs4可以在python2(2.7+)和python3等版本下工作。

    2.Selenium自动化测试框架

    期间看到了一个使用selenuim+python爬取网站歌曲的博客:Selenium+Python

    首先,我不知道博主的Python和Selenium是什么版本的,但是鉴于urllib包没报错,推断是Python是python 3.x;

    其次文中没有提到  driver = webdriver.Chrome() 启动浏览器是要提前下载驱动的:webdriver启动浏览器,可能这是

    自动化测试的常识吧,但我没搞过自动化测试,对这个不清楚。

    没有安装driver运行的时候报了这样的错:

    对比网页的html,我实在找不出错的原因,根据dom树,就该是这样定位含有歌曲名的a标签,但是它报错了!

    3.

  • 相关阅读:
    C++的虚函数与多态
    Qt界面的个性设置QSS
    Qt添加背景图片应该注意的问题
    c/c++的函数参数与返回值
    堆和栈
    linux下挂载u盘
    Qt的主窗口弹出消息框
    智能家居实训系统的项目有感!
    Qt 快捷键
    FB
  • 原文地址:https://www.cnblogs.com/eco-just/p/8647841.html
Copyright © 2011-2022 走看看