请求库,解析库,存储库,工具库
请求库:Requests和selenium
Windows安装过程,urllib和re库,python内置库,不需要安装的基本库
Requests库,做请求常用的库,第三方安装方式pip3 install requests然后验证这个库的安装导入包import requests然后请求输入requests.get(‘http://www.baidu.com’)输出<Response [200]>就是正常的了
Selenium库,主要用来寻找浏览器的库,主要用来做自动化测试的库,比如有些网站用JS渲染的时候就用selenium库,requsest就无法用了。
Cmd命令行输入python然后导入包import selenium如果没有安装就pip3 install selenium然后再导入包import selenium接着输入from selenium import webdriver回车,接着声明对象输入driver = webdriver.Chrome()如果报错需要安装Chromedriver浏览器http://chromedriver.storage.googleapis.com/index.html(需符合版本),输入driver.get('http://www.baidu.com')就能显示百度官网页面,输入driver.page_source就可以打印出网友源代码了。
没有界面的浏览器模式phantomjs无界面浏览器。下载地址https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-windows.zip解压配置环境变量,cmd下输入phantomjs接着输入console.log(‘hello world’)
重新进入cmd命令模式输入python导入包from selenium import webdriver声明对象driver = webdriver.PhantomJS()接着driver.get('http://www.baidu.com') 输入driver.page_source就可以打印出网友源代码了。
Lxml库的安装,提供了xpth解析库,直接cmd打开输入pip3 install lxml或者官网https://pypi.org/project/lxml/#files下载lxml-4.6.2-cp27-cp27m-win_amd64.whl 版本,卸载原来的库pip3 uninstall lxml然后鼠标右键lxml-4.6.2-cp27-cp27m-win_amd64.whl 版本找到路径,然后在cmd命令下输入pip3 install+复制的路径(前提是必须要安装pip3 install wheel)
Beautifulsoup库安装,网页信息库,依赖于lxml库,cmd命令下pip3 install beautifulsoup4然后输入python进入交互模式输入from bs4 import BeautifulSoup调用库,声明一个对象用lxml库soup = BeautifulSoup(‘<html></html>’,’lxml’)回车(为什么是bs4可以下载源代码lxml-4.6.2.tar.gz (3.2 MB)看下就知道了)
Pyquery库安装在cmd命令下输入pip3 install pyquery然后输入python进入交互模式导入包from pyquery import PyQuery as pq声明pyquery对象,传人参数网页源代码输入doc = pq('<html></html>')再输入网页源代码输入内容doc = pq('<html>hello</html>')输入result = doc('html').text()再输入result就会打印内容hello
Pyquery官网https://pythonhosted.org/pyquery/和语法网址https://pythonhosted.org/pyquery/api.html
Pymysql存储库(python3的库代替python2原来的库msqlpython)操作mysql数据库的库,首先打开mysql-front 看一下,安装pip3 install pymysql然后cmd‘输入python进入交互模式验证是否能用输入import pymysql声明mysql链接对象和地址 conn = pymysql.connect(host=‘localhost’, user=‘root’, password=‘123456’, port=3306, db=’mysql’)接着调用cursor方法输入cursor = conn.cursor()执行select语句cursor.execute('select * from db')输入cursor.fetchone()
Pymongo安装操作mongodb的,mongodb是ky的非关系型数据库,打开计算机管理的服务和应用程序,看看mongodb是否启动,如果启动了就在cmd命令下输入pip3 install pymongo安装,输入python验证这个库import pymongo声明mongodb的链接对象输入client = pymongo.MongoClient(‘localhost’)参数就是这个localhost回车,接着声明一个对象数据库名称叫newtestdb输入db = client['newtestdb']调用db声明表明插入数据db['table'].insert({'name': 'Bob'})输入查询db[‘’table].find_one({‘name’: ‘Bob’})
Redis库安装菲关系型数据库ky存储,分布式爬虫用到,cmd打开命令行pip3 install redis输入python进入交互模式验证,输入导入包import redis声明对象r = redis.Redis('localhost', 6379)回车,调用set方法建立键值对r.set('name', 'Bob')回车,接着拿name的值输入r.get('name')就完成了数据的插入和获取。
Flask库的安装,代理服务器的时候用到,要获取代理设置存储等,flask官网https://dormousehole.readthedocs.io/en/latest/
点击一个最小的应用了解,在cmd命令下输入pip3 install flask安装,输入python验证,导入包import flask,不报错就证明已经正常安装了。
Django库的安装,web服务器框架库,提供了完整的后台管理,模板和接口和路由,可以用django做完整的网站,也是非常简单。Django网站https://docs.djangoproject.com/,进入documentation
了解django介绍,后面分布式爬虫维护也要用到django库。需要做一个管理系统,用来维护分布式爬虫信息,cmd命令行输入python3 -m pip install Django完整,输入python验证,导入包import django不报错说明已经安装完成了。
Jupyter库的安装,记事本库,功能比较强大,运行在网页,可以在记事本里写上代码,还可以进行调试,还可以进行在线的运行,等,jupyter官方网站https://jupyter.readthedocs.io/en/latest/,在cmd命令下输入python3 -m pip install jupyter安装,在cmd命令行输入jupyter notebook会看到弹出一个浏览器,新建一个python3文件
,文件改名
改成testdemo然后输入代码print(‘hello world’)测试(ctrl+回车)
键盘B键增加命令行,
Linux 和 mac系统,这些库的安装过程,怎么命令行输入pip3 install requests selenium beautifulsoup4 pyquery pymysql pymongo redis flask Django jupyter然后命令行验证下输入python进入交互模式,import flask回车,再输入import pyquery回车,import Django回车,import requests回车,import selenium回车,import pymysql回车,等等不出问题就是安装成功。