写文章是一个输出的过程,看似很简单,但往往是越简单的事情,越难做好,之前一直想重新拾起技术,开通博客后,发现自己已经断更了很久。。。。。。
由于目前文笔有限,学习掌握的知识有限,只能以课题笔记或者一日总结的形式更新,希望以后可以改善文笔+提升技术
今天继续听课,(嵩天老师的Python爬虫和信息提取_来自mooc网,是mooc不是慕课哟)
今天的内容是requests库的一部分内容和beautifulsoup的一部分。
首先说requests的内容,
1. r = request.get(url) ,当r返回状态码是200,显示正常,但是利用r.text 却无法获取正常html时。
请注意user-agent是否是requests 而不是一个正常的访问库,当kv={"user-agent":“Mozilla/5.0”},
在使用r.text, 便可以返回一个正常结果了。
2. beautifulsoup 安装问题
用pip install beautifulsoup4安装,然后提示我已经安装过了,接着我去IDLE上使用import 却显示无法加载此模块,
依次尝试了 import BeautifulSoup ;import beautifulsoup; import BeautifulSoup4 ;import beautifulsoup4;
from bs4 import BeautifulSoup4 ;均调用失败,后来仔细看看提示
发现from bs4 import BeautifulSoup4和之前的提示信息不同,按照提示,我找到了bs4目录下的__init__方法,发现
人家用的是BeautifulSoup,后来使用from bs4 import BeautifulSoup,完美引用成功。(*^▽^*)
P.S 安装的时候用的是小写beautifulsoup4, 引用的时候看类名。