环境是linux centos7.4,首先需要安装pip的相关模块。
pip3 install bs4
pip3 install lxml
pip3 install requests
我的开发环境是在Python 3.4.5 下进行的。
打开网页查找要爬的东西,截图如下:
规律是在a之间,标签是bookmark
#!/usr/bin/env python #coding=utf-8 import requests from bs4 import BeautifulSoup url = 'http://www.xxx.org/category/news' r = requests.get(url) soup = BeautifulSoup(r.content, 'lxml') bbs_nes = soup.find_all(name='a',attrs={'rel':'bookmark'}) for news in bbs_nes: print (news.string)
结果如下:
得到了想要的标题。
上手还是比较容易的。
学习文档:
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/