# -*- encoding:utf-8 -*- import requests from bs4 import BeautifulSoup r=requests.get('http://cnblogs.com/xupanfeng') r.encoding='utf-8' import io import sys import urllib.request sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8') html_doc=r.text soup=BeautifulSoup(html_doc) print(soup.title);print(soup.title.text)#取标题,取标题文本 print(soup.p)#取B标签 print(soup.p.has_attr('class'))#判断有没有这个属性 print(soup.p.children)#,这个列表有一个CHILDREN方法,得到一个迭代器 print(type(soup.p))#<class 'bs4.element.Tag'>是一个TAG对象,有一个children方法 print('pbiaoqian') a=0 for i in soup.find_all('a'): aii=i.attrs print(aii.get('href')) a+=1 print(a) #取出所有的A标签 print('-------') print(soup.find(id='link3'))#找到ID=link3的标签 a=soup.get_text()#得到文本内容 print(a) #支持CSS选择器 soup.select('.story')#查找类名是STORY的节点 soup.select('#link1')#查找ID是LINK1的标签