#python3
from html.parser import HTMLParser
class MyHTMLParser(HTMLParser):
"""
1、tag是的html标签,attrs是标签的属性
2、抓网页中的超链接,返回list
3、抓网页标题,
4、handle_data:处理数据,就是<xx>data</xx>中间的那些数据
"""
def __init__(self):
HTMLParser.__init__(self)
self.links=[]
def handle_starttag(self, tag, attrs):
if tag=="a":
for key,value in attrs:
if key=="href" and "http:" in value:
self.links.append(value)
data="""html页面的源码"""
#初始化类MyHTMLParser
parser=MyHTMLParser()
#喂养,塞html页面的代码进去,会返回一个class类
parser.feed(data)
#操作类方法和属性
print(parser.links)#操作属性