zoukankan      html  css  js  c++  java
  • 使用HTMLParser爬取标签内容

    以此网站为例

     1 import urllib.request
     2 from html.parser import HTMLParser
     3 from  html.entities import name2codepoint
     4 
     5 #相当于CURL
     6 def Hocontent(url):
     7     page = urllib.request.urlopen(url)
     8     html = page.read()
     9     return html
    10 
    11 class MyHTMLParser(HTMLParser): #继承HTMLParser类
    12     def __init__(self):
    13         HTMLParser.__init__(self)
    14         self.data = []
    15 
    16     #获取标签中的content
    17     def handle_data(self, data):
    18         if len(data) >40 and  data.find('itwriter')==-1 :
    19             str = data.strip()
    20             self.data.append(str)
    21 
    22 #获取内容
    23 hh = Hocontent('https://news.cnblogs.com/')
    24 h = hh.decode(encoding="utf-8")
    25 
    26 #创建一个子类实例
    27 objectP = MyHTMLParser()
    28 
    29 #解析
    30 objectP.feed(h)
    31 for con in objectP.data:
    32     print(con)
    33     print('==============')
  • 相关阅读:
    仪仗队
    疫情控制
    Code
    距离咨询
    舒适的路线
    桐桐的糖果计划
    跑路
    最短路计数
    骑马修栅栏
    搭桥
  • 原文地址:https://www.cnblogs.com/Skrillex/p/6646393.html
Copyright © 2011-2022 走看看