zoukankan      html  css  js  c++  java
  • python网页抓取练手代码

    from urllib import request
    import html.parser
    
    class zhuaqu(html.parser.HTMLParser):
        blogHtml = ""
        data = []
        flag = 0
    
        def getHtml(self):
            res = request.urlopen("http://www.cnblogs.com")
            self.blogHtml = res.read().decode('utf-8')
    
        def handle_starttag(self, tag, attrs):
            if(tag == "a"):
                for attr in attrs:
                    if(attr[0] == "class" and attr[1] == "titlelnk"):
                        self.flag = 1
                        break
            else:
                pass
        def handle_data(self, data):
            if(self.flag == 1):
                self.data.append(data.strip())
                self.flag = 0
            else:
                pass
    
        def show(self):
            print(self.blogHtml)
    
    
    zhua = zhuaqu()
    zhua.getHtml()
    zhua.feed(zhua.blogHtml)
    for item in zhua.data:
        print(item)

    运行结果

    C:Python33python.exe C:/pythonHtmlParse/zhuaqu.py
    团建活动之忆童年
    闭包的总结(干货1)
    Jetty源码学习-编译Jetty源码二三事
    Cesium原理篇:Property
    前端制作动画的几种方式(css3,js)
    SQL Server-聚焦INNER JOIN AND IN性能分析(十四)
    C# 中的委托和事件
    Android中Activity运行时屏幕方向与显示方式详解
    利用T4模板生成ASP.NET Core控制器的构造函数和参数
    JavaScript的因为所以
    css居中小结
    SharedPreferences 的另一种场景的用法
    python wordcloud 对电影《我不是潘金莲》制作词云
    怎么调试lua性能
    ElasticSearch 5学习——安装Elasticsearch、Kibana和X-Pack
    SDWebImage源码解读_之SDWebImageDecoder
    struts开发经验汇总
    scikit-learn 梯度提升树(GBDT)调参小结
    你该知道的-SQL里的这些新语法-函数
    希望大牛加入,共同为项目智能化管理jar包而努力

    Process finished with exit code 0

  • 相关阅读:
    你写的单例真的安全吗?
    CountDownLatch&&CyclicBarrier
    初步认识AQS
    Atomic底层原理
    volatile关键字
    Linux常用服务类相关命令
    线程池
    由浅入深TheradLocal
    synchronized关键字
    .net 中dapper实现事务的三种方式总结
  • 原文地址:https://www.cnblogs.com/huangzelin/p/6155377.html
Copyright © 2011-2022 走看看