zoukankan      html  css  js  c++  java
  • 5、第一个爬取网页使用正则解析数据

    from urllib import request
    import re
    # 请求的url
    url = "http://www.dfenqi.cn/Product/Index"
    # 请求的头文件
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36"
    }
    # 创建请求对象
    req = request.Request(url,headers = headers)
    # 创建处理器对象
    httpHandler = request.HTTPHandler()
    # 创建opener
    opener = request.build_opener(httpHandler)
    # 发送请求
    response = opener.open(req)
    # 读取源文件
    html = response.read().decode('utf-8')
    # 使用正则表达式解析源文件中所有产品的标题
    pattern = re.compile(r'<p\s*class="p">([\s\S]*?)</p>')
    # 显示产品标题列表
    goodsList = pattern.findall(html)
    print("产品总个数:%s" % len(goodsList))
    # 打印产品标题
    for goods in goodsList:
        print(goods)
    
  • 相关阅读:
    JS高级程序设计 第三章笔记
    JS高级程序设计第二章
    JS高级程序设计 第一章读书笔记
    markdown 尝试
    实验九
    第六章总结
    实验五
    第五章总结
    实验四
    实验三
  • 原文地址:https://www.cnblogs.com/toloy/p/8617305.html
Copyright © 2011-2022 走看看