zoukankan      html  css  js  c++  java
  • 5、第一个爬取网页使用正则解析数据

    from urllib import request
    import re
    # 请求的url
    url = "http://www.dfenqi.cn/Product/Index"
    # 请求的头文件
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36"
    }
    # 创建请求对象
    req = request.Request(url,headers = headers)
    # 创建处理器对象
    httpHandler = request.HTTPHandler()
    # 创建opener
    opener = request.build_opener(httpHandler)
    # 发送请求
    response = opener.open(req)
    # 读取源文件
    html = response.read().decode('utf-8')
    # 使用正则表达式解析源文件中所有产品的标题
    pattern = re.compile(r'<p\s*class="p">([\s\S]*?)</p>')
    # 显示产品标题列表
    goodsList = pattern.findall(html)
    print("产品总个数:%s" % len(goodsList))
    # 打印产品标题
    for goods in goodsList:
        print(goods)
    
  • 相关阅读:
    OS-lab4
    OS-lab3
    OS-lab2
    OS-lab1
    OO第四单元总结
    OO第三单元总结
    OO第二单元总结
    HTTP_POST
    实习日志1(2020.7.27-2020.9.31)
    Web app ------ 从Servlet读取Json数据并显示,生成历史数据曲线图
  • 原文地址:https://www.cnblogs.com/toloy/p/8617305.html
Copyright © 2011-2022 走看看