zoukankan      html  css  js  c++  java
  • Python xml 解析百度糯米信息

    先利用爬虫利用百度糯米提供的api来采集北京当天的团购信息,保存为numi.html

    import xml.etree.ElementTree as ET
    import os

    class Nuomi():
        
        def __init__(self):
            
            self.numi=[]
        def Parse(self,filepath):

            tree=ET.parse(filepath)
            root =tree.getroot()
            for url in root.iter('url'):
                nuomi_lei={}
                data=url.find('data')
                if data is not None:
                    display=data.find('display')
                    if display is not None:
                        try:
                            nuomi_lei['title']=display.find('title').text
                        except Exception as e:
                            print("No title")
                        try:
                            nuomi_lei['businessTitle']=display.find('businessTitle').text
                        except Exception as e:
                            print ("No businessTitle")
                        try:
                            nuomi_lei['value'] =display.find('value').text
                        except Exception as e:
                            print ("No value")
                        try:
                            nuomi_lei['price']=float(display.find('price').text)
                        except Exception as e:
                            print("No pire")
                        self.numi.append(nuomi_lei)
            return(self.numi)

        
    if __name__ == '__main__':
        
        nuomi=Nuomi()
        date=nuomi.Parse('numi.html')
        print(len(date))
       

  • 相关阅读:
    链表 | 递归删除不带头结点链表所有x元素
    A1016 | 磨人的大模拟
    Ubuntu 下安装 Qt Designer
    shell札记
    A1102 | 反转二叉树
    顺序表 | 二分查找:两个数组合并后的中位数
    A1113 | Integer Set Partition (25)
    A1128 | 逻辑想象能力、简洁高效美观的代码、memset的使用情景
    05.字符串
    04.序列的应用
  • 原文地址:https://www.cnblogs.com/leiziv5/p/5735235.html
Copyright © 2011-2022 走看看