zoukankan      html  css  js  c++  java
  • 另类爬取表格数据

    import pandas as pd
    df = pd.read_html("http://www.air-level.com/air/beijing/", encoding='utf-8',header=0)[0]
    results = df.T.to_dict().values()
    
    print(results)

    代码很简单但是实现的内容可不简单,第一行导入pandas包,
    第二行的read_html核心功能实现是调用requests然后解析table标签里的每个td的数据
    最后生成一个list对象里面是dataframe对象。所以通过小标0获取它的第一个dataframe数据,既然是dateframe我们就可以使用dataframe的方法了,
    第三行首先做了个转秩操作,然后转为映射类型打印出来了。上面的代码为了演示其效果,下面我们对结果做一个存储操作

    df = pd.read_html("http://www.air-level.com/air/beijing/", encoding='utf-8',header=0)[0]
    df.to_csv("tq.csv",index=False)

    成功的获取了网页表格的数据。

    需要注意的是read_html只能解析静态页面。

  • 相关阅读:
    257. Binary Tree Paths
    324. Wiggle Sort II
    315. Count of Smaller Numbers After Self
    350. Intersection of Two Arrays II
    295. Find Median from Data Stream
    289. Game of Life
    287. Find the Duplicate Number
    279. Perfect Squares
    384. Shuffle an Array
    E
  • 原文地址:https://www.cnblogs.com/xingnie/p/10335846.html
Copyright © 2011-2022 走看看