zoukankan      html  css  js  c++  java
  • pandas模块实现小爬虫功能-转载

    pandas模块实现小爬虫功能

    安装

    pip3 install pandas

    爬虫代码

    import pandas as pd
    df = pd.read_html("http://www.air-level.com/air/beijing/", encoding='utf-8',header=0)[0]
    results = df.T.to_dict().values()
    
    print(results)

    代码很简单但是实现的内容可不简单,第一行导入pandas包,
    第二行的read_html核心功能实现是调用requests然后解析table标签里的每个td的数据
    最后生成一个list对象里面是dataframe对象。所以通过小标0获取它的第一个dataframe数据,既然是dateframe我们就可以使用dataframe的方法了,
    第三行首先做了个转秩操作,然后转为映射类型打印出来了。上面的代码为了演示其效果,下面我们对结果做一个存储操作

    存入csv

    df = pd.read_html("http://www.air-level.com/air/beijing/", encoding='utf-8',header=0)[0]
    df.to_csv("tq.csv",index=False)
  • 相关阅读:
    Django学习2
    Django学习1
    python 基于tcp协议的文件传输3_解决粘包问题
    python socketserver
    python hashlib
    python struct模块
    python json 模块
    python socket模块
    13暑假集训#10 总结
    hdu 4493 卡输入输出
  • 原文地址:https://www.cnblogs.com/jingwei/p/10345128.html
Copyright © 2011-2022 走看看