zoukankan      html  css  js  c++  java
  • Pandas处理txt文件(去重复行, 过滤行)

    待处理的数据是图片的多属性标注,用Pandas库可以非常方便进行各种形式的处理。

    1. txt的读取

    使用pandas.read_csv函数

    'sep' 是分隔符;
    'header' 是否第一行作为DataFrame的column
    'index_col' 是否把某一列作为DataFrame的Index

    2. 去重

    pandas.drop_duplicates函数

    3. 保存txt

    pandas.to_csv函数

    整体代码

    import  pandas as pd
    
    # 读取txt
    train_data = pd.read_csv('/home/geoffrey/桌面/train.txt.backup', 
                            sep=' ',
                            encoding='utf-8',
                            # index_col=0, 
                            header=None)
    
    # 删除特定行(包含‘打伞’的行)
    train_data[train_data[0].apply(lambda x: '打伞' not in x)]
    
    # 去重
    train_data.drop_duplicates(inplace=True)
    
    train_data.set_index(0, inplace=True)
    # 写入txt
    train_data.to_csv('/home/geoffrey/桌面/test1.txt', 
                      sep=' ',
                      encoding='utf-8', 
                      header=None)
    
  • 相关阅读:
    Rafy 框架
    巧用拦截器:高效的扩展点设计
    Rafy 框架
    Rafy 框架
    Rafy 框架
    Rafy 框架-发布网页版用户手册
    Rafy 领域实体框架
    基金投资方法札记
    股票、基金投资方案总结
    BaaS API 设计规范
  • 原文地址:https://www.cnblogs.com/geoffreyone/p/11855717.html
Copyright © 2011-2022 走看看