做数据分析的同学大部分入门都是从excel开始的,excel也是微软office系列评价最高的一种工具。
但当数据量超过百万行的时候,excel就无能无力了,python第三方包pandas极大的扩展excel的功能,入门需要花费一点时间,但是真的是做大数据的必备神器!
1.从文件读数据
pandas支持多种格式数据的读取,当然最常见的是excel文件、csv文件和TXT文件。
names指定列名,delimiter指定列之间的分隔符
文件名前最好加‘r’,代表不转义。
import numpy as np import pandas as pd
#读取TXT文件 df=pd.read_table('C:Userswangbin10Desktopjhinfo.txt',names=['dvid','cid','dt','atimes'],delimiter=' ') #读取excel文件 df=pd.read_excel(r'E:log oken0722.xlsx','Sheet1') #读取csv文件 df=pd.read_csv(r'E:logchannel_addchannel_add11.txt',names=['cha','dvid','dt','act','isna'],delimiter='