zoukankan html css js c++ java

Pandas

pandas介绍

　　pandas 是基于NumPy 的一种工具，提供了大量能使我们快速便捷地处理数据的函数和方法。它是使Python成为强大而高效的数据分析环境的重要因素之一。我们知道numpy能够帮助我们处理数值型数据，但是这还不够，除数值型数据以外，我们还有能够处理字符串数据、时间序列等数据。所以，pandas的除了能处理数值型数据，还可以帮助我们处理其他类型的数据。（字符串、时间序列等数据）

Pandas的常用数据类型

1. Series 一维（带标签数组）

2. DataFrame 二维（Series容器）

一、Series的创建

　　　Series对象本质上由两个数组构成(键：值)：一个数组构成对象的键（index(索引)），另一个是值（values）

1.通常的创建方式

import pandas as pd
a = pd.Series([1,2,3,4],index=list("abcd"))    #创建序列  index为指定索引的值 默认：0,1,2....
print(a)

"""
输出结果
a    1
b    2
c    3
d    4
dtype: int64
"""

2.字典方式创建

import pandas as pd
dict = {"name":"zhangsan","age":12,"tel":100}
data = pd.Series(dict)
print(data)
print(type(data))       #输出data的数据类型为Series

"""
运行结果：
name    zhangsan
age           12
tel          100
dtype: object
<class 'pandas.core.series.Series'>
"""

　　也可以用data.dtye查看数据类型，如果要修改数据类型，则data.astype(float)

Series取值

import pandas as pd
dict = {"name":"zhangsan","age":12,"tel":100}
data = pd.Series(dict)

print("键取值:")
print(data['age'],data['tel'])      #通过键取值

print("位置取值:")
print(data[0],data[1])              #通过位置取值

print("前两行:")
print(data[:2])                     #取前两行

print("不连续的:")
print(data[[0,2]])                  #取不连续的  或者data[["name","tel"]]


"""
运行结果：
键取值:
12 100
位置取值:
zhangsan 12
前两行:
name    zhangsan
age           12
dtype: object
不连续的:
name    zhangsan
tel          100
dtype: object
"""

　data[data>55] 选出大于55的值。切片：data[0:2:1]

其他操作

import pandas as pd
dict = {"name":"zhangsan","age":12,"tel":100}
data = pd.Series(dict)
print(data.index)           #取索引
print(data.values)          #取值


"""
运行结果：
Index(['name', 'age', 'tel'], dtype='object')
['zhangsan' 12 100]
"""

二、pandas读取外部数据

import pandas as pd

#读取csv中的文件
# df = pd.read_csv("文件路径")    #如：pd.read_csv("data_file//data.csv")

#读取mysql中的数据
# import pymysql
# conn = pymysql.connect(host='localhost', user='root', passwd='root', db='anjuke')
# sql_sentence = "select * from lp_home"
# df = pd.read_sql(sql_sentence,conn)


#读取MongoDB中的数据
# from pymongo import MongoClient
# client = MongoClient()
# collection = client["数据库名"]["表名"]
# data = list(collection.find())

三、DataFrame

DataFrame对象既有行索引，又有列索引

　　行索引：表名不同行，横向索引（index），0轴，axis=0

　　列索引:表名不同列，纵向索引（columns），1轴，axis=1

1.通常创建方式：

import pandas as pd
import numpy as np

#index:行索引   columns:列索引  reshape：改变数组格式（三行四列）
pf = pd.DataFrame(np.arange(12).reshape(3,4),index=list("abc"),columns=list("wxyz"))        
print(pf)


"""
运行结果：
   w  x   y   z
a  0  1   2   3
b  4  5   6   7
c  8  9  10  11
"""

2.字典方式创建：

import pandas as pd
import numpy as np

dict = {"name":["张三","李四"],"age":[12,20],"tel":[100,101]}
pf = pd.DataFrame(dict)
print(pf)
dict1 = [{"name":"张三","age":12,"tel":100},{"name":"李四","age":20,"tel":101}]
pf1 = pd.DataFrame(dict1)
print(pf1)

"""
运行结果：
  name  age  tel
0   张三   12  100
1   李四   20  101
  name  age  tel
0   张三   12  100
1   李四   20  101
"""

　两种方式都是一样的结果

3.DataFrame的基础属性

　　df.shape　　#行数列数　　　　

　　df.dtpyes　　#列数据类型

　　df.ndim　　#数据维度

　　df.index　　#行索引

　　df.columns　　#列索引

　　df.values　　#对象值，二维ndarray数组

import pandas as pd
import numpy as np

dict = {"name":["张三","李四"],"age":[12,20],"tel":[100,101]}
pf = pd.DataFrame(dict)
#pf.index  行索引
print(pf.index)
#pf.columns     列索引
print(pf.columns)
#pf.values     对象值
print(pf.values)
#pf.shape   行数、列数
print(pf.shape)
#pf.dtypes  列数据类型
print(pf.dtypes)


"""
运行结果：
RangeIndex(start=0, stop=2, step=1)
Index(['name', 'age', 'tel'], dtype='object')
[['张三' 12 100]
 ['李四' 20 101]]
(2, 3)
name    object
age      int64
tel      int64
dtype: object
"""

4.DataFrame整体情况查询

　　df.head(3)　　　　#显示头部3行，默认5行

　　df.tail(3)　　　　#显示末尾3行，默认5行

　　df.info()　　　　#相关信息概述：行数、列数、列索引、列非空值个数、列类型、内存占用可以用来判断缺失值

　　df.describe()　　　　#快速综合统计结果：计数，均值，标准差，最大值，四分位数，最小值

5.排序

import pandas as pd
import numpy as np

dict = {"name":["张三","李四"],"age":[12,20],"tel":[100,101]}
pf = pd.DataFrame(dict)

#按照某列排序
sort = pf.sort_values(by="age",ascending=False)                 #by：按哪个属性进行排序   ascending=False 降序排序    ascending默认为True 升序
print(sort)

"""
运行结果：
  name  age  tel
1   李四   20  101
0   张三   12  100
"""

6.切片

　　df[:20]　　取前20行

　　df['age']　　取age列

　　df[:20]['age']　　取age列的前20行

注意：

　　*方括号写数组，表示取行，对行进行操作

　　*方括号写字符串，表示取列，对列进行操作

7.loc选择方式

　　df.loc通过标签索引行数据

　　df.iloc通过位置获取行数据

import pandas as pd
import numpy as np

pf = pd.DataFrame(np.arange(12).reshape(3,4),index=list("abc"),columns=list("wxyz"))
pf.loc[:,"w"]　　　　#取w列
pf.loc["a",:]　　　　#取a行

#选取索引b行w z的值
print(pf.loc["b",["w","x"]])
#选取多行多列的值
print(pf.loc[["a","b"],["w","x"]])
#选取连续行多列的值
print(pf.loc["a":"c",["w","x"]])

"""
运行结果：
w    4
x    5
Name: b, dtype: int32

   w  x
a  0  1
b  4  5

   w  x
a  0  1
b  4  5
c  8  9
"""

import pandas as pd
import numpy as np

pf = pd.DataFrame(np.arange(12).reshape(3,4),index=list("abc"),columns=list("wxyz"))
# #选取索引b行w z的值

pf.iloc[1,:]     #取第2行
pf.iloc[:,2]     #取第3列
pf.iloc[[1,2],[0,1]]  #取2，3行的1，2列
pf.icol[1:,:2]   
pf.iloc[[1,2],[0,1]] = 100   #可赋值操作

取值条件

import pandas as pd
import numpy as np

pf = pd.DataFrame(np.arange(12).reshape(3,4),index=list("abc"),columns=list("wxyz"))
# print(pf)
#获取x列值大于1小于10的行
print(pf[(pf["x"]>1)&(pf["x"]<10)])         #注意：不同的条件之间需要用括号括起来


#修改、替换操作

#data['area'] = data['area'].apply(lambda x:x.replace('平方米','')).astype(float)

数据筛选：

#单个筛选条件
data[data['price']>3000]

#多个筛选条件                 注意：使用 &（且） 和 |（或） 时每个条件都要用小括号括起来
data[(data['price']>3000) & (data['price']<4000)]
data.loc[(data['price']>3000) & (data['price']<4000)]

#选取多列       (选取总价小于40的两列price,area)
# 方法一：
data[['price','area']][data['total_price']<40]
# 方法二：
data.loc[data['total_price']<40,['price','area']]

#选取某列等于多个数值或字符串时，用.isin()    (注意：isin括号里是个list)
data[data['make_year'].isin([2019,2012])]                   #选取年份为2019和2012的数据
#使用loc函数选取
data.loc[(data['make_year']==2019)|(data['make_year']==2012)]
#删除室字段为'7' '9' ...的一整行
data = data.drop(data.loc[(data['室'].isin(['7','9','10','12','15']))].index)

# str.contains()         　 意思跟SQL语句里用like一样
data.loc[data['floor'].str.contains("高")]             #匹配出有“高”的数据
data.loc[data['floor'].str.contains("高|低")]          #匹配出有“高”| “低”的数据

四、布尔索引

缺失值数据处理

　　缺失值一个分为两种情况：一种是空与None 另一种是某些为0的数据注意：pandas的NaN和np.nan是一样的

import pandas as pd
import numpy as np

pf = pd.DataFrame(np.arange(12).reshape(3,4),index=list("abc"),columns=list("wxyz"))
# print(pf)


pf.iloc[[1,2],0] = ""
pf.iloc[0,0] = 1
print(pf)

#处理w列为空的值
a = pf['w'].fillna(0)
a[a==''] = np.nan
pf['w'] = a
print(pf)


"""
运行结果：
   w  x   y   z
a  1  1   2   3
b     5   6   7
c     9  10  11
     w  x   y   z
a    1  1   2   3
b  NaN  5   6   7
c  NaN  9  10  11
"""


#判断数据是否为NaN：pd.isnull(pf),  pd.notnull(pf)
# print(pd.isnull(pf))

#处理方式1：删除NaN所在的行列dropna(axis=0,how='any',inplace=False)
# print(pf.dropna(axis=0))        #删除含有NaN的行
# print(pf.dropna(axis=0,how='any',inplace=False))          #删除含有NaN的行    inplace:是否原地修改
# print(pf.dropna(axis=0,how='all'))          #必须每行都有NaN才删除

#处理方式2：填充数据，t.fillna(t.mean()),  t.fiallna(t.median()),  t.fillna(0)
# print(pf.fillna(100))           #操作全部
# print(pf['w'].fillna(0))         #操作具体的某一列

#处理为0的数据：t[t==0]=np.nan
#注意：不是每次为0的数据都需要处理，计算平均值等情况，nan不参与计算，但0参与计算

Pandas字符串用法
方法	说明
cat	实现元素级的字符串连接操作，可指定分隔符
contains	返回表示各字符串是否含有指定模式的布尔型数组
count	模式的出现次数
endswith、startswith	相当于对各个元素执行x.endswith（patern）或x.startswith（pattern）
findall	计算各字符串的模式列表
get	获取各元素的第个字符
join	根据指定的分隔符将Series中各元素的字符串连接起来
len	计算各字符串的长度
lower、upper	转换大小写。相当于对各个元素执行x.lower0或x.upper0
match	根据指定的正则表达式对各个元素执行re.match
pad	在字符串的左边、右边或左右两边添加空白符
center	相当于pad（side=/both）
repeat	重复值。例如，s.str.repeat(3)相当于对各个字符串执行x*3
replace	用指定字符串替换找到的模式
slice	对Series中的各个字符串进行子串截取
split	根据分隔符或正则表达式对字符串进行拆分
strip、rstrip、Ilstrip	去除空白符，包括换行符。相当于对各个元素执行x.strip()、x.rstrip()、x.lstrip()

查看全文

相关阅读:
寒假要学习的知识点
 Linux firewall防火墙换成 iptables 防火墙
 git add出现 "fatal: in unpopulated submodule XXX" 错误
 使用navicat连接mysql报10038错时解决方法
 php 获取url重定向
 php 获取文件后缀的几种方法
 Windows+PHP7.3环境下安装imagick扩展和imagemagick
php7 连接数据库的方法
 Warning from https://mirrors.aliyun.com/composer: Support for Composer 1 is deprecated and some packages will not be available. You should upgrade to Composer 2.
php 执行GuzzleHttp请求时发生cURL error 60: SSL certificate problem错误的解决方法

原文地址：https://www.cnblogs.com/c-pyday/p/12299783.html