学做吃的的网站,安卓手机怎么做网站,转业做网站的工具,百度网站链接提交前面介绍过通过Python标准库中的CSV模块处理CSV文件#xff1a; Python 利用CSV模块处理数据
相比CSV模块#xff0c;pandas的功能更加强大#xff0c;本文将简单介绍如何通过pandas来处理CSV文件。 文章目录 一、pandas简介二、用法示例2.1 读取CSV文件2.1.1 read_csv参数…前面介绍过通过Python标准库中的CSV模块处理CSV文件 Python 利用CSV模块处理数据
相比CSV模块pandas的功能更加强大本文将简单介绍如何通过pandas来处理CSV文件。 文章目录 一、pandas简介二、用法示例2.1 读取CSV文件2.1.1 read_csv参数2.1.2 坏行的处理 2.2 引用数据2.2.1 位置索引和标签索引2.2.2 使用[]引用数据2.2.3 使用.loc属性通过标签引用数据2.2.4 使用.iloc属性通过位置引用数据 2.3 数据过滤2.3 写回csv文件 一、pandas简介
pandas是一个第三方数据分析库其集成了大量的数据分析工具可以方便的处理和分析各类数据。这是一个第三方库使用下面的命令可以安装pandas:
pip install pandas利用pandas处理CSV文件主要分为3步
通过read_csv()函数将数据转化为pandas的DataFrame数据帧对象这是一个二维数据对象集成了大量数据处理方法。操作DataFrame对象通过自带的方法完成各种数据处理。通过DataFrame对象的to_csv()方法将数据写回CSV文件。
二、用法示例
我们先创建一个示例文件将下面的数据拷贝到文件employees.csv中并保存
emp_no,birth_date,first_name,last_name,gender,salary
1,1953-09-02,Georgi,Facello,M,1000
2,1964-06-02,Bezalel,Simmel,F,2000
3,1959-12-03,Parto,Bamford,M,3000
4,1954-05-01,Chirstian,Koblick,M,4000
5,1955-01-21,Kyoichi,Maliniak,M,5000
6,1953-04-20,Anneke,Preusig,F,6000
7,1957-05-23,Tzvetan,Zielinski,F,7000
8,1958-02-19,Saniya,Kalloufi,M,8000
9,1952-04-19,Sumant,Peac,F,9000数据对应的excel格式作为参考
2.1 读取CSV文件
保证employees.csv文件在当前目录下或提供文件的绝对路径也可以例如示例文件保存在d:\dir1目录下先切换到该目录下
import os
os.chdir(rd:\dir1)pandas的read_csv函数可以读取CSV文件并返回一个DataFrame对象首次使用要先导入pandas模块使用read_csv()函数读取csv文件并将返回的DataFrame对象赋给变量名df
import pandas as pd
df pd.read_csv(employees.csv)
df2.1.1 read_csv参数
read_csv()在读取过程中有很多自定义设置上面的示例中只提供了文件名其他参数都采用了默认值。根据数据格式的不同可能需要对某些参数进行调整read_csv函数的常用参数如下
sep/delimiter分隔符默认为逗号相当于sep‘,’如果文件内容以非逗号分隔需要显式指定此参数或者使用sepNone来让pandas自己判断分隔符。delim_whitespace是否以空格作为分隔符相当于sep‘\s’当这个参数被设置为True时不能使用sep参数。header指定第几行作为列名并指定数据的起始行默认header0表示第1行作为列名编号从0开始数据从第二行开始。如果数据中没有列名需要指定headerNone这样从第1行开始全部都会当成数据。names用来自定义列名index_col指定某一列作为行索引默认是0开始的整数usecols选择列的子集即只读取指定列
示例仅选取部分列只读取emp_nofirst_name, salary 这3列使用参数usecols指定这3列
df1 pd.read_csv(employees.csv, usecols[emp_no, first_name, salary])自定义列名读取数据并使用col1~col6定义列名由于原数据第一行为列名使用header0指定第一行为列名这样第一行不会被读作数据。然后使用names参数重新指定列名
name_list [col1, col2, col3,col4,col5,col6]
df2 pd.read_csv(employees.csv, header0, namesname_list)2.1.2 坏行的处理
很多时候我们得到数据格式并不规范可能出现有些行数据缺失有些行数据又多。read_csv函数在遇到数据缺失的列会自动用NaN在pandas中代表空值来填充我们把文件中第七行的salary删除重新读取后可以看到会用自动用NaN填充
df2 pd.read_csv(employees.csv)但是对于数据列多的行默认是报错的。在文件第8行后多加一列数据提示解析错误期望6列但是有7列
df3 pd.read_csv(employees.csv)对于这类错误我们可以用on_bad_linesskip’来跳过这些行不影响其他数据的读取从结果也上可以看到emp_no为8的数据被忽略了
df3 pd.read_csv(employees.csv, on_bad_linesskip)2.2 引用数据
在完成文件的读取后我们就获得了一个DataFrame对象利用其自带的方法可以快速进行数据预处理相对于使用Python代码可以节约大量逻辑编写的时间。
对数据进行处理的第一步就是引用数据pandas常用的数据引用方法有
使用[]对数据进行引用使用.loc属性通过标签对数据进行引用使用.iloc属性通过位置对数据进行引用
2.2.1 位置索引和标签索引
在引用数据前先弄清楚位置索引和标签索引
位置索引行/列的位置编号从0开始公差为1的等差数列0,1,2,3,4….一定是数字标签索引行/列的别名可以自定义。其中行的标签索引又叫索引标签列的标签索引又叫列标签。 标签索引如果未显式指定则默认和位置索引相同。
例如下面的df红框中的都是标签索引
列标签是emp_no, birth_date ……索引标签由于未显式指定所以和位置索引相同为0,1,2,3,4….但它不是位置索引。 在标签索引中可以通过df.index和df.columns属性来分别查看索引标签和列标签
df.index
df.columns通过给对应的属性赋值可以改变标签通过下面的例子可以直观看到红框中的0,1,2,3…是索引标签而不是位置标签
df.index [0,1,2,3,a,b,c,d,e]2.2.2 使用[]引用数据
使用df[‘列标签’]的格式通过列标签可以引用数据列例如选择frist_name列
df[first_name]如果要引用多个列以列表的形式传入多个列例如选择emp_no, first_name, last_name这3列
df[[emp_no, first_name, last_name]]使用df[start:stop:step]的格式可以通过位置索引引用行这和标准的Python切片语法相同这里不详细介绍
df[0:4] # 注意[0:4]含头不含尾即位置索引为0,1,2,3的行df[::2] # 每隔一行选择start和stop省略代表全部2代表步长df[::-1] # 负的步长代表从结尾开始选择-1即相当于倒序2.2.3 使用.loc属性通过标签引用数据
使用[]的引用方式可能有些复杂它在引用列的时候用的是标签索引而在引用行的时候是位置索引。
pandas提供了更直观的.loc和.iloc属性
.loc专门使用标签索引来引用数据分片含结尾.iloc专门使用位置索引来引用数据分片不含结尾
使用df.loc[‘索引标签’, ‘列标签’]可以引用数据。标签之间用逗号分隔标签内部的分片用冒号分隔省略则代表全部。注意.loc属性中的分片是包含结尾的这和标准的python分片语法不同。
引用a行返回的是pandas一维数据类型Series
df.loc[a] # 列标签省略代表所有列相当于df.loc[a,:]引用birth_date列
df.loc[:,birth_date] # 行标签省略代表所有行用:占位引用a-e行及emp_no到last_name列注意e行和last_name列都是包含在分片结果中的
df.loc[a:e, emp_no:last_name]引用a行birth_date列的单一元素没有分片
df.loc[a, birth_date]2.2.4 使用.iloc属性通过位置引用数据
.iloc的使用方式和.loc很像只是将索引标签换成了位置标签。语法为df.iloc[‘行位置索引’, ‘列位置索引’]注意.iloc的分片是不包含结尾的和python相同。
引用第12行
df.iloc[0:2] # 引用行位置索引为0,1的行2是不包含在结果中的相当于df.iloc[0:2, :]引用第12列
df.iloc[:,0:2] # 行位置索引的:表示全部行引用1,2行的3,4列数据:
df.iloc[0:2, 2:4]数据引用配合赋值符号’即可以修改DataFrame中的值例如将emp_no为9的salary改为9999
df.loc[e, salary] 9999其他的数据引用方式还有通过属性进行引用但这种方式存在缺陷不推荐这里也不进行介绍。重点掌握.loc和.iloc的方法即可。
2.3 数据过滤
DataFrame的数据过滤非常方便例如我要选择salary大于5000的数据下面表达式即是salary列测试结果由bool型数据组成
df[salary]5000只需要将其再代入df即可筛选出满足条件的数据
df[ df[salary]5000 ]或者使用query方法基于字符串形式的条件直接过滤出结果
df.query(salary5000)2.3 写回csv文件
完成数据处理后使用DataFrame对象自带的to_csv方法来将数据写回文件主要参数与read_csv类似
sep分隔符默认是逗号。columns指定哪些列写入文件header是否将标题写入文件默认是Trueindex是否将行索引写入文件默认是True
假设要将salary5000的数据筛选出来后重新写入一个CSV文件你可以直接调用DataFrame的to_csv方法
df_result df.query(salary5000)
df_result.to_csv(result.csv, indexFalse)本文的案例只是展示了最简单及最常用的DataFrame数据处理方法实际pandas的数据处理功能远远不止这些有兴趣的同学可以自行深入探索。