python数据分析：使用pandas库读取和写入csv文件

pandas操作CSV文件

CSV后缀的文件是标准文件格式，可以通过文本编辑器或者excel表格打开，

使用非常广泛；使用文本编辑器打开后，每一行都以英文逗号隔开，如下所示：

之前文章我们介绍了使用python自带的csv库读取和写入（
python之csv文件读取和写入），本章主要介绍使用pandas库读取和写入csv文件。

读取csv文件

使用pandas的read_csv函数，读取csv文件,默认返回DataFrame数据格式（pandas定义的一个二维数据结构，类似于excel表格有行和列的数据）

函数参数有很多，主要介绍下常用的参数：

1) filepath_or_buffer：要读取的文件路径或对象。比如文件路径，文件对象（如通过open函数打开的文件句柄），或者URL，有效的URL包括http、ftp、file等。
2) sep（或delimiter）：字段分隔符，默认为英文逗号。如果CSV文件使用其他字符作为分隔符，可以通过此参数指定。
3) header：用作列名的行号，默认为0（第一行）。如果没有列名，则设为None。也可以指定多行作为多级列名，例如header=[0, 1]。
4) names：列名列表，当header=None时，可以使用此参数自定义列名。
5) index_col：用作索引的列编号或列名。默认为None，使用CSV文件中的行索引作为DataFrame的索引。
6) usecols：返回的列，可以是列名的列表或由列索引组成的列表。用于选择性地读取CSV文件中的某些列。
7) dtype：字典或列表，指定某些列的数据类型。例如，dtype={'column1': int, 'column2': float}。
8) skiprows：需要忽略的行数（从文件开头算起），或需要跳过的行号列表。用于跳过CSV文件开头的某些行。
9) nrows：需要读取的行数（从文件开头算起）。用于从大文件中提取部分数据。
10) skipfooter：文件尾部需要忽略的行数。
11) encoding：文件编码（如'utf-8'、'latin-1'等）。用于指定文件的字符编码。
12) parse_dates：将某些列解析为日期。可以是列名的列表或由列索引组成的列表，还可以是布尔值True（尝试解析所有列）。
13) infer_datetime_format：如果True且parse_dates未指定，则尝试解析日期。
14) iterator：如果True，则返回TextFileReader对象，用于迭代循环读取文件。与chunksize参数配合使用，可以实现数据的分段读取。
15) chunksize：每个块的行数，用于逐块读取文件。与iterator=True配合使用。
16) compression：压缩格式，例如'gzip'或'xz'。用于读取压缩格式的CSV文件。

测试代码：读取csv文件为DataFrame对象，并打印对象的数据

准备一个csv文件如下：

读取csv文件并打印

import pandas as pd dataframe = pd.read_csv("1.csv")print(dataframe)

展示结果：这个结果跟excel表格中的数据结构很类似。

读取文件后，通过DataFrame对象的多种多样的函数，可以对读取的csv文件数据做各类操作（具体可参考上一篇文章介绍
python数据分析：介绍pandas库的数据类型Series和DataFrame）

保存为csv文件

使用pandas的to_csv函数将DataFrame格式数据保存为csv文件

常用参数介绍：

1） path_or_buf: 保存的文件路径或者文件对象
2） sep: 指定每行不同列值之间的分隔符，默认为 ','。
3）columns: sequence,：指定要写入的列名列表。如果为 None，则写入所有列。
4）index: 默认为 True。表示是否将行（索引）标签写入文件。
5）header: 默认为 True。是否将列名（表头）写入文件。如果为 False，则不写入列名；也可以是一个字符串列表，指定列名的别名。
6）mode: str, 默认为 'w'，表示文件打开模式。'w'：写模式（覆盖）；'a'：追加模式；'r+'：读写模式（文件必须存在）。
7）encoding: 字符串编码格式。例如：'utf-8'。
8) compression: {'infer', 'gzip', 'bz2', 'zip', 'xz', None}, 可选，默认为 'infer'。指定压缩方式。如果为 'infer'，则根据文件扩展名推断压缩方式。
9）line_terminator: 默认为 '\n'。指定行终止符。
10）chunksize: 指定每次写入文件的行数。这对于处理大文件很有用，可以节省内存。
11）date_format: 日期时间对象的格式化字符串。
12）doublequote: 默认为 True，表示字段中的双引号将被双写。
13）errors:指定错误处理方式。'strict'：引发异常；'ignore'：忽略错误；'replace'：用替换字符替换错误字符。

测试代码：直接保存文件，不添加其他参数。

import pandas as pd dataframe = pd.read_csv("1.csv")#插入2行数据dataframe.insert(2,'area','China') dataframe.insert(3,'area',['China','America','korea','japan','China','America','korea','japan'],allow_duplicates=True)#保存文件dataframe.to_csv('2.csv')

结果：将行索引和所有的行和列的值都写入了