人工智能基础理论之pandas（收尾部分3）

文章目录

前言
一、pandas（时间）
- 1.1日期解析
- 1.2 date_range
- 1.3 时间差
- 1.4 时间日期格式化
2、随机抽样
3、空值处理
- 3.1检测空值
- 3.2填充空值
- 3.3 删除空值
4、读取csv文件
- 4.1 read_csv()
五、读取Excel文件
- 1、read_excel()
五、绘图
总结

前言

一、pandas（时间）

1.1日期解析

pd.to_datetime() 方法用于将字符串或其他格式的日期转换为 Pandas 的 Datetime 对象。

联系到数据库，谁进行修改数据和时间都可以查看到，对于编程员查看数据改变的时间和修改人员，在今后进行公司实践时候会使用到。

1.2 date_range

date_range() 函数用于生成一个固定频率的日期时间索引（DatetimeIndex）。这个函数非常灵活，可以用于生成各种时间序列数据。
语法：
在这里插入图片描述参数：

start：
- 类型：字符串或日期时间对象，默认为 None。
- 描述：起始日期时间。
end：
- 类型：字符串或日期时间对象，默认为 None。
- 描述：结束日期时间。
periods：
- 类型：整数，默认为 None。
- 描述：生成的日期时间索引的数量。
freq：
- 类型：字符串或日期偏移对象，默认为 None。
- 描述：时间频率。常见的频率包括 ‘D’（天）、‘H’（小时）、‘T’ 或 ‘min’（分钟）、‘S’（秒）等。
tz：
- 类型：字符串或时区对象，默认为 None。
- 描述：指定时区。
normalize：
- 类型：布尔值，默认为 False。
- 描述：是否将时间归一化到午夜。
name：
- 类型：字符串，默认为 None。
- 描述：生成的日期时间索引的名称。
closed：
- 类型：字符串，默认为None。
- 描述：指定区间是否包含起始或结束日期时间。可选值为 ‘left’、‘right’ 或 None。

1.3 时间差

Timedelta 是一个用于表示时间间隔的对象。它可以表示两个时间点之间的差异，或者表示某个时间段的长度。Timedelta 对象可以用于时间序列分析、日期运算等场景。
创建 Timedelta
对于当下或者执行任务的时候，作为一个时间参考，如果过期了那么重新登录，在设置时间之内可以直接进行执行。
在这里插入图片描述
1.使用字符串表示

2.使用参数

3.使用整数和单位

4.时间差加减

在这里插入图片描述

1.4 时间日期格式化

strftime 用于将日期时间对象转换为指定格式的字符串，而 strptime 用于将字符串解析为日期时间对象。
在这里插入图片描述

时间日期符号：
符号说明
%y 两位数的年份表示（00-99）
%Y 四位数的年份表示（0000-9999）
%m 月份（01-12）
%d 月内中的一天（0-31）
%H 24小时制小时数（0-23）
%I 12小时制小时数（01-12）
%M 分钟数（00=59）
%S 秒（00-59）
%a 本地英文缩写星期名称
%A 本地英文完整星期名称
%b 本地缩写英文的月份名称
%B 本地完整英文的月份名称
%w 星期（0-6），星期天为星期的开始
%W 一年中的星期数（00-53）星期一为星期的开始
%x 本地相应的日期表示
%X 本地相应的时间表示
%Z 当前时区的名称
%U 一年中的星期数（00-53）星期天为星期的开始
%j 年内的一天（001-366）
%c 本地相应的日期表示和时间表示

2、随机抽样

语法：
在这里插入图片描述
参数：

n：要抽取的行数
frac：抽取的比例，比如 frac=0.5，代表抽取总体数据的50%
replace：布尔值参数，表示是否以有放回抽样的方式进行选择，默认为 False，取出数据后不再放回
weights：可选参数，代表每个样本的权重值，参数值是字符串或者数组
random_state：可选参数，控制随机状态，默认为 None，表示随机数据不会重复；若为 1 表示会取得重复数据
axis：示在哪个方向上抽取数据(axis=1 表示列/axis=0 表示行)
补充一个概念：混淆矩阵对于算法有较大理解性的总结。

3、空值处理

3.1检测空值

isnull()用于检测 DataFrame 或 Series 中的空值，返回一个布尔值的 DataFrame 或 Series。
notnull()用于检测 DataFrame 或 Series 中的非空值，返回一个布尔值的 DataFrame 或 Series。
用在矩阵处理或者机器算法里面会涉及到
在这里插入图片描述

3.2填充空值

fillna() 方法用于填充 DataFrame 或 Series 中的空值。
举例：
在这里插入图片描述

3.3 删除空值

dropna() 方法用于删除 DataFrame 或 Series 中的空值。
举例：
在这里插入图片描述

4、读取csv文件

CSV（Comma-Separated Values，逗号分隔值，有时也称为字符分隔值，因为分隔字符也可以不是逗号），其文件以纯文本形式存储表格数据（数字和文本）；
CSV 是一种通用的、相对简单的文件格式，被用户、商业和科学广泛应用。
数据库存储文件性能比读取文件性能要低一些，数据库最终也存储为一个文件，读取最终也为文件放入数据库，进行存储读取，如果数据过大或者无相同类似特征不建议放入数据库，目前数据库存储为结构化数据，数据基本处理为结构数据，存储数据较为方便
在这里插入图片描述

这里注意“index=False”为参数，说明的行索引，各位也可以自己进行代码的书写，发现“df1.csv”文件中发现差别