机器学习·概率论基础

概率论

概率基础

这部分太简单，直接略过

条件概率

独立性

独立事件A和B的交集如下

在这里插入图片描述

非独立事件

非独立事件A和B的交集如下

在这里插入图片描述

贝叶斯定理

先验事件后验

在概率论和统计学中，先验概率和后验概率是贝叶斯统计的核心概念
简单来说后验概率就是结合了先验概率的前提和新事件的信息

在这里插入图片描述

自然贝叶斯

自然贝叶斯就是在有多个先验的前提下，假设它们相互独立，利用公式算出来的近似概率

在这里插入图片描述

贝叶斯与机器学习

条件概率生成像素
条件概率识别图像

概率分布

随机变量

随机变量分为离散型随机变量和连续型随机变量

区别如下

在这里插入图片描述

两个分布函数

概率质量函数PMF

适用离散型随机变量

在这里插入图片描述

概率密度函数PDF

适用连续性随机变量

累积分布函数

概率分布

离散型概率分布和连续型概率分布

纵坐标都是概率密度函数，面积才是概率，且总面积为1

伯努利分布和二项分布

伯努利分布和二项分布的区别在于二项分布中事件发生的概率带有二项式系数

均匀分布或标准分布

概率密度函数在一个范围[a,b]为定值

在这里插入图片描述

正态分布

μ和σ的几何意义：μ是对称中心，σ是标准差，直接决定曲线的高度和形状

在这里插入图片描述

箱型图

箱线图也称箱须图、箱形图、盒图，用于反映数据的离散程度，倾斜程度
主要由Q1,Q2,Q3百分位数组成，

QQ图

定义

分位数-分位数图是通过比较两个概率分布的分位数对这两个概率分布进行比较的概率图方法
横坐标是理论正态概率分布的百分数，纵坐标是数据概率分布的百分数

具体定义如下
在这里插入图片描述

统计意义

比较数据是否符合正态分布
越接近直线越可能是正态分布

边缘分布

将高维度密度分布降低至低纬度密度分布

离散型随机变量

*唯一公式

在这里插入图片描述

体现在联合分布的散点图上

连续性随机变量

本质是散点图+概率密度绘制成三维图像上的一个横截面，公式与离散型完全一致

在这里插入图片描述

条件分布

两个随机变量的条件分布

公式：本质上是条件概率

离散型随机变量
连续型随机变量

在这里插入图片描述

几何意义：横截面只是上式的分母

在这里插入图片描述

协方差

公式

对于数据集来收，概率分布为恒定值；对于随机变量来说，公式要变成加权的形式

在这里插入图片描述

统计意义

协方差为正或负说明数据集之间有正相关或负相关的关系，接近0说明数据集几乎没有关系

协方差矩阵

对角线上都是变量的方差，其他都是两个变量之间的协方差

在这里插入图片描述

数理统计

总体和样本的统计属性

样本的方差

这种结果更接近总体真实的方差

在这里插入图片描述

大数定理

大数定律揭示了随着样本量 𝑛 的增加，样本均值将越来越接近总体的期望值

中心极限定理

中心极限定理（Central Limit Theorem，CLT）是概率论和统计学中的一个重要定理，它描述了在一定条件下，独立同分布随机变量的和（或均值）趋近于正态分布的性质。具体来说，中心极限定理表明，当样本量足够大时，任何分布的独立同分布随机变量的均值的分布都将接近于正态分布，不论这些变量的原始分布是什么。

直接应用

利用样本的均值计算总体估计总体的均值，

因为中心极限定理告诉我们当n->∞+，二者的均值是一致的，
也可以用来估计方差随着样本的变化趋势

在这里插入图片描述

中心极限定理表明，当 n 足够大时，均值的标准化形式将收敛于标准正态分布
可以用于假设检验等这些要求正态分布的情况

在这里插入图片描述

点估计-最大似然估计MLE

最大似然估计（Maximum Likelihood Estimation，MLE）是一种用于估计统计模型参数的方法。最大似然估计通过找到使得观测数据出现的概率最大的参数值，来估计模型参数。
说人话就是已知某个数据集，想要计算某个模型的参数，只需要令各个数据在这个模型(概率密度/分布函数)中的概率乘积(等价于出现可能性)最大，就可以通过求导找出零点解出参数值

伯努利估计

随机变量只有两个取值
取对数求极值
最终大概率：实际出现值的平均值

在这里插入图片描述

高斯函数估计

记得提前将数据标准化
基本同理：也是最大化点在正态分布曲线上的概率

在这里插入图片描述

线性回归

你的模型就是一条直线，现在讨论的时让数据集尽可能接近你的直线，利用垂直的高斯函数，最大化概率计算直线的参数

在这里插入图片描述

假设都是用的标准高斯函数进行概率模拟

等价于最小化这些平方误差

在这里插入图片描述

正则化

正则化（Regularization）是一种用于防止机器学习模型过拟合的技术。过拟合是指模型在训练数据上表现良好，但在新数据（测试集）上表现不佳，即模型过于复杂，以至于捕捉了训练数据中的噪音和细节，无法很好地推广到新的数据。正则化通过在损失函数中增加一个惩罚项，限制模型的复杂度，从而提高模型的泛化能力。