-
相关性分析:
- Pearson相关:用于衡量两个连续变量之间的线性关系,要求数据符合正态分布。
- Spearman相关:用于衡量两个变量之间的等级相关性,适用于非正态分布的数据或等级资料。
-
回归分析:
- 不考虑时间:
- 数值变量(Y):可以是一元线性回归或多元线性回归,用于分析一个或多个自变量对一个连续因变量的影响。
- 等级变量(Y):可以使用有序logistic回归,适用于因变量是有序分类的情况。
- 分类变量(Y):可以使用二项logistic回归或多项logistic回归,适用于因变量是二分类或多分类的情况。
- 考虑时间:
- 生存分析:包括寿命表法、Kaplan-Meier方法和Cox回归,用于分析生存时间数据,通常在医学研究中使用。
- 不考虑时间:
-
降维分析:
- 主成分:主成分分析(PCA),用于减少数据集的维度,同时尽可能保留原始数据的信息。
- 因子分析:用于识别观测变量背后的潜在因子,这些因子可以解释变量间的相关性。
-
聚类分析:
- 系统聚类:一种层次聚类方法,通过计算样本间的相似性来构建聚类树。
- K-Means聚类:一种划分聚类方法,将数据划分为K个簇,使得簇内样本相似度最大,簇间样本相似度最小。
- 两步聚类:一种结合了划分聚类和层次聚类优点的聚类方法。
-
ROC曲线:
- 数值变量ROC:用于评估连续变量预测模型的分类性能。
- 等级变量ROC:用于评估有序分类变量预测模型的分类性能。
- 联合实验ROC:可能指的是在多个实验或数据集上评估模型性能的ROC曲线。
-
相关性分析的定义和重要性:
- 相关性分析是探索变量之间关系的重要工具,它帮助我们从观察变量间的差异过渡到理解变量间的关联。掌握相关性分析是学习更复杂的统计方法的基础。
-
线性相关:
- 线性相关描述了两个变量之间是否存在线性趋势的关系。这是最常讨论的相关性类型。
-
Pearson相关和Spearman相关:
- Pearson相关:用于衡量两个连续变量之间的线性关系,要求数据符合正态分布。
- Spearman相关:用于衡量两个变量之间的等级相关性,适用于非正态分布的数据或等级资料。Spearman相关更为灵活,可以处理不同类型的变量。
-
相关系数的比较:
- 在数据满足正态分布的条件下,通常优先选择Pearson相关,因为它能更好地反映线性关系。Spearman相关则更多关注变量之间的单调变化关系。理论上,Spearman相关系数总是大于或等于Pearson相关系数。
-
不同类型的相关性分析:
- 单变量对单变量:使用Pearson或Spearman相关。
- 单变量对多变量:使用偏相关来排除其他变量的影响。
- 多变量对单变量:计算复相关系数。
- 多变量对多变量:采用典型相关分析。
-
假设检验:
- 由于抽样误差,通过样本计算得到的相关系数可能不完全准确。因此,需要对相关系数进行假设检验,以确定其统计显著性。
-
结果展示:
- 在展示相关分析结果时,应附上散点图。散点图可以直观地展示变量之间的关系,特别是当相关系数可能受到极端值影响时。