欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 财经 > 金融 > 【返璞归真】-标准化

【返璞归真】-标准化

2025/9/20 16:08:15 来源:https://blog.csdn.net/AdamCY888/article/details/143791212  浏览:    关键词:【返璞归真】-标准化

在第一个维度数值很大、第二个维度数值很小的情况下,为了让聚类和回归等统计方法更有效地处理数据,需要对数据进行预处理,主要考虑以下几方面:

1. 数据标准化或归一化

由于两个维度的数值量级差异很大,直接使用这些数据可能会导致算法偏向于数值较大的维度,从而忽略较小的维度。标准化或归一化可以将各维度的数据放在相同的尺度上,使得它们对算法的影响力相当。

  • 标准化(Z-score标准化):对数据进行零均值、单位方差的标准化处理。
    x ′ = x − μ σ x' = \frac{x - \mu}{\sigma} x=σxμ
    其中, μ \mu μ是维度数据的均值, σ \sigma σ是标准差。标准化后的数据均值为0,标准差为1,适合高斯分布的数据。

  • 归一化(Min-Max归一化):将数据缩放到[0, 1]区间。
    x ′ = x − min ( x ) max ( x ) − min ( x ) x' = \frac{x - \text{min}(x)}{\text{max}(x) - \text{min}(x)} x=max(x)min(x)xmin(x)
    对于数值范围差异较大、没有显著分布假设的数据,这种归一化方式更适合。

2. 对数变换或缩放

如果数据分布存在偏斜(尤其是数值很大或者很小),可以考虑对数变换或其他缩放方式,减少分布的偏差,适合用于聚类和回归等对分布较敏感的算法。

  • 对数变换:若数据没有负值,可以考虑 log ⁡ ( x + 1 ) \log(x + 1) log(x+1) 变换(+1是为了防止数值为0)。这种变换可以减少大数值的影响,使分布更加平滑。

  • 缩放因子:如果数据物理意义较强且不适合标准化或归一化,也可以尝试直接对大数值维度进行缩放,例如除以一个常数(如1000或10000),使得两个维度的数量级相近。

3. 主成分分析(PCA)或其他降维技术

如果两个维度具有较高相关性,可以使用PCA对数据进行降维,以降低数据的冗余性,便于聚类或回归操作。通过PCA可以找到数据的主方向,使得算法可以更聚焦于变化最显著的特征。

4. 检查和处理异常值

由于数据量级差异较大,可能会存在较大的异常值,尤其是第一个维度的高值。可以在标准化或归一化之前,先检查各维度的异常值,必要时对其进行处理(如截尾、平滑等)。

总结

建议的预处理流程:

  1. 标准化或归一化(首选标准化,除非特殊需求)。
  2. 对数变换或缩放,如果数据分布存在显著偏差。
  3. 降维处理(可选),使用PCA或其他降维技术来简化数据维度。
  4. 异常值处理,确保数据分布均衡,减少算法受极值影响的可能性。

能否只对某一个维度进行标准化?

可以的,只对某一个维度进行标准化是完全可行的。在实践中,如果数据的某个维度的数值范围远大于其他维度,对其单独进行标准化有时会带来更好的效果。以下是一些只对一个维度进行标准化时的注意事项和操作步骤:

1. 选择标准化维度

通常来说,如果某个维度的数值范围远大于其他维度(第一个维度数值很大,第二个维度很小),优先考虑对这个大范围的维度进行标准化。这样可以有效降低这个维度的绝对值影响,使其与其他维度的数值范围更接近,从而避免其对距离度量或模型计算的主导作用。

2. 只对某一个维度标准化的步骤

假设有二维数据,每个数据点为 ( x 1 , x 2 ) (x_1, x_2) (x1,x2),其中 x 1 x_1 x1 是数值很大的维度, x 2 x_2 x2 是数值较小的维度。可以按以下步骤操作:

  • 计算大数值维度的均值和标准差:假设只对 x 1 x_1 x1 进行标准化,计算 x 1 x_1 x1 的均值 μ 1 \mu_1 μ1 和标准差 σ 1 \sigma_1 σ1

    μ 1 = mean ( x 1 ) , σ 1 = std ( x 1 ) \mu_1 = \text{mean}(x_1), \quad \sigma_1 = \text{std}(x_1) μ1=mean(x1),σ1=std(x1)

  • x 1 x_1 x1 标准化

    x 1 ′ = x 1 − μ 1 σ 1 x_1' = \frac{x_1 - \mu_1}{\sigma_1} x1=σ1x1μ1

    这样可以将 x 1 x_1 x1 转换为零均值、单位方差,而 x 2 x_2 x2 保持不变。

3. 使用合适的距离度量

在一些聚类算法(如K-means)中,默认使用欧氏距离计算数据点间的距离。在这种情况下,标准化一个维度能够减少其数值过大所带来的偏差。但是,如果使用的算法对距离不敏感或有不同的距离度量(如余弦距离、曼哈顿距离等),则可能需要调整标准化策略。

4. 注意单维度标准化的局限

只对一个维度进行标准化可能存在一些限制。例如,在回归分析中,特征尺度差异仍可能导致模型权重不平衡的情况。因此,若多维特征的尺度差异较大且每个维度都重要,通常建议对所有维度进行标准化。只对一个维度标准化是一种简化的处理方式,但若发现效果欠佳,也可以尝试对两个维度都进行标准化或归一化。

结论

只对一个维度标准化可以有效减小其数值范围对模型的影响,这是一个合理的预处理方法。不过,建议在使用后评估模型效果,根据需求决定是否进一步对其他维度进行标准化或其他处理。

一个python案例,画出二维点标准化之前的图、标准化之后的图。然后在标准化之后的点重,随机选择一些点,按照点的序号,提取出标准化之前的点的坐标

import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler# 1. 生成二维点数据
np.random.seed(0)
x1 = np.random.normal(1000, 200, 100)  # 第一维:较大数值范围
x2 = np.random.normal(0, 0.00001, 100)  # 第二维:较小数值范围
data = np.column_stack((x1, x2))# 2. 对数据进行标准化
scaler = StandardScaler()
data_standardized = scaler.fit_transform(data)# 3. 从标准化后的数据中随机选择一些点,并提取原始坐标
random_indices = np.random.choice(len(data_standardized), 5, replace=False)
print("Randomly selected indices:", random_indices)# 按序号提取标准化前对应的点的坐标
original_points = data[random_indices]
print("Original coordinates of selected points:\n", original_points)# 4. 绘制标准化前的散点图,并标注选择的点
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
plt.scatter(data[:, 0], data[:, 1], color='blue', alpha=0.6, label="Original Points")
plt.scatter(original_points[:, 0], original_points[:, 1], color='red', edgecolor='black', s=100, label="Selected Points")
plt.title("Before Standardization")
plt.xlabel("Dimension 1 (large values)")
plt.ylabel("Dimension 2 (small values)")
plt.legend()# 5. 绘制标准化后的散点图,并标注选择的点
plt.subplot(1, 2, 2)
plt.scatter(data_standardized[:, 0], data_standardized[:, 1], color='green', alpha=0.6, label="Standardized Points")
plt.scatter(data_standardized[random_indices, 0], data_standardized[random_indices, 1], color='red', edgecolor='black', s=100, label="Selected Points")
plt.title("After Standardization")
plt.xlabel("Dimension 1 (standardized)")
plt.ylabel("Dimension 2 (standardized)")
plt.legend()
plt.tight_layout()
plt.show()

在这里插入图片描述

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词