基于Transformer的多资产收益预测模型实战(附PyTorch模型训练及可视化完整代码)
一、项目背景与目标
在量化投资领域,利用时间序列数据预测资产收益是核心任务之一。传统方法如LSTM难以捕捉资产间的复杂依赖关系,而Transformer架构通过自注意力机制能有效建模多资产间的联动效应。
本文将从零开始构建一个基于PyTorch的多资产收益预测模型,涵盖数据生成、特征工程、模型设计、训练及可视化全流程,适合深度学习与量化投资的初学者入门。
二、核心技术栈
- 数据处理:Pandas/Numpy(数据生成与预处理)
- 深度学习框架:PyTorch(模型构建与训练)
- 可视化:Matplotlib(结果分析)
- 核心算法:Transformer(自注意力机制)
三、数据生成与预处理
1. 模拟金融数据生成
我们通过以下步骤生成包含5只资产的时间序列数据:
- 市场基准因子:模拟市场整体趋势(几何布朗运动)
- 行业因子:引入周期性波动区分不同行业(如科技、消费、能源)
- 特质因子:每只资产的独立噪声
def generate_market_data(days=2000, n_assets=5): np.random.seed(42) market = np.cumprod(1 + np.random.normal(0.0003, 0.015, days)) # 市场基准 assets = [] sector_map = {0: "Tech", 1: "Tech", 2: "Consume", 3: "Consume", 4: "Energy"} for i in range(n_assets): sector_factor = 0.3 * np.sin(i * 0.8 + np.linspace(0, 10 * np.pi, days)) # 行业周期因子 idiosyncratic = np.cumprod(1 + np.random.normal(0.0002, 0.02, days)) # 特质因子 price = market * (1 + sector_factor) * idiosyncratic # 价格合成 assets.append(price) dates = pd.date_range("2015-01-01", periods=days) return pd.DataFrame(np.array(assets).T, index=dates, columns=[f"Asset_{i}" for i in range(n_assets)])
2. 数据形状说明
生成的DataFrame形状为[2000天, 5资产]
,索引为时间戳,列名为Asset_0到Asset_4。
四、特征工程:从价格到可训练数据
1. 基础时间序列特征
为每只资产计算以下特征:
- 收益率(Return):相邻日价格变化率
- 波动率(Volatility):20日滚动标准差年化
- 移动平均(MA10):10日价格移动平均
- 行业相对强弱(Sector_RS):资产价格与所属行业平均价格的比值
def create_features(data, lookback=60): n_assets = data.shape[1] sector_map = {0: "Tech", 1: "Tech", 2: "Consume", 3: "Consume", 4: "Energy"} features = [] for i, asset in enumerate(data.columns): df = pd.DataFrame() df["Return"] = data[asset].pct_change() df["Volatility"] = df["Return"].rolling(20).std() * np.sqrt(252) # 年化波动率 df["MA10"] = data[asset].rolling(10).mean() # 计算行业相对强弱 sector = sector_map[i] sector_cols = [col for col in data.columns if sector_map[int(col.split("_")[1])] == sector] df["Sector_RS"] = data[asset] / data[sector_cols].mean(axis=1) features.append(df.dropna()) # 去除NaN # 对齐时间索引 common_idx = features[0].index for df in features[1:]: common_idx = common_idx.intersection(df.index) features = [df.loc[common_idx] for df in features] # 构建3D特征张量 [样本数, 时间步, 资产数, 特征数] X = np.stack([np.stack([feat.iloc[i-lookback:i] for i in range(lookback, len(feat))], axis=0) for feat in features], axis=2) # 标签:未来5日平均收益率 y = np.array([data.loc[common_idx].iloc[i:i+5].pct_change().mean().values for i in range(lookback, len(common_idx))]) return X, y
2. 输入输出形状
- 特征张量
X
形状:[样本数, 时间步(60), 资产数(5), 特征数(4)]
- 标签
y
形状:[样本数, 资产数(5)]
(每个样本对应5只资产的未来5日平均收益率)
五、Transformer模型构建:核心架构解析
1. 模型设计目标
- 处理多资产时间序列:同时输入5只资产的历史数据
- 捕捉时间依赖与资产间依赖:通过位置编码和自注意力机制
- 输出多资产收益预测:回归问题,使用MSE损失
2. 关键组件解析
(1)资产嵌入层(Asset Embedding)
将每个资产的4维特征映射到64维隐空间:
self.asset_embed = nn.Linear(n_features=4, d_model=64)
输入形状:(batch, seq_len, assets, features)
→ 输出:(batch, seq_len, assets, d_model)
(2)位置编码(Positional Embedding)
由于Transformer无内置时序信息,需手动添加位置编码:
self.time_pos = nn.Parameter(torch.randn(1, lookback=60, 1, d_model=64)) # 时间位置编码
self.asset_pos = nn.Parameter(torch.randn(1, 1, n_assets=5, d_model=64)) # 资产位置编码
- 通过广播机制与资产嵌入相加,分别捕获时间和资产维度的位置信息。
(3)自定义Transformer编码器层(Custom Transformer Encoder Layer)
继承PyTorch原生层,返回注意力权重以可视化:
class CustomTransformerEncoderLayer(nn.TransformerEncoderLayer): def __init__(self, d_model, nhead, dim_feedforward=256, dropout=0.1): super(