基于大型语言模型的高效时间序列预测模型选择

时间序列预测在金融、医疗、能源等多个领域具有重要意义，其结果对于决策和规划起到关键作用。然而，选择合适的预测模型往往需要丰富的领域知识和大量计算资源。Abdallah等（2022）的研究表明，没有单一算法能在所有预测任务中一统天下，这使得对每个数据集暴力遍历所有候选模型成为不切实际的方案。传统统计方法通常依赖于对多个数据集和模型的全面评估（如平均排名法），计算成本极高且难以适应数据的多样性。

近年来涌现出了元学习策略，尝试根据时间序列数据的元特征自动预测最佳模型。然而几乎所有元学习方案都依赖事先构建性能矩阵，即对成百上千的模型–数据集对进行预先评估，这一过程耗费大量资源和时间，现有模型选择方法在效率和可扩展性上仍存在明显局限。

创新方法

针对上述挑战，本文作者提出了一种基于大型语言模型（LLM）的模型选择范式。核心思想是利用LLM（如LLaMA 3.2、GPT-4o、Gemini 2.0）在零样本推理中的知识和推理能力，代替传统的性能矩阵来直接推荐最优模型。该方法无需耗费昂贵的计算资源构建性能矩阵，而是通过设计合理的提示（prompt）让LLM输出最适合当前数据集的预测模型配置。作者在实验中使用了MetaAI提供的LLaMA 3.2-3B、OpenAI的GPT-4o和Google的Gemini 2.0 Flash等先进LLM进行测试。实际结果表明，这一LLM驱动的方法在命中率（hit@k）和预测误差等指标上明显优于随机选择、流行模型选择及传统元学习策略，并且极大降低了计算开销。

方法实现

作者将时间序列预测模型选择任务形式化为将数据集映射到候选预测模型空间的过程。整个流程主要包括以下三个步骤：

提示构造：根据输入数据集生成结构化提示。作者设计了四种提示模板，内容可包括原始时间序列值、可选的统计元特征（meta-features）以及可选的链式思考提示（CoT）。例如一种模板可能只输入序列值，另一种同时包含该序列的元特征信息，还有的在提示末尾附加“让我们一步步推理”的CoT指令以引导推理过程。

LLM模型选择：将构造好的提示输入到LLM中进行推理。LLM会按照预定义的输出格式（通常为JSON结构）给出推荐的预测模型、对应的超参数以及数据处理方式。在实验中，模型空间由Abdallah等（2022）提供的322个候选配置构成，涵盖了7种主流预测算法及其多种超参数和数据预处理方式。与传统元学习将模型空间离散化不同，本方法允许超参数取任意实数值，使搜索空间更加连续和灵活。

预测与评估：根据LLM返回的最佳模型配置，在对应时间窗口上进行时间序列预测，并计算相应的评估指标（如均方误差）。通过此方式，可以在无需训练新模型的前提下完成模型选择过程。

图1. 模型选择流程示意图（来自论文第4页）。该流程将测试数据集按设计的提示结构传递给LLM，并从LLM的输出中解析出推荐的模型及其超参数。最后，根据选出的模型在相应时间窗口上进行预测并计算评估指标，从而实现无矩阵的快速模型选择。

实验设计与结果

作者在实验中采用了与Abdallah等（2022）相同的基准测试集——共包含321个真实时间序列数据集，涵盖金融、物联网、能源等领域。每个数据集通过随机采样固定长度时间窗口形成测试样本。评估指标包括hit@k准确率和平均均方误差（MSE），其中hit@k用于衡量LLM推荐的模型是否处于真实排名前k之内。同时，作者记录了各方法的训练时间、推理时间以及提示语令牌消耗，以评估计算效率。实验使用的模型空间与基线一致，共包含322个候选配置。在结果评估中，作者借助Abdallah等（2022）预先构建的性能矩阵计算各模型的真实MSE，用于与LLM选出的模型进行对比。

对比基线方面，作者选取了多种策略：包括不进行模型选择时的固定配置（如随机选择和流行模型Prophet）以及性能最好的单一SOTA模型配置；以及两种典型的元学习方法：ISAC和MLP回归器。其中，随机选择方法每次随机采样一个模型，流行模型基线使用社区热度最高的Prophet，SOTA模型基线则选取在所有训练数据上平均表现最优的配置。元学习基线方面，ISAC根据聚类的方式在训练数据集的元特征空间选模型，MLP则将数据集元特征映射到各模型性能。

从实验结果来看，所提LLM方法在hit@k准确率和MSE两个指标上均明显优于所有基线。例如，使用LLaMA3.2时，选出的模型在hit@10上比分别比随机选择、Prophet、ISAC、MLP等方法高出约100%、93%、77%和61%。在预测性能方面，LLM推荐的模型取得了第二低的MSE，仅次于最好的元学习方法，且优于传统的SOTA模型。值得注意的是，与需要训练过程并依赖性能矩阵的元学习方法不同，LLM方法可以即时选出模型，无需额外训练。

在计算效率方面，LLM方法也表现出显著优势。实验结果显示，LLaMA3.2在大多数数据集上的中位推理时间约为6.7秒，而对比的朴素方法需要对所有模型进行遍历评估，耗时远超LLM方法。此外，与朴素方法相比，LLaMA、GPT和Gemini的推理速度分别快约14倍、18倍和89倍，如图2所示。同时作者还评估了令牌消耗，发现链式思考提示虽然引导了LLM的推理，但显著增加了时间和令牌使用。添加CoT提示后推理时间至少增加2倍，输出令牌使用量增加约4倍，这表明CoT在本任务中的收益有限而成本较高。

图2. 各方法的平均训练时间（蓝色）和推理时间（橙色）对比（来自论文第8页）。从图中可见，传统的朴素方法、ISAC和MLP需要显著的训练时间，而LLM方法几乎无需训练，仅在推理阶段耗时很少。这些结果表明，LLM方法在训练成本上具有明显优势。

图3. 各方法相对于朴素模型选择方式的推理时间加速倍数（中位数）（来自论文第8页）。图中蓝线表示时间加速倍数的中位值，可见LLaMA3.2、GPT-4o和Gemini2.0的推理速度分别为朴素方法的约14倍、18倍和89倍。这进一步证明了LLM方法在推理效率上的显著提升。

消融实验与讨论

为了进一步分析提示设计和不同LLM的影响，作者还进行了消融实验。研究发现，加入元特征可以为LLM提供数据集的统计信息，但相比仅使用原始序列数据，其提升有限。相反，添加链式思考提示会使LLM生成更长的推理过程，显著增加计算开销，但并未显著提高模型选择质量。在启用CoT时，推理时间至少增加约2倍，输出令牌使用量增加约4倍，反而在某些设置下出现性能下降的情况。这表明模型选择任务可能更依赖于直接的模式匹配而非深度推理。

不同LLM在稳定性方面也存在差异。如图4所示，LLaMA3.2尽管取得了最高的选择准确率，但输出无效或不规范模型配置的次数最多（约41次）；相比之下，Gemini2.0 Flash输出稳定，从未出现无效模型，但其预测性能最弱，甚至在某些提示下不如随机选择；GPT-4o表现均衡，准确率高于大部分基线且仅有少量（约12次）输出了候选空间外的模型。这说明不同LLM在处理结构化输出时具有各自的优势和缺陷，需要在精度和鲁棒性之间权衡。

图4. 不同LLM生成无效模型输出的平均次数（来自论文第9页）。LLaMA3.2虽然选择准确率最高，但无效输出最多（约41次）；Gemini2.0 Flash始终输出有效模型，而GPT-4o偶尔（约12次）输出了候选空间外的模型。

局限与未来方向

尽管取得了有前景的结果，该方法仍存在一些局限性。首先，目前的实验仅在单变量时间序列数据集上进行了验证，尚未考虑多变量或跨模态的预测任务。此外，由于LLM并非专门为时间序列设计，其内部决策机制不透明，一些情况下会输出不符合预定义模型空间的结果。未来的工作可以在更广泛的数据集上验证这一方法，并探索更加有效的提示策略或后处理技术，以进一步提高结果的稳定性和可解释性。同时，研究者也可以尝试将这一框架扩展到多变量预测，甚至结合LLM进行联合建模，以应对更复杂的预测场景。

总结

这篇研究提出了一种基于大型语言模型的时间序列预测模型选择范式，通过利用LLM的零样本推理能力直接推荐最优预测模型，无需构建昂贵的性能矩阵。实验表明，该方法在命中率和预测误差指标上显著优于随机选择、流行模型选择及传统元学习策略，同时将推理速度提升14-89倍。尽管LLaMA 3.2取得了最高准确率但稳定性较差，而GPT-4o和Gemini 2.0在稳定性和性能上各有优势。该方法目前主要应用于单变量时间序列，未来可扩展至多变量预测和跨模态任务，为时间序列模型选择提供了一种高效且实用的新思路。

论文：

https://avoid.overfit.cn/post/fbfdf97f49c747f39ae152f5cbeafd89