更多面试题,请看
大模型面试题总结-CSDN博客
或者
https://gitee.com/lilitom/ai_interview_questions/blob/master/README.md
最好将URL复制到浏览器中打开,不然可能无法直接打开
-------------------------------------------------------------------------------------------------
1. **Pre-train Scaling Law** 的资源分配是预先规划的,主要在模型规模(N)、数据集大小(D)和训练计算量(C)之间进行平衡(例如,Chinchilla 定律建议 N 与 D 成正比,即模型的大小应与数据量同步扩展)。其目标是找到这三者的最佳组合,防止任何一个因素成为性能提升的阻碍。
2. **Test Time Scaling Law** 的资源分配是实时进行的,通过动态调整单次推理的计算成本(例如增加采样次数或优化 Prompt 设计的复杂度)来提升效果。例如,在对延迟要求较高的场景中,可能仅采样一次;而在对精度要求较高的场景中,采样次数可能达到 5 到 10 次。
3. **关键区别**:预训练阶段的资源分配决定了模型的基础能力,需要经过长期的训练来实现;而在测试阶段的资源分配则是在模型能力已经确定的情况下,通过灵活调整推理策略来优化最终的结果。
