- 大模型RAG实战:RAG原理、应用与系统构建
- 汪鹏 谷清水 卞龙鹏
- 181字
- 2024-11-28 18:42:06
1.2.4 大模型的训练成本问题
近几年,模型的规模不断攀升。BERT-Base仅有1亿参数量,而如今已出现千亿、万亿级别的大模型,如图1-6所示。

图1-6 知名大模型的参数量
庞大的参数量意味着需要更多的训练资源。同时,考虑到训练时长,一个大模型的训练成本极为昂贵。早在2021年,便有科学家在论文“RETRO:Improving Language Models by Retrieving from Trillions of Tokens”中通过大量实验证明,可以使用仅1/25参数量的模型结合RAG系统,在Pile数据集上达到GPT-3的效果。