1.3 大语言模型的重要概念

理解大语言模型的重要概念,可以更好地发挥大语言模型的潜力,并根据任务要求和预期结果进行适当控制和调整。

1. Transformer

Transformer是一种用于处理序列数据的深度学习模型架构,它在大语言模型中扮演着关键的角色,其利用自注意力机制来捕捉输入序列中的依赖关系,帮助模型理解和建模上下文信息。

2. LLM

LLM(Large Language Model)是基于Transformer构建的大型语言模型,大型语言模型经过大规模的预训练,可以从大量的文本数据中学习到语言的统计特征和语义关联。

3. prompt

prompt是一段文本,用于引导和指导模型生成特定类型的回复。它可以是一个问题、指令或上下文信息,旨在影响模型生成的输出。

4. token

token是指对文本进行分割和编码后的最小单位。输入文本将被分割成一系列的token,每个token代表一个单词、一个字符或一个子词。

5. temperature

temperature是一个用于控制生成文本多样性的参数。较高的temperature值会使生成的文本更加随机和多样化,而较低的temperature值会使生成的文本更加确定和保守。

6. top_p

top_p采样是一种生成文本的策略,它基于给定的概率分布选择最高的一部分候选词。具体而言,它通过动态截断概率累积分布中的最低概率,以确保生成的词汇具有一定的多样性。