戳戳猫的小窝
更新日志
关于
## 1 Temperature(温度参数) **定义**:通过缩放模型输出的logits(未归一化概率),调节softmax概率分布的平滑度。 • **低值(如0.1-0.5)**:概率分布尖锐化,模型倾向选择最高概率词,输出稳定且保守,适合技术文档、代码生成等确定性任务。 • **高值(如0.5-1.0)**:概率分布平滑化,低概率词被选中的机会增加,输出更具多样性和创意,适用于诗歌、头脑风暴等场景。 • **极端影响**:温度过高可能导致语法错误或语义偏离;过低则易引发重复循环。 示例数据如下: ```json { "model": "Qwen/Qwen2.5-7B-Instruct", "messages": [ { "role": "system", "content": "你是一个诗人" }, { "role": "user", "content": "请生成一首关于秋天的诗" } ], "temperature": 0.7 } ``` ## 2 Top-K(前K采样) **定义**:限制模型仅从概率最高的K个候选词中随机选择下一个词。 • **低K值(如K=10)**:候选池较小,输出确定性高,但可能遗漏低概率优质词,适合问答、摘要等需要逻辑性的任务。 • **高K值(如K=100)**:候选池扩大,生成多样性提升,但可能引入无关词,适用于创意写作。 • **缺陷**:固定K值无法适应不同分布形态(如概率集中或分散)。 示例数据如下: ```json { "model": "Qwen/Qwen2.5-7B-Instruct", "messages": [ { "role": "system", "content": "你是一个诗人" }, { "role": "user", "content": "请生成一首关于秋天的诗" } ], "top_k": 50 } ``` ## 3 Top-P(核采样) **定义**:动态选择累积概率超过阈值P的最小候选词集(例如P=0.9时选取覆盖90%概率的词)。 • **低P值(如0.5)**:候选词较少,输出更稳定,适合技术问答等场景。 • **高P值(如0.95)**:候选词范围扩大,多样性增加,但可能包含长尾噪声词,需与Temperature配合调整。 • **优势**:相比Top-K,Top-P能根据概率分布动态调整候选池大小,适应性更强。 示例数据如下: ```json { "model": "Qwen/Qwen2.5-7B-Instruct", "messages": [ { "role": "system", "content": "你是一个诗人" }, { "role": "user", "content": "请生成一首关于秋天的诗" } ], "top_p": 0.5 } ``` ## 4 Presence Penalty(话题惩罚) **定义**:通过降低已出现话题的权重,鼓励模型引入新主题。 • **正值(如0.5-2.0)**:抑制重复话题,提升文本多样性,适合长文本生成或对话系统。 • **负值(如-0.5)**:允许话题重复,适用于需要围绕单一主题展开的场景(如技术分析)。 示例数据如下: ```json { "model": "Qwen/Qwen2.5-7B-Instruct", "messages": [ { "role": "system", "content": "你是一个诗人" }, { "role": "user", "content": "请生成一首关于秋天的诗" } ], "presence_penalty": 0.5 } ``` ## 5 Frequency Penalty(频率惩罚) **定义**:针对词汇重复频率施加惩罚,降低已出现词汇的权重。 • **正值(如0.5-1.5)**:减少重复词出现,避免机械性输出,适合文章撰写或对话生成。 • **负值(如-0.5)**:允许高频词重复,适用于代码生成等需要固定术语的场景。 示例数据如下: ```json { "model": "Qwen/Qwen2.5-7B-Instruct", "messages": [ { "role": "system", "content": "你是一个诗人" }, { "role": "user", "content": "请生成一首关于秋天的诗" } ], "frequency_penalty": 0.5 } ``` ## 6 参数协同与调优建议 1. **组合策略**: • **确定性任务**(如法律文本):低Temperature(0.2)+ 低Top-P(0.5)+ 负Penalty。 • **创意任务**(如故事生成):高Temperature(1.0)+ 高Top-P(0.95)+ 正Penalty。 • **平衡场景**(如新闻写作):中等Temperature(0.7)+ Top-K=50 + Top-P=0.8。 2. **调优原则**: • 优先调整Temperature和Top-P/Top-K,再通过Penalty微调重复问题。 • 动态调整:例如在故事生成中,初期用高温激发创意,后期降温提升连贯性。 ## 总结 这些参数共同构成大模型生成的“调控面板”: • **Temperature与Top-P/K**:控制多样性与确定性平衡; • **Penalty参数**:解决重复性问题,优化文本流畅度。 实际应用中需根据任务需求实验参数组合,例如客服对话推荐 `Temperature=0.5, Top-P=0.8, Frequency Penalty=0.5`,而广告文案可尝试 `Temperature=1.0, Top-P=0.95, Presence Penalty=1.2`。
chat-completions接口的其他参数