「StackLLaMA」: 用 RLHF 訓練 LLaMA 的手把手教學

如 ChatGPT，GPT-4，Claude語言模型之強大，因為它們採用了 基於人類反饋的強化學習 (Reinforcement Learning from Human Feedback, RLHF) 來使之更符合我們的使用場景。

本部落格旨在展示用 RLHF 訓練一個 LLaMA 模型，以回答 Stack Exchange 上的問題。具體而言，包含以下幾個方面:

摘自 InstructGPT 論文，Ouyang, Long, et al. 「Training language models to follow instructions with human feedback.」 arXiv preprint arXiv:2203.02155 (2022).

結合了上述方法，我們釋出了 StackLLaMA 模型，該模型在