Understanding reinforcement learning for model training from scratch

2 points by rajman187 326 days ago | 1 comment

rajman187 326 days ago |

An intuitive treatment of RLHF, TRPO, PPO, GRPO, DPO and RLAIF

rajman187 326 days ago |

An intuitive treatment of RLHF, TRPO, PPO, GRPO, DPO and RLAIF