专攻多奖励优化

挑战GRPO，英伟达提出GDPO，专攻多奖励优化

机器之心编辑部GRPO是促使DeepSeek-R1成功的基础技术之一。最近一两年，GRPO及其变体因其高效性和简洁性，已成为业内广泛采用的强化学习算法。...

2周前 (01-12)

·

文化

阅读全文