2025-04-01から1ヶ月間の記事一覧

DeepSeek-R1の数理的背景を理解する

DeepSeek-R1で使われた強化学習アルゴリズムGRPOの解説です。