2026年5月7日 04:06

vLLM V0からV1移行で強化学習の整合性問題発生

vLLM V0 to V1: Correctness Before Corrections in RL

3行まとめ

高速LLM推論エンジンvLLMがV0からV1へ大幅刷新され、性能と機能性が向上した。しかしServiceNow AIの研究チームが強化学習（RL）パイプラインで利用したところ、推論時とトレーニング時のトークン確率分布が一致しない問題に直面した。

RLでは生成側と学習側のlog probabilityの整合性が学習安定性の鍵となるが、V1のスケジューラやサンプリング処理の変更により微妙なずれが発生。チームはこの差異の原因を特定し、修正前に「correctness（正確性）」を確保すべきだと指摘。具体的なデバッグ手順や検証コードを公開した。

vLLMをRLHFやRLAIFの本番環境で利用する開発者にとって、移行時の検証必須項目となる。同様の課題に直面する他チームの参考となり、オープンソース推論基盤の品質向上に寄与する内容。

vLLMでRLを実装するエンジニア向けの技術知見だが、一般的なAI業務利用には影響が限定的。