2026年6月3日 21:55
DPOをOCRに応用し文字崩れを軽減
Direct Preference Optimization Beyond Chatbots
3行まとめ
- •DPOをOCRなど構造化生成に応用
- •失敗出力を負例にし文字崩れを抑制
- •5モデルで崩れ平均59%減を確認
詳細
背景
Direct Preference Optimization(DPO)は、正しい出力(採用)と誤った出力(却下)のペアでモデルを学習させる手法で、これまで主にチャットボットの価値観調整に使われてきた。Hugging Faceのブログは、この手法を主観的な評価ではなくOCR(光学文字認識)のような客観的なタスクに応用した事例を紹介している。
内容
通常の教師ありファインチューニング(SFT)は正解の出力を学習するが、同じ文字列を繰り返す「テキスト崩壊」をトークン単位で罰しない。そこで2段階目の学習でDPOを使い、モデル自身が生成した崩壊出力をあえて却下例として残し、崩壊を明示的に罰しつつ高品質な書き起こしを強化する。
今後の影響
この方法で5つのモデルファミリーすべてでテキスト崩壊が減り、平均59.4%(37〜88%)改善した。失敗モードが明確に識別でき、合否を判定でき、十分な出力量があればOCR以外にも応用できる。失敗出力は除去すべきノイズではなく、分布が進むべきでない方向を示す手がかりになる。
なぜ重要か
DPOをチャットボット以外の客観タスクに応用し、失敗出力を負例として再利用する発想を示した実証例。
元記事を読む — Hugging Face Blog