2026年6月3日 21:55

DPOをOCRに応用し文字崩れを軽減

Direct Preference Optimization Beyond Chatbots

3行まとめ

•DPOをOCRなど構造化生成に応用
•失敗出力を負例にし文字崩れを抑制
•5モデルで崩れ平均59%減を確認

詳細

背景

Direct Preference Optimization（DPO）は、正しい出力（採用）と誤った出力（却下）のペアでモデルを学習させる手法で、これまで主にチャットボットの価値観調整に使われてきた。Hugging Faceのブログは、この手法を主観的な評価ではなくOCR（光学文字認識）のような客観的なタスクに応用した事例を紹介している。

内容

通常の教師ありファインチューニング（SFT）は正解の出力を学習するが、同じ文字列を繰り返す「テキスト崩壊」をトークン単位で罰しない。そこで2段階目の学習でDPOを使い、モデル自身が生成した崩壊出力をあえて却下例として残し、崩壊を明示的に罰しつつ高品質な書き起こしを強化する。

今後の影響

この方法で5つのモデルファミリーすべてでテキスト崩壊が減り、平均59.4%（37〜88%）改善した。失敗モードが明確に識別でき、合否を判定でき、十分な出力量があればOCR以外にも応用できる。失敗出力は除去すべきノイズではなく、分布が進むべきでない方向を示す手がかりになる。

なぜ重要か

DPOをチャットボット以外の客観タスクに応用し、失敗出力を負例として再利用する発想を示した実証例。

OCR 研究・論文モデル学習 Hugging Face

元記事を読む — Hugging Face Blog

DPOをOCRに応用し文字崩れを軽減

3行まとめ

詳細

背景

内容

今後の影響

なぜ重要か

人気記事