3日前大規模モデルが希少技能を習得できる理由を解明•小型モデルは希少タスクの学習を上書きで失う•400万〜40億パラメータで仕組みを解明•規模拡大より学習データ頻度の増加が有効研究・論文モデル開発学習データ続きを読む →