コンテンツにスキップ

Textbooks Are All You Need


序論

本論文では、コード生成に特化した新しい大規模言語モデルphi-1を紹介します。このモデルは、他の競合モデルに比べて大幅に小型化されているにもかかわらず、高い性能を発揮します。

研究の目的

モデルの性能向上には高品質なデータが重要であることを示し、特に「教科書品質」のデータを使用することで、小規模なモデルでも高性能を達成できることを目指しています。

方法

phi-1は、GPT-3.5を使用して生成された教科書データと、Webから収集された高品質なデータを組み合わせて訓練されました。また、Pythonのコード生成タスクに特化したデータセットで微調整を行いました。

結果

phi-1は、HumanEvalとMBPPのベンチマークで高い精度を達成しました。特に、微調整後のphi-1は、多くの既存モデルを上回る性能を示しています。

結論

高品質なデータを使用することで、計算資源を大幅に節約しつつ、高性能なモデルを訓練できることが示されました。phi-1は、小規模なデータセットと少ない訓練時間で優れた結果を達成しています。