Textbooks Are All You Need
序論
本論文では、コード生成に特化した新しい大規模言語モデルphi-1を紹介します。このモデルは、他の競合モデルに比べて大幅に小型化されているにもかかわらず、高い性能を発揮します。
研究の目的
モデルの性能向上には高品質なデータが重要であることを示し、特に「教科書品質」のデータを使用することで、小規模なモデルでも高性能を達成できることを目指しています。
方法
phi-1は、GPT-3.5を使用して生成された教科書データと、Webから収集された高品質なデータを組み合わせて訓練されました。また、Pythonのコード生成タスクに特化したデータセットで微調整を行いました。
結果
phi-1は、HumanEvalとMBPPのベンチマークで高い精度を達成しました。特に、微調整後のphi-1は、多くの既存モデルを上回る性能を示しています。
結論
高品質なデータを使用することで、計算資源を大幅に節約しつつ、高性能なモデルを訓練できることが示されました。phi-1は、小規模なデータセットと少ない訓練時間で優れた結果を達成しています。