Do All Languages Cost the Same? Tokenization in the Era of Commercial Language Models
序論
本論文では、商用言語モデルAPIの使用料金が言語によって異なることを示し、その公平性について分析しています。特に、異なる言語で同じ情報を伝えるために必要なトークン数の違いが料金に与える影響を調査します。
研究の目的
言語モデルAPIの料金体系が言語間で公平であるかどうかを評価し、トークナイズの非均一性が料金とモデルの性能に与える影響を明らかにすることを目的としています。
方法
- RQ1: トークン数の違い: 22の多様な言語でのトークン分割の影響を分析。
- RQ2: コスト: トークン数の違いがAPI使用料金に与える影響を評価。
- RQ3: モデルの有用性: トークン分割の非均一性がモデルの性能に与える影響を評価。
- RQ4: 社会経済的影響: API料金と性能の違いが経済的格差に与える影響を分析。
結果
- トークン数の違い: ラテン文字を使用する言語は他の言語よりも少ないトークン数で情報を伝えることができる。
- コスト: ラテン文字を使用する言語はAPI使用料金が低く、非ラテン文字を使用する言語は高い料金がかかる。
- モデルの有用性: 高いトークン分割率を持つ言語では、コンテキスト内学習の性能が低下する。
- 社会経済的影響: 開発途上国の言語使用者は、高い料金を支払わなければならないことが多い。
結論
商用言語モデルAPIの料金体系とトークナイズの方法を見直し、より公平なシステムを構築することが求められます。NLPコミュニティもトークナイズの問題にもっと注目する必要があります。