Information Retrieval

Precise Zero-Shot Dense Retrieval without Relevance Labels

本論文では、関連性ラベルなしで効果的なゼロショット密検索システムを構築する新しい手法「HyDE（Hypothetical Document Embeddings）」を提案します。従来の密検索では、関連性ラベルを必要としますが、本手法はこれを不要にします。

密検索は、クエリと文書を埋め込み空間にマッピングし、内積を用いて類似度を測定します。

HyDEは、まず指示に従う言語モデルを用いて仮想文書を生成し、次にコントラスト学習エンコーダを用いて文書を埋め込みベクトルに変換します。このベクトルを用いて実際の文書を検索します。

HyDEをInstructGPTとContrieverモデルを使用して実装し、Pyseriniツールキットで検索実験を行いました。

TREC DL19とTREC DL20のクエリセットで実験を行い、HyDEが既存の密検索手法を大きく上回る性能を示しました。

BEIRデータセットの低リソースタスクで実験を行い、HyDEが一貫して高い性能を示しました。

Swahili、Korean、Japanese、Bengaliのクエリセットで実験を行い、HyDEが多言語検索においても効果的であることが確認されました。

HyDEの構成要素である生成モデルとコントラスト学習エンコーダの効果を詳細に分析しました。

HyDEは、関連性ラベルなしで効果的なゼロショット密検索を実現する新しい手法です。今後の研究では、クエリの曖昧さや多様性の扱いについてさらに調査が必要です。

密検索は、クエリと文書を高次元の埋め込みベクトルに変換し、それらの内積を計算することで類似性を測定する検索手法です。この手法は、以下のステップで行われます：

密検索は、大量のデータセットに対して高速かつ高精度な検索を可能にするため、情報検索や質問応答システムで広く使用されています。