Document Retrieval Method Using Semantic Similarity and Word Sense Disambiguation

Abstract
単語間の意味的類似性に基づく検索 (以下, 類似検索と呼ぶ) は文書検索技術において, 重要な課題の一つである.類似性に関する従来研究では, 階層構造が平衡しているシソーラスを使った単語間の類似度が提案され, 言語翻訳, 文書検索などの応用における有効性が示されている.本論文では, 階層構造が平衡していないシソーラスにも適用できる, より一般的な単語間の意味的類似度を提案する.本提案では各単語が担う概念間の最下位共通上位概念が有する下位概念の総数が少ないほど, 単語間の類似度が大きくなる.筆者らは, この意味的類似度と大規模シソーラスの一つであるEDRシソーラスを使って, 類似検索システムを実装した.さらに, 精度を向上させるために, 単語の多義解消手法をこの検索システムに導入した.本類似検索システムは, 単語間の物理的近さと単語の重要度を用いた拡張論理型の従来システムに基づいている.この従来システムとの比較実験を行ない, 意味的類似性と多義解消を用いた提案の類似検索手法によって再現率・適合率が向上したことを確認した.