可読性の向上を目的とした片仮名語換言のための知識獲得

吉田 辰巳

豊橋技術科学大学 知識情報工学系

要旨 / 英文要旨 / 発表資料 / 修士論文(ポストスクリプト+gzip)

修士論文一覧に戻る



 要旨
 換言とは,ある言語表現の意味内容を保持したまま,別の表現へと言い換えることである. 応用的な自然言語処理のための要素技術として,今後ますます重要になると認識されている. 段落や文を対象とした換言処理を行うために,まずは単語単位の要素的な換言技術を 発展させることが必要である. 単語単位の換言処理は,ある語がどの語に換言可能かという「換言知識」に従って 行われるのが普通である. 換言知識は人手で作成することもできるが, 実用的な質と量を満足するためには,多大な労力を要する. そのため,換言知識は可能な限り自動的に獲得することが望ましいと考える.
 一方,最近では,公的文書等における 難解な片仮名語の乱用が問題視されるようになった. 片仮名語の大部分は英単語からの外来語であり, 従来日本語で用いられてきた語彙に換言可能な場合も多い. 本研究では,そのような難解な片仮名語をより理解しやすい語へと 言い換えるための換言知識を自動的に獲得することを目的とする.
 換言知識獲得に関する過去の研究としては, 名詞一般を対象とし,統計的手法による名詞間類似度を用いたものや, コーパス中の括弧表現を利用したもの等がある. 本研究では,対象を片仮名語に限定し, その性質を有効に利用した手法を組み合わせることで性能の向上を計った.
 まず,片仮名語の元となった英単語を復元する. その際に,英単語の発音情報と書記(表記)情報の両方を併用した. そして,得られた英単語の日本語訳を辞書によって獲得する. さらに,最適な日本語訳を絞り込むために,統計的手法を使用した. また,括弧表現からの換言知識獲得も合わせて行い, それぞれの手法の欠点を補った.
 実験の結果,英単語復元に関して,再現率 82.2\%,精度 81.1\%を得た. また,総合的な性能は,再現率 14.6\%,精度 70.8\% であった. ただし,換言知識獲得に関しては, あらかじめ作成した正解例との比較による評価だけでは,必ずしも十分ではない. なぜなら,換言可能な語句の種類には限りが無いため, あらかじめそれらすべてを列挙しておくことが極めて困難だからである. そのため,本研究では手法の出力が正解か不正解か, 人手で検証する評価も合わせて行った. その結果,正解率は 75.6\% であった.
 再現率が低い値になっていることの大きな原因としては, 換言知識として獲得する語を,辞書やコーパス中に存在するものだけに 限定していることが挙げられる. 今後は,既存の語を組み合わせることで, 新しい複合語を生成する技術が必要になると考えている.


 発表資料
タイトル
研究の背景(1)〜換言〜
換言可能な例
研究の背景(2)〜片仮名語〜
自動獲得技術の必要性
関連研究
研究の目的
換言対象となる片仮名語の特徴(1)
換言対象となる片仮名語の特徴(2)
換言対象となる片仮名語の特徴(3)
換言対象となる片仮名語の特徴(3)
換言対象となる片仮名語の特徴(4)
換言知識獲得手法の概要
片仮名語からの英単語復元(1)
片仮名語からの英単語復元(2)
英単語からの日単語獲得
複合語の分割
名詞間類似度
ベクトルの決め方
コーパス中の補足説明
実験
評価方法
実験結果(1)
実験結果(2)
獲得された知識の例
獲得されなかった知識の例
考察(1)
考察(2)
まとめと今後の課題

gaizi@pro.email.ne.jp