格遷移ネットワークモデルの提案とその検討

根津 雅彦

豊橋技術科学大学 知識情報工学系

要旨 / Abstract / 発表資料 / 修士論文(ポストスクリプト+gzip)




要旨
 構文解析は文の構文構造を明らかにする処理であり, 自然言語処理における最も基本的な要素技術の一つである. しかし,構文解析には,一つの入力文に対して複数の構文構造が 存在するという曖昧性の問題がある. その曖昧性の解消方法の一つとして,動詞と格要素(意味素と格助詞の組)との 関係を限定し,構文構造の候補を絞り込むという方法がある. その際に用いる,動詞が必要とする格要素の情報を格フレームと呼ぶ. しかし,既存の格フレームの辞書は全て人手で作成されたものであり, 実用規模のものが少ないため,大量の機械可読なテキスト(コーパス)から 格フレームを学習する研究が行われるようになってきた. これらの研究には,構文解析された文とシソーラスを用いることで多くの 事例に対応できる最適な意味素の汎化レベルの学習を行うものや, 現在入手可能な解析済みコーパスから得られる動詞と名詞の共起情報を用いて 格となる名詞の集合を獲得するものなどがある. それらはいずれも,格要素の出現順序である語順について考慮していない. しかしながら,日本語は語順が自由であるという特徴を持つため, 動詞の取りやすい格要素の出現順序情報も併せ持った格フレームを 獲得できることが望ましい. そこで本研究では,語順情報を保持した格フレーム獲得を目指し, 語順情報を保持可能なモデルとして格遷移ネットワークを提案する. さらに,このモデル上のパラメータの一学習方法について検討を行う.

 格遷移ネットワークは,状態と重み付きの弧から構成されるネットワークであり, 動詞毎に作成される. 状態には初期,中間,最終の3種類があり,初期状態,最終状態はそれぞれ一つ ずつ存在する.それ以外に,各格要素を一つの中間状態でそれぞれ表現する. 弧は二つの状態間に張られ,二つの格要素間の状態遷移の起こりやすさを 弧の重みである条件付き確率により表現する. この枠組を用意することで,格要素の並びである格要素列を,初期状態から 最終状態へ向けて弧を辿ったときの路で表現することができる. 格遷移ネットワークの学習においては,モデル上のパラメータである 弧の重みに対して重み付けを行い,条件付き確率を求める. 学習後の格遷移ネットワークにおいては,格要素列の出現確率を, 初期状態から最終状態を辿った時の重みの積値により推定する.

 学習後の格遷移ネットワークが学習データの情報を反映しているかを 検証するために実験を行った. その結果,学習後の格遷移ネットワークが,学習データの頻度情報および 語順情報を保持していることを確認した.


Abstract
Parsing is one of the most important analysis in natural language processing. However, parsing has a problem of ambiguity, i.e., more than one syntactical structures may be generated as the parsing result. As a means to reduce ambiguities in parsing, verbal case frames are often used to restrict relation between nouns and verbs. Recently, several methods to acquire case frames from corpora have been proposed as a number of corpora are now available on computer, because manually constructed case frame dictionaries are not sufficiently large for practical use. Case frames that acquired by those methods and that constructed manually do not have the information of case order. Those show only one standard case order. In Japanese, however, some case frame which can express the information of case order are desired, because Japanese does not have specific syntactical structures. We proposed the case transition network to represent information on the case order in the case frame.

The case transition network consists of set of states, and set of arcs. Each of case elements is represented by each state. And, the case orders of two case elements are represented by the arcs which have the information of direction and weight defined as the conditional probability on transition. Adopting this framework, the sequences of case elements are represented by the path from the starting state to the terminal state. In order to learn the case transition network, conditional probabilities of arcs are computed. After learning the case transition network, the appearance probability of the sequences of case elements are estimated to be the product of conditional probabilities.

We experimented to evaluate the case transition network learned. As the result, we confirmed the case transition networks learned adequately have the information of frequency of sequences of case elements and of case orders in learning corpus.


発表資料
タイトル
研究背景
格フレーム辞書
格フレーム獲得に関する研究
語順を反映した格フレーム
目的
格遷移ネットワーク
格遷移ネットワークの例
弧の重み付け方法
格要素列の出現確率の推定方法
未学習の格要素列
実験
検証項目
推定出現確率と学習格要素列の出現頻度との関係
語順保持度合の評価方法
語順保持率
考察
まとめ
今後の課題

nedu@smlab.tutkie.tut.ac.jp