[修士論文] [増山研究室]

in English

平成9年度修士論文
「名詞の連接情報を用いた関連記事検索手法の研究」

大竹清敬


概要

近年、大量の機械可読文書(コーパス)が利用可能となっている。中でも 新聞は、現代社会の大量情報の流通媒体であるため、非常に検索需要が高い。 機械可読文書に対する情報検索手法は古くから研究され、また実用化されてきた。 それらの検索手法は、利用者による手掛り情報の入力に基づいている。 しかし、情報検索において、既に必要とする文書が手元にあり、その文書に 関連する文書を検索したいという状況が頻繁に発生する。このような場合でも、 利用者は手元の文書の具体的内容を考慮し、検索質問を入力しなければ ならない。これは利用者にとって苦痛であり、情報検索の効率を下げる原因とな る。そこで、本研究では、新聞記事を対象として、利用者がキーワードな どの検索質問を入力することなく、ある元記事の関連記事を検索する手法 を提案する。 関連する文書を検索する手法としては、ベクトル空間法やクラスタリングに基づ く手法が提案されている。ベクトル空間法には日本語に用いる場合に単語 をどのように定義するかという問題があり、クラスタリングに基づく手法 は、利用者の動的な要求変化に対応できないという問題がある。したがっ て本研究ではベクトル空間法を拡張した形式として、局所有向グラフ (LDG)という構造を新たに導入する。局所有向グラフは中心となる節 点(C−節点)とその節点に入る有向辺をもつ節点(F−節点)、ならび に中心となる節点から出る有向辺が入る節点(B−節点)から構成される。 C−節点はLDGに一つのみ存在し、名詞が対応する。B−節点は複数存 在可能で形容詞が対応する。F−節点も複数存在可能で、名詞あるいは動 詞が対応する。記事中の全ての名詞についてLDGを構築し、集めたSL DGは各記事の特徴をあらわすものとなる。 本研究で提案する手法を計算機上に実装し、試作システムを作成した。本手法と 比較を行なう為に、形態素のみに重みづけを行なう手法を同様に実装し、比較実 験を行なった。その結果比較手法に比べて本手法が高い精度 (適合率86%,再現率84%)で検索を行なえることを確認した。このことか ら、形態素解析結果に対して形態素をそのまま索引語として用いるよりは、 その複合語もあわせて考慮するほうが良いと言える。

Abstract

This paper proposes a retrieval method of relevant Japanese newspaper articles by employing information of noun connection. A number of corpora are available nowadays thanks to the recent drastic progress of computer and network technologies. Among them, corpora of newspaper articles are useful information sources. Information retrieval methods for such corpora have been studied and implemented. Those methods require users to compose queries at retrieval. When we retrieve articles, we often need their relevant articles. Seeking such relevant articles is a time-consuming task, because we must input the queries. Under these circumstances, an easy to retrieve method of relevant articles are strongly desired. Several approaches have been proposed so far in retrieving relevant documents. Among them, the vector space model and the hierarchic document clustering are frequently used. The hierarchic document clustering enables us to fast retrieve. However, if the user's query is modified dynamically, then the method can not deal with the modification. ~On the other hand, the vector space model employs fixed words as components. But in Japanese, many compound noun phrases are seen and those methods can not handle these compound nouns well. Thus, in this paper, we propose a local directed graph(LDG) to handle compound nouns in Japanese and realize more detailed characterization of articles. A set of LDGs(SLDG) corresponds to an article. The relevance between two articles is able to compute by comparing with each SLDG. We have implemented a prototype system of retrieving relevant articles using this SLDG. The system retrieves relevant articles within 16 days since the original article was printed. As a result, its precision attains 86%, and its recall attains 84%.

発表OHP(png版)

発表OHP(jpeg版)

修士論文(ポストスクリプト+gzip)


Go to The SMlab Page. webmaster@smlab.tutkie.tut.ac.jp
Last updated on