重要文抽出,自由作成要約に対応した新聞記事自動要約に関する研究

岡本 大吾

豊橋技術科学大学  知識情報工学系

要旨 / Abstract / 発表資料 / 修士論文(ps+gzip)

増山研修士論文リストに戻る




要旨

近年,大量の機械可読データがインターネット等を通して利用可能になるとともに,テキスト自動要約の必要性が高まってきており,自動要約に関する研究 が盛んに行われてきている. 単一の文書に対する要約研究は,長い歴史を持っており,重要な文を選ぶ重要文抽出型の要約や,一文ごとに要約を行う文内要約などがある.

山本らによって開発されたGREENでは,論説文章を対象に,文書内の談話構造の利用による重要文抽出を行い,連体修飾部の削除などの文内要約によって文書要約を試みている.しかしながら,GREENは報道記事など,論説意外の特徴を持つ文書への対応はしていない. また,三上らは,連体修飾節の削除,固有名詞へ係る修飾語句の削除のいずれにおいても,重要部の認定が困難であると報告している.つまり,重要な情報が削除される点が問題である.

そこで,我々は,山本ら,三上らの問題点を考慮し,「重要な情報を洩れなく抽出する」こと,すなわち報知的(informative)な要約を生成することに重点をおき,論説,報道記事の両方に対応した要約システムYELLOWを開発した.

YELLOWは,各文の文内要約と各文に対する重要度付与をもとに要約を行う.

文内要約では,二重修飾に着目した削除を中心に,5つの手法によって要約を行う.二重修飾に着目した削除では,KNPによる構文解析結果を積極的に利用する. そして,「重要な情報の削除は極力行わない」という方針に基づいて連体修飾要素を削除する.また,ヒューリスティクスによって直接引用表現内の冒頭文の削除なども行う.さらに,山崎ら,および若尾らの換言手法も採り入れ,冗長な文頭や文末表現を簡潔に換言する.

文への重要度付与には,主要語,高頻度の名詞,位置情報,見解文であるか否かなど,従来,文の重要度を決定するにあたって重要であると言われてきた種々の情報を複合的に用いている.文の重要度は,各情報の重要度と諸条件から導き出される得点の総和により決定する.

本システムは,国立情報学研究所主催の情報検索と自動要約評価のためのワークショップの要約タスクTSC-1における重要文抽出サブタスク,自由要約作成サブタスクに参加し,評価を行った.



Abstract

We previously proposed a summarization system GREEN for Japanese newspaper editorials. It summarizes a given newspaper editorial by sentences selection and deletion of noun modifiers, etc. However, GREEN is not suitable for summarizing ordinal newspaper articles, because the news-report-styled newspaper articles are different from newspaper editorials.

Thus, we propose a new automatic summarization system, YELLOW, for Japanese newspaper articles. YELLOW is designed to avoid omission of important information. The system was composed of two components, an abstract-type summarizer and an extract-type summarizer.

The abstract-type summarizer summarizes sentences by deleting multiple modifiers for nouns and illustrations and by paraphrasing. For this purpose, it employs a parser KNP. Our new summarization method focuses on multiple modifiers to make natural summary. we make our method prudent so that the system does not delete important information.

In the extract-type summarizer, features such as main terms, high frequency words, location information in a paragraph, are used to decide the weight of each sentence. Some features on surface information decide the level of importance for each sentence. Moreover, different weight are attached according to whether the input is a newspaper article or a newspaper editorial.

We participated in tasks A-1 and A-2 of TSC-1 in NTCIR-2 and the evaluation results showed that YELLOW outperformed all other participants in average precision.



発表資料
タイトル
研究背景
先行研究
研究目的
YELLOWの特徴
解析方法
YELLOWの概要
文内要約
二重修飾に着目した削除
構文解析誤りへの対応
直接引用表現の処理
補足情報の削除
例示の削除
換言処理
YELLOWの概要
重要度付与
6つの特徴
見解文と現象文
重要度の重み付け1
重要度の重み付け2
優先順位の決定
YELLOWの概要
要約作成
評価
要約システム全体の評価
自由作成要約タスクにおける主観評価
自由作成要約タスクにおけるContent-Basedの評価
要約システム全体の考察
文内要約の評価
文内要約に用いた各手法の比較
二重修飾に着目した削除の評価
重要度付与の評価
重要文抽出タスクによる重要度付与の評価
重要度付与を用いた各特徴の比較
各要素に関する考察
まとめ