ニュース番組における
字幕生成のための要約手法の研究


三上 真

豊橋技術科学大学 知識情報工学系

要旨 / Abstract / 発表資料 / 修士論文リストへ


【 要旨 】
 ニュース原稿を1文ごとにそれぞれ要約する手法について報告する.

 聴覚障害者がテレビ番組を楽しむために字幕付きテレビ放送が行われているが, 日本のテレビ番組における字幕付き放送の割合は10\%程度で,欧米と比較して低い. このため,郵政省は一昨年,2007年までに生番組等を除く全てのテレビ番組に 字幕を付けるという方針を発表した. しかし,字幕化するには文章を適度な長さに要約する必要があり,人手による 字幕付与作業は困難であるため,自然言語処理技術を応用した効率的な字幕生成が 切望されている.様々な番組の中でもニュース番組の重要性は高いと考えられるため, 本研究では,ニュース原稿(テキスト)を入力とした, 字幕生成用の自動要約を試みた.

 テキスト自動要約研究の多くは,文もしくは文のまとまりを抽出することで 要約を行っている.このような要約手法は,文献検索における原文の大意を 把握するための補助などに用いられ,成果を上げている. しかし,文単位の抽出による要約においては,照応関係や文の結束性が損なわれる 可能性があり,その対策が講じられているが,その困難さも同時に報告されている.

 ニュース文は新聞記事に比べ,1文中の文字数が多く, 1記事中の文数が少ないという特徴を持つ. このため,文を単位とした抽出を行うと, 採用される情報に大きな偏りが生ずることが多い. そこで,本要約手法では修飾部および比較的冗長と考えられる文節を削除する ことにより,1文ごとの要約を行う. また,1文を部分的に削除する際に構文構造が破壊されることを防 ぐため,ニュース文要約に特化した簡易構文解析手法を利用している. 簡易構文解析では,1文の最後の述部に係る文節を特定し,要約文に 残す.また,冗長部に係る文節を特定し,削除する. このような処理を行うことで自然さを確保している.

 字幕文は,画面上を一方的に流されるという性質から,適切な 長さに要約されている必要があり,読みやすく,原稿の情報が正確 に伝わり,冗長さが解消されている必要がある.このため,被験者 32名に対し,本手法による要約文についてのアンケートを行うことにより, 自然さ,忠実度,非冗長度の3つの視点から評価を行った. その結果,理想的な要約を5点とした場合で,自然さ4.07点, 忠実度3.71点,非冗長度4.16点という評価値を得た. 値は概ね良好であるが,多くの原稿に対して一様に精度の高い要約を 行うには,今後,知識を利用した解析など,より高度な処理を行う必要がある.

【 Abstract 】
Recently, automatic generation of captions for newscasting has become more and more important as one of the means to realize the barrier-free society. However, the assignment rate of captions for Japanese TV programs is very low comparing with other developed countries such as United States.

The year before last, the Ministry of Posts and Telecommunications of Japan announced that it required TV stations to assign captions for all TV programs except live ones by year 2007. However, assigning captions for a TV program manually needs prohibitively large manpower, and its automatic generation is strongly desired.

Many of conventional summarization methods extract important sentences to generate a summary. These methods have mostly used to help retrieval for the most part, and obtain beneficial results. However, these methods are not suitable for generation of news captions, because many news texts consist of only a few and long sentences.

Under these circumstances, we try to generate summarizations of each sentence in TV news texts written in Japanese automatically by reducing redundancy of each sentence. One of the feature of our method is to utilize a simplified syntax analysis so that the syntactical structure is not destroyed. By this feature, naturalness of results is attained. As audiences cannot read repeatedly, a summary must be shortened moderately. It must also be easy to read, containing important information, and reduced its redundancy. Therefore, we evaluate this summarizing method by obtaining information by means of questionnaires to 32 examinees.


【 発表資料 】

タイトル
背景
目的
字幕生成に用いる要約の要件
既存の主な自動要約手法
方針
文内の文節削除による要約
簡易構文解析例
削除文節選択
要約例(一部)
評価
評価項目
評価結果
記事9の要約結果(一部)
考察
まとめ
今後の課題

mikami@smlab.tutkie.tut.ac.jp