今回も少々専門的な内容となりますが、google先生を片手に読み進めてみてください!
自然言語処理の分野では、文書要約に関する研究は注目が集まりやすいテーマの1つです。
活用イメージが極めてシンプルで分かりやすく、ゴールが非常に明確というのが特徴です。
例えば、通話やチャットログのQA生成、会談の議事録生成、論文や新聞の概要抽出など、様々な活用例が挙げられます。
今回は、2021年のNAACL国際学会で紹介された、要約に関する論文を2本ざっくり説明します。
1.抽象的要約における過剰生成とスコアリングする手法
この論文は、要約文を生成するプロセスを2つのステージに分けて処理するという、新しいアプローチを提案しています。
まずステージ1では、入力文書に対して複数の要約文を生成します。
生成方法としては、入力文書の末尾にマスク文字を複数個入れて予測を行います。
そして、複数の予測文書に対して要約を行うことで、複数の要約文を生成します。
ステージ2では、セレクターと呼ばれる評価機で複数の要約候補から1つを選び、最終的なアウトプットを出力します。
セレクターには、2つの機能が備わっています。
1つ目は、入力文書にとって最適な要約文の長さを評価する機能です。
2つ目は、要約文に存在する共通的な問題点を評価する機能です。
例えば、特に強調されるべきポイントが要約文に存在しているかを評価することができます。
以上の2つのステージから、最適な要約文が生成されるようになります。
■抽象的要約における過剰生成とスコアリングする手法
https://arxiv.org/pdf/2104.01726.pdf
2.ドキュメントからスライドを自動生成する文書要約手法
この論文には、長文(主に論文を指す)からスライドを自動生成する手法が紹介されています。
アップロードされた論文PDFに対し、ユーザーが指定したタイトルとキーワードを用いて、図表付きのプレゼン資料を自動生成することが可能です。
要約モデルは、長文の質問応答モデルとみなすことが可能ですので、要約結果は、最終的に質問応答モデルによって生成されます。具体的な処理プロセスは以下のとおりです。
1、ユーザーがタイトルとキーワード(必須ではない)を入力する
2、キーワードモジュールにより、タイトルから階層付きのキーワードを生成する
3、セグメントモジュールにより、タイトルとキーワードからそれらに関連するセグメントを抽出する
4、タイトルやキーワード、セグメントを質問応答モデルに入力し、要約スライドを生成する
この研究のチャレンジポイントの1つは教師データの作成です。
文書とスライドのペアで構成される教師データが少なく、スライドには不要な情報がたくさん含まれることも多いです。
論文の作者は、SciDuetのデータセットに対して、抽出・クリーニング・フィルタリング処理を実施した上、教師データに適用しています。
■ドキュメントからスライドを自動生成する文書要約手法
https://arxiv.org/pdf/2105.03664.pdf
まとめ
弊社製品の中にも、要約技術を用いるところは少なくありません。例えば、VextResumeでは、通話から照会内容と回答内容を切り分けて要約することが可能になっています。
2021年9月にリリースしたVext知識プラスでは、深層学習モデルを利用して、話題単位の話し言葉を書き言葉に自動変換するという、要約処理に近い機能を提供しています。
興味がある方は、ぜひ弊社までお問い合わせください。
本記事にて、最新の要約技術キャッチアップのお手伝いが出来ておりますと幸いです。