トップQs
タイムライン
チャット
視点
SemEval
ウィキペディアから
Remove ads
SemEval (Semantic Evaluation)は、語義評価会のSensevalから発展した、計算意味解析システムの評価会である。この評価は、「言語における意味の本質を探る」ことを目的としている。人間にとって意味は直感的なものであるが、その直感を計算機解析に応用することは元来難しいとされてきた。
Remove ads
![]() | この項目「SemEval」は翻訳されたばかりのものです。不自然あるいは曖昧な表現などが含まれる可能性があり、このままでは読みづらいかもしれません。(原文:英語版 "SemEval" 13:44, 17 Sep 2020 (UTC)) 修正、加筆に協力し、現在の表現をより自然な表現にして下さる方を求めています。ノートページや履歴も参照してください。(2020年11月) |
この評価は、意味の計算に必要なものを正確に、より正確な言葉で特徴づけるための、意味を伴う計算の問題点と解決策を特定するための創発的なメカニズムを提供している。
またこれらの試みは、私たちの言語の使用に関与する次元をより明確にするために進化してきたが、元々は語義を計算的に識別するという一見単純な試みから始まったものである。
これらは、文中の要素間の相互関係(意味的役割のラベリングなど)、文間の関係(共参照など)、文の本質(意味的関係や意味分析)把握を行うために発展してきた。
SemEvalおよびSensevalの演習の目的は、意味分析(Semantic Analysis)システムを評価することである。ここで「意味分析」とは、意味の形式的な分析を指し、「計算」とは、原理的に効果的な実装を支援するアプローチを指す。 [1]
最初の3つの評価であるSenseval-1からSenseval-3までは、語義曖昧性解消(Word Sense Disambiguation , WSD)に焦点を当てており、毎回、課題の言語数と参加チーム数が増加している。 4番目のワークショップであるSemEval-2007(SemEval-1)から、タスクの性質は、語義曖昧性解消以外の意味分析タスクを含むように進化した。 [2]
SemEvalコミュニティは、*SEM会議の構想をきっかけに、*SEM会議に関連して評価ワークショップを毎年開催することを決定した。但しすべての評価タスクが毎年実施されるわけではないことも決定された。例えば、WSDタスクはSemEval-2012ワークショップには含まれていなかった。
Remove ads
歴史
要約
視点
語義曖昧性解消のためのアルゴリズムの早期評価
元来、語義曖昧性解消アルゴリズムの品質を評価することは主に本質的な評価の問題であり、それに組み込まれたWSDに関する要素を評価する試みはほとんど行われていなかった。 [3]
エンドユーザーアプリケーションにおけるWSDの価値を示す証拠を提供し始めたのは、ごく最近(2006年)のことである。 [4] 1990年頃まで、語義曖昧性解消タスクの議論は、包括的な評価ではなく、主に実例に焦点を当てていたが、 1990年代初頭には、より体系的で厳密な本質的評価が始まり、曖昧な単語の小さなセットを使ったより正式な実験も行われた。 [5]
SensevalからSemEval
1997年4月、マーサ・パーマー(Martha Palmer)とマーク・ライト(Marc Light)は、「語彙的意味論によるタグ付け(Tagging with Lexical Semantics: Why, What, and How? )」と題するワークショップを開催した。[6]当時、手動でアノテーションされたコーパスが品詞タグ付けや構文解析などのNLPの他の分野に革命を起こし、コーパス駆動型のアプローチが自動意味解析にも革命を起こす可能性を秘めていることが明確に認識されていた。 [7] Kilgarriff氏は、「この分野には評価が必要だという高いコンセンサスがあった」と振り返り、Resnik氏とYarowsky氏の実践的な提案をきっかけに議論が始まり、Sensevalの評価演習(evaluation exercises)が生まれたという。[8] [9] [10]
SemEvalの実施周期
SemEval-2010を経て、多くの参加者が3年周期を「長い」と感じるようになった。Conference on Natural Language Learning (CoNLL) やRecognizing Textual Entailments(RTE) など、他にも多くの共有タスクが毎年開催されている。このため、Semevalのコーディネーターは、タスクオーガナイザーに2年周期と3年周期のどちらかを選択する機会を与え、 [11] SemEvalコミュニティは後者を支持した。SemEvalコミュニティ内の票は3年周期を支持していたが、主催者とコーディネーターはSemEvalタスクを2つの評価ワークショップに分割することに落ち着いた。これは、新しい*SEM会議の導入がきっかけとなった。SemEvalの主催者は、「私たちのイベントを*SEM会議と関連づけ、SemEvalワークショップを*SEM会議と結びつけることが適切である」と考えた。主催者は、毎年開催される*SEMとの関連性についてタスクコーディネーター/主催者と参加者から非常に肯定的な反応を得て、8つのタスクが2012年に変更することを希望した。このような経緯からSemEval-2012とSemEval-2013が誕生した。現在の計画では、毎年のSemEvalスケジュールに切り替えて、*SEM会議との関連付けを行うことになっているが、必ずしもすべてのタスクが毎年実施される必要はない。 [12]
SensevalおよびSemEvalワークショップのリスト
- Senseval-1は1998年の夏に英語、フランス語、イタリア語で開催され、9月2日から4日にかけてイギリスのサセックス州にあるハーストモンスー城で開催されたワークショップで締めくくられた。
- Senseval-2は2001年の夏に開催され、その後、 ACL2001に関連して2001年7月にトゥールーズでワークショップが開催された。
- Senseval-2には、バスク語、中国語、チェコ語、デンマーク語、オランダ語、英語、エストニア語、イタリア語、日本語、韓国語、スペイン語、スウェーデン語のタスクが含まれていた。
- Senseval-3は2004年3月から4月に開催され、続いて2004年7月にバルセロナでACL2004に関連してワークショップが開催された。
- Senseval-3には、コアワードセンスの曖昧性解消のための14の異なるタスク、および意味的役割の識別、複数言語注釈、論理形式、サブカテゴリの取得が含まれていた。
- SemEval-2007(Senseval-4)は2007年に開催され、続いてプラハでACLと連携してワークショップが開催された。 SemEval-2007には、テキストの意味分析のためのシステムの評価を対象とした18の異なるタスクが含まれていた。「言語資源と評価(Language Resources and Evaluation)」の特別号は、その結果を特集している。 [13]
- SemEval-2010は2010年に開催され、続いてウプサラでACLと連携してワークショップが開催された。 SemEval-2010には、意味分析システムの評価を対象とした18の異なるタスクが含まれていた。
- SemEval-2012は2012年に開催された。これは、新しい* SEM、語彙および計算意味論に関する最初の合同会議に関連付けられ、カナダのモントリオールにあるNAACLと共催であった。 SemEval-2012には、計算意味論システムの評価を対象とした8つの異なるタスクが含まれていた。ただし、SemEval-2012に関連するWSDタスクはなく、WSD関連のタスクは次のSemEval-2013に予定された。
- SemEval-2013は、米国ジョージア州の北米計算言語学会であるNAACL 2013に関連付けられ、2013年に開催された。これには、計算意味論システムの評価を対象とした13の異なるタスクが含まれていた。
- SemEval-2014は2014年に開催された。 COLING 2014、第25回計算言語学国際会議(International Conference on Computational Linguistics)および* SEM 2014、アイルランドのダブリンでの第2回 辞書的意味論・計算意味論(Lexical and Computational Semantics)合同会議と共催。 SemEval-2014には、さまざまな計算意味論システムを評価する10の異なるタスクがあった。
- SemEval-2015は2015年に開催された。NAACL-HLT 2015、計算言語学会(Association for Computational Linguistics)北米支部の2015年会議、Human LanguageTechnologiesおよび* SEM 2015、米国デンバーの語彙および計算意味論に関する第3回合同会議と共催。 SemEval-2015には、さまざまな計算意味論システムを評価する17の異なるタスクがあった。
Remove ads
SemEvalワークショップフレームワーク
SemEval/Senseval評価ワークショップのフレームワークは、ARPA(Advanced Research Projects Agency、国防高等研究計画庁(DARPA)に名称変更)が実施しているメッセージ理解会議(Message Understanding Conferences, MUC)などの評価ワークショップを模している。
- 最初に、参加者と思われる全員にエクササイズのデザインに興味を示し、参加してもらうために招かれた。
- 最終ワークショップに向けた予定が立てられた。
- 評価資料の選定計画が合意された。
- 個々のタスクの「ゴールドスタンダード」が取得され、多くの場合、人間のアノテーターは、コンピューターシステムの適合率と再現率スコアを測定するためのゴールドスタンダードと見なされる。これらの「ゴールドスタンダード」は、計算システムの目標である。 WSDタスクでは、人間のアノテーターは、一連の正しいWSD回答(つまり、特定のコンテキストにおける特定の単語の正しい意味)を生成するタスクに設定された。
- 回答のないゴールドスタンダードの資料が参加者にリリースされ、参加者はプログラムを実行して、一連の回答を主催者に返した。
- その後、主催者が回答を採点し、ワークショップで採点が発表され、議論された。
Remove ads
意味評価タスク
要約
視点
Senseval-1とSenseval-2は、利用可能なコーパスと機械辞書である主要言語でのWSDシステムの評価に焦点を当てた。 Senseval-3では、語彙だけでなく、意味ロール(形式的意味論ではシータロールと呼ばれる)、論理形式の変換(一般的にフレーズや節、文の意味論は一次の論理形式で表現される)、機械翻訳における意味論解析の性能を検討している。
様々な計算意味論システムの種類がWSDのカバー範囲を超えるようになると、SensevalはSemEvalへと発展し、より多くの計算意味論システムの側面が評価されるようになった。
意味分析の問題の概要
SemEvalの評価演習は、テキストの意味分析における問題点を検討するためのメカニズムを提供する。関心のあるトピックは、形式的な計算意味論に見られる論理的な厳密さには欠けており、人間の言語理解に関連する問題の種類を特定し、特徴付けようとしている。主な目的は、コンピュータシステムを用いて人間の処理を再現することで、タスク(次節で示す)は、特定可能な問題を扱うために、個人やグループによって開発され、それが何らかの具体的な形をとるようになる。
意味分析の最初の主要な分野は、単語レベル(慣用表現を含むと考えられる)での意図した意味の識別である。これは、単語の意味の曖昧性の解消(単語には離散的な意味があり、むしろその単語がどのように使われているか、すなわち文脈によって特徴づけられるという概念から発展)である。この分野のタスクには、語彙サンプルと全単語の曖昧性の判別、複数言語(multi-lingual)と言語間(cross-lingual)の曖昧性の判別、および語彙置換が含まれており、単語感覚の識別が難しい。このため、このトピックに関連する他のタスクには、「単語感覚の誘導」や「下位カテゴリ化の獲得」、「語彙資源の評価」などがある。
意味分析の第二の主要な分野は、異なる文やテキスト要素がどのようにして組み合わされているかを理解することである。この分野のタスクには、意味的役割のラベリング、意味的関係分析、および共参照解決が含まれている。この分野の他のタスクは、時間情報処理、換喩解決、意味分析など、意味分析のより専門的な問題を見る。この分野のタスクには、情報抽出、質問回答、文書要約、機械翻訳、語彙・意味ネットワークの構築、言語モデリング、言い換え、テキストの含意の認識など多くの潜在的な応用分野があり、それぞれの分野で意味解析の類いでの貢献は、最も優れた研究課題を構成している。
たとえば、単語の意味の誘導と明確化のタスクには、3つのフェーズがある。
- トレーニングフェーズ(training phase)では、評価タスクの参加者には、多義語の単語セットのセンスインベントリを誘導するための訓練データセットを使用した。訓練データセットは、多義語の名詞/動詞とそれらが発生した文インスタンスのセットからなる。形態素解析器、Part-of-Speechタグ付け器、構文解析器などの形態素と構文の自然言語処理コンポーネント以外には、他のリソースを使用することはできなかった。
- テストフェーズ(testing phase)では、トレーニングフェーズで得られた誘導センスインベントリを用いて、曖昧性解消サブタスクのテストセットが参加者に提供された。
- 評価フェーズ(evaluation phase)では、教師、教師なしのフレームワークでテストフェーズでの回答を評価した。
WSIの教師なし評価では、Vメジャー(Rosenberg and Hirschberg, 2007)とペアFスコア(Artiles et al., 2009)の2種類の評価を考慮した。この評価は、SemEval-2007 WSIタスクの教師付き評価(Agirre and Soroa, 2007)を踏襲したものである。
SensevalおよびSemEvalタスクの概要
以下の表は、SensevalからSemEvalへのワークショップの成長を反映しており、Senseval / SemEvalワークショップ全体で評価された計算意味論の領域の概要を示している。
複数言語WSDタスクは、SemEval-2013ワークショップで導入された。 [16]このタスクは、BabelNetをセンスインベントリ(sense inventory)として用いて、複数言語シナリオにおける単語の意味不明瞭化システムを評価することを目的としている。言語間WSDや複数言語語彙置換タスクのように、固定のセンスインベントリが指定されていない類似タスクとは異なり、複数言語WSDはBabelNetをセンスインベントリとして使用する。BabelNetの開発に先立ち、SemEval-2007では中英ビットテキストを用いた対訳語彙サンプルWSD評価タスクが実施された。 [17]
言語間WSDタスクは、SemEval-2007評価ワークショップで導入され、SemEval-2013ワークショップで再提案された。 [18] WSDシステムを機械翻訳や複数言語情報検索などの他の自然言語処理(NLP)アプリケーションに簡単に統合できるようにするために、言語に依存しない知識の少ないWSDアプローチが言語間WSD評価タスクに導入された。このタスクは、並列コーパスによる英語名詞の教師なし単語センス曖昧性解消タスクであるが、古典的なWSDタスクの語彙サンプルバリアントに従い、20個の多義名詞のみに制限されている。
SemEval-2014には、言語間(cross-lingual)/複数言語(multi-lingual)のタスクが2つしかない。それぞれ(i)英語、スペイン語、ドイツ語、フランス語、オランダ語を含む言語間WSDタスクであるL2ライティングアシスタントタスクと(ii)英語とスペイン語のテキストのシステムを評価する複数言語意味テキスト類似性タスクである。
評価の領域
意味評価の主なタスクには、自然言語処理の以下の表にある領域が含まれる。この表は、学問領域の発展が進むにつれて増えると予想される。 [19]
次の表は、Senseval-1からSemEval-2014までに関与した研究分野を示している(S=Senseval、SE=SemEval、S1=Senseval-1、SE07=SemEval-2007):
意味注釈の種類
SemEvalのタスクは、多くの種類の意味注釈(Semantic Annotation)を設けており、それぞれ様々なスキーマを持っている。SemEval-2015では、主催者はタスクを達成したい意味注釈の種別に分類した。 [20] SemEvalワークショップに含まれる意味注釈の種類を次に示す。
- 意味関係の学習(Learning Semantic Relations)
- 質問応答(Question and Answering)
- 意味解析(Semantic Parsing)
- 意味分類(Semantic Taxonomy)
- 感情分析(Sentiment Analysis)
- テキストの類似性(Text Similarity)
- 時間と空間(Time and Space)
- 語義の曖昧性解消と誘導(Word Sense Disambiguation and Induction)
タスクとそのトラックの割り当ては柔軟で、タスクは独自のトラックに発展する可能性がある。
例えば、SemEval-2015でのタクソノミ評価タスクはLearning Semantic Relationsトラックに割り当てられていたが、SemEval-2016では新たにSemantic Taxonomy EnrichmentタスクとSemantic Taxonomy専用トラックが充てられた。 [21] [22]
Remove ads
参照
参考文献
外部リンク
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads