トップQs
タイムライン
チャット
視点
BabelNet
多言語セマンティックネットワークの百科事典辞書 ウィキペディアから
Remove ads
BabelNetは、多言語に対応した語彙意味の知識グラフである。多くの言語における概念や固有表現を含む百科事典的辞書であり、多様な意味関係で接続されたオントロジー(概念間の関係を表す構造)としても記述される[1][2]。
BabelNetは、Wikipediaと、英語で最も広く使われる計算機語彙リソースであるWordNetを自動的にリンクして作成された。語彙数の少ない言語に対しては統計的機械翻訳を用いて語彙が補われた。さらに、自由ライセンスのWordNet、OmegaWiki 、英語版Wiktionary、Wikidata、FrameNet、VerbNetなどもリンクされている。
BabelNetでは、WordNetと同様に異なる言語の単語を同義語の集合(Babelシンセット)にまとめる。各Babelシンセットには、WordNetとWikipediaから収集された多言語の短い定義が提供される。
BabelNetは、ロベルト・ナヴィリの主導のもとに、ローマ・ラ・サピエンツァ大学の自然言語処理グループによって開発された。現在はナヴィリが設立したBabelscape社により運営されている[3]。

Remove ads
統計
2025年4月現在[update]、BabelNet(バージョン5.3)は600言語を収録している。約2,300万のシンセットと約17億の語義(言語を問わず)が収録されている。各Babelシンセットには、平均して各言語ごとに2つの同義語(語義)が含まれる。
この意味ネットワークは、WordNet由来のすべての語彙意味関係(上位語・下位語関係、部分・全体関係、反意語、同義語など)に加え、Wikipedia由来の未特定な関連関係も含む[1]。
バージョン5.3では、約6,100万枚の画像がBabelシンセットに関連付けられており、RDF形式でLemonエンコーディングも提供され、SPARQLエンドポイントを通じてアクセス可能である。267万件のシンセットにはドメインラベルが付与されている[4]。
歴史
BabelNetは2010年にバージョン1.0が開発され、以降継続的に外部リソースの統合とデータ拡充を図っている。
- 2010年7月: バージョン1.0が発表[2]
- 2014年3月: バージョン2.0が発表[5]
- 2014年12月: 初の一般公開版であるバージョン3.0公開。対応言語数:271、シンセット数:約1,378万、語義数:約1.17億
- 2015年5月: META Prize受賞
- 2017年6月: Artificial Intelligence JournalのProminent Paper Award受賞[6]
- 2018年2月: バージョン4.0公開。対応言語数を284に拡張
- 2021年2月: バージョン5.0公開。対応言語数を500に拡張
- 2022年7月: バージョン5.1公開
- 2022年11月: バージョン5.2公開。対応言語数を520に拡張
- 2023年12月: バージョン5.3公開。対応言語数を600に拡張
Remove ads
連携リソース・応用
BabelNetは、多言語自然言語処理アプリケーションに利用される。ローマ・ラ・サピエンツァ大学の自然言語処理グループおよび関連プロジェクトとの連携により、以下のツール・データセットが提供されている。
- VerbAtlas:言語非依存の動詞述語・役割リポジトリ
- InVeRo:ニューラル Semantic Role Labeling による動詞・役割生成
- Train-O-Matic:多言語語義の曖昧性解消(多言語WSD) のためのデータ自動生成手法
- MuLaN:多言語ラベル伝播を用いた WSDデータ生成
- OneSeC/SensEmBERT/ARES:Transformerベースの語義表現モデル(多言語WSD)
- Conception:人間に可読性の高いシンセット表現
- SyntagNet/SyntagRank:自由語連想・コロケーションデータおよび WSDシステム
- Babelfy:多言語WSD・エンティティ・リンキング[7]
- Wikipedia Bitaxonomy:Wikipediaページとカテゴリーのタクソノミ整合
脚注
外部リンク
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads