热门问题
时间线
聊天
视角

DBpedia

在線數據庫項目 来自维基百科,自由的百科全书

Remove ads

DBpediaDB乃是数据库,database的意思,也可做数据库百科全书解) 是一项从维基百科里萃取结构化内容英语structured content的项目。这些项目所得的结构化信息,也将放在互联网中公开让人取阅。[1]DBpedia允许用户查询跟维基百科相关资源之间的关系与性质,甚至也可查询从维基百科外连到其他资料组英语dataset的内容。[2]DBpedia曾被万维网创始人蒂姆·伯纳斯-李评论为世界上最有名的几个去中心化链接资料的专题之一。[3]

事实速览 开发者, 首次发布 ...
Remove ads

缘起

此项目一开始是由来自柏林自由大学以及莱比锡大学的人士所开启,并与开放链接软件英语OpenLink Software(Open Linked Software)同盟合作[4]。第一份公开可获取的资料集在2007年时发布。它是透过自由授权英语free license的方式所发布,允许他人自由利用这些资料集。

维基百科的条目大部分都是没有固定格式的文字,不过也有部分的资料是属于结构化的信息并且被镶嵌在条目中,像是信息框的表格内容(也就是默认在桌机版维基百科浏览格式,出现在条目右上角出现的字段,或是移动版维基百科的条目一开始就显示的字段。)、分类、图像、地理座标、以及外部网页链接。这些结构化的信息会在此项目案被提取出来并且将其统一的放在一个资料集里头以方便查询。

资料组

2013年9月,DBpedia发布了第3.9版的更新。[5]如同之前版本的加强,这次也新增了维基百科更多信息框的比对,同时也新增了维基数据的链接。(透过 owl:sameAs 的链接)。[5]此版的资料组描述了四百万笔实体(entities),其中有322万笔实体是在一个连贯的知识本体中进行分类,这些实体包含了832,000位人物、639,000个地景、116,000份音乐专辑、78,000部影片、18,500个视频游戏、209,000个组织、226,000个物种以及5,600种疾病。[6]。DBpedia资料集提供了最多有119个不同语言的特色标签以及资料摘要;现总共有2460万个图片链接以及2760万笔连到外部网页的链接资料、4500万笔链接到其他RDF格式的资料集、6700万笔链接到维基百科的分类页,以及4120万笔YAGO2英语YAGO (Ontology)分类的资料[6]。DBpedia项目使用资源描述框架(Resource Description Framework,简称RDF)来呈现截取的资料,目前包含了24.6亿笔的RDF triple英语RDF triple资料、4700万从英文版本维基百科上截取的资料、19.8亿则来自其他的语言版本,同时有大约4,500万的资料连往外部的资料集。[6]

从本资料集,多个页面之间传播的信息可以被截取,例如某书籍的作者资料,能够被放在关于此书或关于作者的页面中。

从维基百科截取资料其中的一个重大挑战是,相同概念可能会在信息框以及其他的模版中被用不同的参数表示,例如|birthplace=以及|placeofbirth=意义相同。在这样的情况下,查询人物出生地点就必须要在这两个参数下都有查询才能够得到完整的结果。于是,DBpedia的映对语言就被开发了出来,以帮助映对知识本体里头这些定义的异同,进而减少同义词的重叠。有鉴于维基百科中使用信息框以及其他数值非常的多元,开发以及改善映对语言的机制是以开源的方式征求大众参与[7]

Remove ads

示例

DBpedia摘取维基百科页面上的事实信息,让用户可以不用在多个维基百科条目之间浏览便找到问题的答案。查询资料的方式是利用SPARQL(像SQL查询语言)来对资源描述框架(RDF)进行查询。举例,假如你对日本少女漫画系列东京喵喵感兴趣,想要找这部漫画的绘者创作的其他作品。DBpedia结合了维基百科上东京喵喵、征海未亚这些条目,以及相关作品诸如丽佳公主以及恋きゅー英语Koi Cupid的信息。因为DBpedia把这些资料都标准化到单一的数据库里,下列查询页面存档备份,存于互联网档案馆)就能够在不需具体清楚哪一个条目有包含了哪一部分的片段信息,就能够完整的列出相关作品类型:

PREFIX dbprop: <http://dbpedia.org/property/>
PREFIX db: <http://dbpedia.org/resource/>
SELECT ?who, ?WORK, ?genre WHERE { 
 db:Tokyo_Mew_Mew dbprop:author ?who .
 ?WORK  dbprop:author ?who .
 OPTIONAL { ?WORK dbprop:genre ?genre } .
}

使用DBpedia的相关项目或组织

DBpedia广纳了人类知识不同领域,十分多元的范畴资料。这使得它自然而然成为链接众多资料集的枢纽,让外部资料集能够链接到相关的概念。[8]DBpedia的资料集是跟其他许多网络上不同的开放资料资料集在RDF的层级交互相连着。透过这些资料集,可以让应用程序丰富DBpedia的资料。截至2013年9月 (2013-09),已经有超过4500万笔在DBpedia与外部资料集之间的交互链接产生,外部资料集包含:Freebase (database)OpenCycUMBEL英语UMBELGeoNamesMusicbrainzCIA World Fact BookDBLPProject Gutenberg、DBtune JamendoEurostatUniprotBio2RDF英语Bio2RDF、以及美国普查英语US Census等资料[9][10]汤森路透公司的前导项目OpenCalais英语Calais (Reuters Product)纽约时报的链接开放资料项目、Zemanta英语Zemanta API以及DBpedia Spotlight也纳入了DBpedia的链接[11][12][13]BBC也使用DBpedia来辅助其内容组织[14][15]Faviki英语Faviki使用DBpedia进行语义标签(semantic tagging)[16]

亚马逊公司提供一串DBpedia公共资料集(Public Data Set),这可集成进亚马逊网络服务应用之中[17]

Remove ads

DBpedia Spotlight

2010年6月,来自Web Based Systems Group以及柏林自由大学的研究人员开始了一个叫做“DBpedia Spotlight”的项目,开发工具来将文字资料中使用DBpedia资源的部分加上注解。这个工具解决了过去透过DBpedia链接非结构化信息来源到开放链接资料云的问题。DBpedia Spotlight可展示已命名实体截取(named entity extraction)、包含实体侦测(entity detection)以及命名冲突化解(name resolution)(也就是消歧义(disambiguation))。此工具也能在其他信息截取(information extraction)任务中,用来进行命名实体识别(named entity recognition)。DBpedia Spotlight聚焦在多种不同用途的客制应用。不去聚焦于少部分的实体类型,此项目试图支持全部DBpedia上来自超过320个不同分类里,共约三百五十万个实体与概念。

DBpedia Spotlight可公开获取,是以一个为了测试用途而提供的网络服务,或者也可以从Apache授权Java/Scala API。DBpedia Spotlight分配也包含了一jQuery插件,此插件允许开发人员在网络上的任何一页加上注解,只要在他们的页面上增加一行文字即可[18]客户端也有Java或PHP的支持应用[19]。此工具可从其展示页(demo page)里,处理多种的英语资料[20]以及网络服务。国际化的支持部分,只要此语言有开维基百科即可支持[21]

Remove ads

参见

参考来源

外部链接

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads