热门问题
时间线
聊天
视角

关联数据

在不同数据源之间创建语义关联的方法 来自维基百科,自由的百科全书

Remove ads

链结资料Linked data)在电脑科学领域,是指经过结构化处理的资料,这些资料因彼此互相链结(linked),而能透过语意查询英语Semantic query的方式变得更有用处。链结资料利用了现有的网路标准技术,例如HTTPRDFURI,其应用超出了只是为人类提供网页资讯,而是要让电脑能自动读取与理解资讯。[1][2]

全球资讯网协会(W3C)主席蒂姆·伯纳斯-李 ,在2006年语意网计画的笔记中,创造了“Linked Data”这个名词。[3]链结资料的愿景之一,是要让网际网路成为一个全球资料库。

链结资料可以是开放资料,在这种情况下称作链结开放资料(Linked Open Data)。

译词

中国大陆译为“链接数据”[4]、“关联数据”[5],台湾译作“链结资料”[6],其他用过的译词包括“键连资料”、“资料连结”、“连结资料”、“关联资料”等[7]

原则

蒂姆·伯纳斯-李(Tim Berners-Lee)在2006年的笔记中,提出链结资料的四大原则[3]

  1. 使用URI(Uniform Resource Identifiers)来命名和辨识事物。
  2. HTTP URI能用来查询、解释这些事物,并能让电脑透过这个 URI 取得背后的资料(dereference,取值)。
  3. 经由RDFSPARQL等开放标准,提供名称所识别的对象是什么的有用资讯。
  4. 在网路上发布资料时,提到其他的事物应使用他们基于 HTTP URI 的名称。

他在2009年TED大会上,重新阐述了这些原则:[8]

  1. 所有概念性的事物都应拥有一个以 HTTP 作为起始的名称。
  2. 查询 HTTP 名称应以标准格式回传关于该事物的有用资料。
  3. 透过其资料,和该事物有关系的任何其他事物,也应赋予以HTTP 作为起始的名称。

组成

链结开放资料

链结开放资料是成为开放资料的“链结资料”。[9][10][11]

蒂姆·伯纳斯-李定义了“链结开放资料”与“链结资料”的区别:

“链结开放资料”是在开放授权下释出的“链结资料”,该授权不阻碍资料能自由的再次使用。

——Tim Berners-Lee,Linked Data[3][12]

大型的“链结开放资料集”包括DBpediaWikidataWikibase和Open ICEcat。

历史

“链结开放资料”(Linking Open Data)这个术语至少从2007年2月以来就已经在使用,也就是“Linking Open Data mailing list”建立之时。[13] [14]该邮件清单是由麻省理工学院的SIMILE计画管理。[15]

链结开放资料计画

Thumb
上述图表显示了截至 2014 年 8 月,哪些链结开放资料集(Linking Open Data datasets)彼此相互连结。这是由始于 2007 年的“链结开放资料云”(Linked Open Data Cloud)专案制作的。部分资料集可能包含可免费取得但受版权保护的资料。[16]
Thumb
与上述图表相同,但为 2017 年 2 月版,展示短短两年半内的成长情况。

W3C 语意网教育与推广小组(Semantic Web Education and Outreach group)旗下的“链结开放资料”(Linking Open Data)社群专案,目标是透过在网路上以 RDF 格式发布各种开放资料集,并在不同资料来源的资料项目间建立 RDF 连结,扩展网路成为一个资料共享平台(data commons)。2007 年 10 月,资料集包含超过二十亿个 RDF Triples英语Semantic triple,透过两百万多个 RDF 连结相互连结。[17][18] 到 2011 年 9 月,数量成长至三百一十亿个 RDF Triples,连结约五亿零四百万个 RDF 连结。2014 年发表了详细的统计分析报告。[19]

Remove ads

欧盟计画

欧盟有多个涉及链结资料的专案,包括“全天候链结开放资料”(Linked Open Data Around The Clock, LATC)专案,[20]机器可读取立法资料的 AKN4EU 专案,[21]PlanetData 专案,[22]资料与平台即服务(DaPaaS, Data-and-Platform-as-a-Service)专案,[23]以及链结开放资料 2(Linked Open Data 2, LOD2)专案。[24][25][26]资料的连结是欧盟开放资料门户英语EU Open Data Portal(EU Open Data Portal)的主要目标之一,该网站提供数千笔资料集,供任何人重复使用与连结。

知识本体

知识本体(Ontology)是资料结构的正式描述。其中较著名的知识本体包括:

  • FOAF英语FOAF(Friend of a Friend)— 描述人物、其属性与关系的本体
  • UMBEL英语UMBEL(Upper Mapping and Binding Exchange Layer) — 一个轻量级的参考结构,包含约 20,000 个主题概念类别及其关系,这些概念来自 OpenCyc,可作为外部资料的绑定类别;同时连结了 DBpedia 与 YAGO 等资料库中的约 150 万个具名实体

资料集

  • DBpedia – 自维基百科撷取资料的链结开放资料集。
  • GeoNames- 全球地名及其基本资讯的链结开放资料集。
  • Wikidata维基媒体基金会于2012 年发起的结构化资料储存专案。
  • Global Research Identifier Database英语Global Research Identifier Database - 学术研究的机构的国际资料库。
  • 上海图书馆开放数据平台 – 上海图书馆建置,包含人名、姓氏、历史纪年、地理名词、机构名录、印章、避讳字等资料。
  • 链结开放资料平台 – 中央研究院数位文化中心建置,将中研院执行数位典藏计画以及各研究所制作的数位资料转换为链结资料,涵盖生物学、人类学、宗教、艺术、影音、历史等领域。
  • DILA 链结开放资料平台 - 法鼓文理学院建置,将“佛学规范资料库”内的人物与地点资料,转换为链结资料的格式。[27]

参见

参考文献

延伸阅读

外部链接

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads