热门问题
时间线
聊天
视角

关联数据

在不同数据源之间创建语义关联的方法 来自维基百科,自由的百科全书

Remove ads

关联数据Linked data)在电脑科学领域,是指经过结构化处理的资料,这些资料因彼此互相关联(linked),而能透过语义查询英语Semantic query的方式变得更有用处。关联数据利用了现有的网络标准技术,例如HTTPRDFURI,其应用超出了只是为人类提供网页资讯,而是要让电脑能自动读取与理解资讯。[1][2]

万维网联盟(W3C)主席蒂姆·伯纳斯-李 ,在2006年语义网项目的笔记中,创造了“Linked Data”这个名词。[3]关联数据的愿景之一,是要让互联网成为一个全球数据库。

关联数据可以是开放资料,在这种情况下称作关联开放数据(Linked Open Data)。

译词

中国大陆译为“链接数据”[4]、“关联数据”[5],台湾译作“链结资料”[6],其他用过的译词包括“键连资料”、“资料连结”、“连结资料”、“关联资料”等[7]

原则

蒂姆·伯纳斯-李(Tim Berners-Lee)在2006年的笔记中,提出关联数据的四大原则[3]

  1. 使用URI(Uniform Resource Identifiers)来命名和识别事物。
  2. HTTP URI能用来查询、解释这些事物,并能让电脑透过这个 URI 获取背后的资料(dereference,取值)。
  3. 经由RDFSPARQL等开放标准,提供名称所识别的对象是什么的有用资讯。
  4. 在网络上发布资料时,提到其他的事物应使用他们基于 HTTP URI 的名称。

他在2009年TED大会上,重新阐述了这些原则:[8]

  1. 所有概念性的事物都应拥有一个以 HTTP 作为起始的名称。
  2. 查询 HTTP 名称应以标准格式回传关于该事物的有用资料。
  3. 透过其资料,和该事物有关系的任何其他事物,也应赋予以HTTP 作为起始的名称。

组成

关联开放数据

关联开放数据是成为开放资料的“关联数据”。[9][10][11]

蒂姆·伯纳斯-李定义了“关联开放数据”与“关联数据”的区别:

“关联开放数据”是在开放授权下发布的“关联数据”,该授权不阻碍资料能自由的再次使用。

——Tim Berners-Lee,Linked Data[3][12]

大型的“关联开放数据集”包括DBpediaWikidataWikibase和Open ICEcat。

历史

“关联开放数据”(Linking Open Data)这个术语至少从2007年2月以来就已经在使用,也就是“Linking Open Data mailing list”建立之时。[13] [14]该邮件清单是由麻省理工学院的SIMILE项目管理。[15]

关联开放数据项目

Thumb
上述图表显示了截至 2014 年 8 月,哪些关联开放数据集(Linking Open Data datasets)彼此相互链接。这是由始于 2007 年的“关联开放数据云”(Linked Open Data Cloud)项目制作的。部分资料集可能包含可免费获取但受著作权保护的资料。[16]
Thumb
与上述图表相同,但为 2017 年 2 月版,展示短短两年半内的成长情况。

W3C 语义网教育与推广小组(Semantic Web Education and Outreach group)旗下的“关联开放数据”(Linking Open Data)社群项目,目标是透过在网络上以 RDF 格式发布各种开放资料集,并在不同资料来源的资料项目间建立 RDF 链接,扩展网络成为一个资料共享平台(data commons)。2007 年 10 月,资料集包含超过二十亿个 RDF Triples英语Semantic triple,透过两百万多个 RDF 链接相互链接。[17][18] 到 2011 年 9 月,数量成长至三百一十亿个 RDF Triples,链接约五亿零四百万个 RDF 链接。2014 年发表了详细的统计分析报告。[19]

Remove ads

欧盟项目

欧盟有多个涉及关联数据的项目,包括“全天候关联开放数据”(Linked Open Data Around The Clock, LATC)项目,[20]机器可读取立法资料的 AKN4EU 项目,[21]PlanetData 项目,[22]资料与平台即服务(DaPaaS, Data-and-Platform-as-a-Service)项目,[23]以及关联开放数据 2(Linked Open Data 2, LOD2)项目。[24][25][26]资料的链接是欧盟开放资料门户英语EU Open Data Portal(EU Open Data Portal)的主要目标之一,该网站提供数千笔资料集,供任何人重复使用与链接。

知识本体

知识本体(Ontology)是数据结构的正式描述。其中较著名的知识本体包括:

  • FOAF英语FOAF(Friend of a Friend)— 描述人物、其属性与关系的本体
  • UMBEL英语UMBEL(Upper Mapping and Binding Exchange Layer) — 一个轻量级的参考结构,包含约 20,000 个主题概念类别及其关系,这些概念来自 OpenCyc,可作为外部资料的绑定类别;同时链接了 DBpedia 与 YAGO 等数据库中的约 150 万个具名实体

资料集

  • DBpedia – 自维基百科截取资料的关联开放数据集。
  • GeoNames- 全球地名及其基本资讯的关联开放数据集。
  • Wikidata维基媒体基金会于2012 年发起的结构化资料存储项目。
  • Global Research Identifier Database英语Global Research Identifier Database - 学术研究的机构的国际数据库。
  • 上海图书馆开放数据平台 – 上海图书馆建置,包含人名、姓氏、历史纪年、地理名词、机构名录、印章、避讳字等资料。
  • 链结开放资料平台 – 中央研究院数码文化中心建置,将中研院执行数码典藏项目以及各研究所制作的数码资料转换为关联数据,涵盖生物学、人类学、宗教、艺术、影音、历史等领域。
  • DILA 链结开放资料平台 - 法鼓文理学院建置,将“佛学规范数据库”内的人物与地点资料,转换为关联数据的格式。[27]

参见

参考文献

延伸阅读

外部链接

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads