상위 질문
타임라인
채팅
관점

메타데이터

데이터에 대한 데이터 위키백과, 무료 백과사전

메타데이터
Remove ads

메타데이터(metadata) 또는 메타정보(metainformation)는 "다른 자료에 대한 정보를 제공하는 데이터"[1]를 의미하지만, 메시지의 텍스트나 이미지 자체와 같은 데이터의 내용은 아니다.[2] 다음과 같은 다양한 유형의 메타데이터가 있다.

  • 기술 메타데이터 – 리소스에 대한 설명 정보이다. 검색 및 식별에 사용된다. 제목, 요약, 저자 및 키워드와 같은 요소를 포함한다.
  • 구조 메타데이터 – 데이터 컨테이너에 대한 메타데이터이며 복합 객체가 어떻게 구성되는지 나타낸다. 예를 들어, 페이지가 장을 구성하기 위해 어떻게 정렬되는지 설명한다. 디지털 자료의 유형, 버전, 관계 및 기타 특성을 설명한다.[3]
  • 관리 메타데이터[4] – 리소스 유형, 권한, 생성 시점 및 방법과 같이 리소스를 관리하는 데 도움이 되는 정보이다.[5]
  • 참조 메타데이터통계 데이터의 내용 및 품질에 대한 정보이다.
  • 통계 메타데이터[6] – 프로세스 데이터라고도 하며, 통계 데이터를 수집, 처리 또는 생산하는 프로세스를 설명할 수 있다.[7]
  • 법률 메타데이터 – 제공된 경우 작성자, 저작권 소유자 및 공개 라이선스에 대한 정보를 제공한다.
Thumb
21세기에는 메타데이터가 주로 디지털 형태를 의미하지만, 전통적인 카드 목록에도 메타데이터가 포함되어 있으며, 카드에는 도서관의 책에 대한 정보(저자, 제목, 주제 등)가 담겨 있다.
Thumb
메타데이터는 여러 계층으로 존재할 수 있다. 이 물리적인 허바륨의 버펠그라스(Cenchrus ciliaris) 기록은 표본 자체와 그에 대한 메타데이터로 구성되며, 바코드는 물리적 기록에 대한 메타데이터가 있는 디지털 기록을 가리킨다.
Thumb
그라이프스발트 대학교에서 진행된 공동 정원 실험의 일부(Sphagnum papillosum) 화분에 대한 메타데이터

메타데이터는 이러한 범주 중 하나에 엄격하게 묶여 있지 않으며, 다른 여러 방식으로 데이터 조각을 설명할 수 있다.

Remove ads

역사

메타데이터는 다양한 목적을 가지고 있다. 사용자가 관련 정보를 찾고 리소스를 발견하는 데 도움이 될 수 있다. 또한 전자 리소스를 조직하고, 디지털 식별을 제공하며, 리소스를 보존하고 보관하는 데 도움이 될 수 있다. 메타데이터는 "관련 기준을 통해 리소스를 찾고, 리소스를 식별하며, 유사한 리소스를 함께 모으고, 다른 리소스를 구별하며, 위치 정보를 제공"하여 사용자가 리소스에 접근할 수 있도록 한다.[8] 통신 활동(예: 인터넷 트래픽)의 메타데이터는 다양한 국가 정부 기관에서 매우 광범위하게 수집된다. 이 데이터는 트래픽 분석 목적으로 사용되며 대중감시에 사용될 수 있다.[9]

메타데이터는 1980년대까지 도서관카드 목록에서 전통적으로 사용되다가 도서관들이 목록 데이터를 디지털 데이터베이스로 변환하기 시작했다.[10] 2000년대에는 데이터와 정보가 점차 디지털로 저장되면서 이 디지털 데이터는 메타데이터 표준을 사용하여 설명되었다.[11]

컴퓨터 시스템을 위한 "메타 데이터"에 대한 첫 번째 설명은 MIT 국제학 연구센터의 전문가 데이비드 그리펠(David Griffel)과 스튜어트 매킨토시(Stuart McIntosh)가 1967년에 기록한 것으로 알려져 있다. "요약하면, 우리는 데이터와 데이터 토큰 코드의 주제 설명에 대한 객체 언어로 된 문장을 가지고 있다. 또한 데이터 관계 및 변환, 규범과 데이터 간의 ought/is 관계를 설명하는 메타 언어로 된 문장을 가지고 있다."[12]

서로 다른 분야(박물관 소장품, 디지털 오디오 파일, 웹사이트 등)에는 고유한 메타데이터 표준이 존재한다. 데이터 또는 데이터 파일의 내용과 컨텍스트를 설명하는 것은 유용성을 증가시킨다. 예를 들어, 웹 페이지는 페이지가 작성된 소프트웨어 언어(예: HTML), 페이지를 만드는 데 사용된 도구, 페이지가 다루는 주제, 주제에 대한 추가 정보를 찾을 수 있는 위치를 지정하는 메타데이터를 포함할 수 있다. 이 메타데이터는 독자의 경험을 자동으로 개선하고 사용자가 온라인에서 웹 페이지를 더 쉽게 찾을 수 있도록 한다.[13] CD에는 디스크에 수록된 음악가, 가수, 작곡가에 대한 정보를 제공하는 메타데이터가 포함될 수 있다.

많은 국가에서 정부 기관은 이메일, 전화 통화, 웹 페이지, 비디오 트래픽, IP 연결 및 휴대폰 위치에 대한 메타데이터를 일상적으로 저장한다.[14]

Remove ads

정의

요약
관점

메타데이터는 "데이터에 대한 데이터"를 의미한다. 메타데이터는 데이터의 하나 이상의 측면에 대한 정보를 제공하는 데이터로 정의되며, 특정 데이터를 추적하고 작업하는 것을 더 쉽게 만들 수 있는 데이터에 대한 기본 정보를 요약하는 데 사용된다.[15] 몇 가지 예시는 다음과 같다.

  • 데이터 생성 수단
  • 데이터 목적
  • 생성 시각 및 날짜
  • 데이터 생성자 또는 저자
  • 데이터가 생성된 컴퓨터 망 위치
  • 사용된 기술 표준
  • 데이터 품질
  • 데이터 출처
  • 데이터를 생성하는 데 사용된 프로세스

예를 들어, 디지털 이미지에는 이미지 크기, 색 심도, 해상도, 생성 시기, 셔터 속도 및 기타 데이터를 설명하는 메타데이터가 포함될 수 있다.[16] 텍스트 문서의 메타데이터에는 문서 길이, 저자, 작성 시기 및 문서 요약 정보가 포함될 수 있다. 웹 페이지 내의 메타데이터는 페이지 내용에 대한 설명뿐만 아니라 내용과 연결된 키워드도 포함할 수 있다.[17] 이러한 링크는 종종 "메타태그"라고 불리는데, 이는 1990년대 후반까지 웹 검색 순위를 결정하는 주요 요소로 사용되었다.[17] 웹 검색에서 메타태그에 대한 의존도는 1990년대 후반 "키워드 스터핑" 때문에 감소했다.[17] 이는 메타태그가 검색 엔진을 속여 특정 웹사이트가 실제보다 검색에서 더 관련성이 높다고 생각하게 만드는 데 크게 오용되었기 때문이다.[17]

메타데이터는 데이터베이스에 저장하고 관리할 수 있으며, 종종 메타데이터 레지스트리 또는 메타데이터 저장소라고 불린다.[18] 그러나 컨텍스트와 참조 지점이 없으면 메타데이터를 단순히 보는 것만으로는 식별하기 어려울 수 있다.[19] 예를 들어, 여러 개의 13자리 숫자가 포함된 데이터베이스 자체는 계산 결과이거나 방정식  에 대입할 숫자 목록일 수 있으며, 다른 컨텍스트가 없으면 숫자 자체가 데이터로 인식될 수 있다. 그러나 이 데이터베이스가 책 수집의 로그라는 컨텍스트가 주어지면, 이 13자리 숫자는 이제 책을 참조하지만 책 자체의 정보는 아닌 정보인 국제표준도서번호  로 식별될 수 있다. "메타데이터"라는 용어는 1968년 필립 배글리(Philip Bagley)가 자신의 저서 "프로그래밍 언어 개념의 확장(Extension of Programming Language Concepts)"에서 이 용어를 ISO 11179 "전통적인" 의미, 즉 "구조적 메타데이터", 즉 "데이터 컨테이너에 대한 데이터"로 사용하고 있음을 분명히 하는 반면, "개별 데이터 내용 인스턴스에 대한 내용" 또는 메타콘텐츠(도서관 목록에서 일반적으로 발견되는 데이터 유형)의 대안적 의미로 사용하지 않고 있다.[20][21] 이후 정보 관리, 정보과학, 정보 기술, 사서직 및 GIS 분야에서 이 용어를 널리 채택했다. 이 분야에서 메타데이터라는 단어는 "데이터에 대한 데이터"로 정의된다.[22] 이는 일반적으로 받아들여지는 정의이지만, 다양한 분야에서는 이 용어에 대한 자체의 보다 구체적인 설명과 사용법을 채택하고 있다.

슬레이트 (잡지)는 2013년에 미국 정부의 "메타데이터" 해석이 광범위할 수 있으며, 이메일 제목 줄과 같은 메시지 내용도 포함될 수 있다고 보도했다.[23]

Remove ads

유형

요약
관점

메타데이터 응용 프로그램은 다양한 분야를 다루며 여러 가지가 있지만, 메타데이터 유형을 지정하는 전문적이고 널리 받아들여지는 모델이 있다. 브레더턴과 싱글리(Singley, 1994)는 구조/제어 메타데이터와 가이드 메타데이터라는 두 가지 뚜렷한 클래스를 구별한다.[24] 구조 메타데이터는 테이블, 열, 키 및 인덱스와 같은 데이터베이스 객체의 구조를 설명한다. 가이드 메타데이터는 사람이 특정 항목을 찾는 데 도움이 되며, 일반적으로 자연어의 키워드 집합으로 표현된다. 랄프 킴볼에 따르면, 메타데이터는 기술 메타데이터(또는 내부 메타데이터), 비즈니스 메타데이터(또는 외부 메타데이터), 그리고 프로세스 메타데이터의 세 가지 범주로 나눌 수 있다.

NISO는 기술, 구조 및 관리 세 가지 유형의 메타데이터를 구분한다.[22] 기술 메타데이터는 일반적으로 발견 및 식별을 위해 사용되며, 객체를 검색하고 찾는 정보로, 제목, 저자, 주제, 키워드 및 게시자 등이 있다. 구조 메타데이터는 객체의 구성 요소가 어떻게 조직되는지 설명한다. 구조 메타데이터의 예로는 책의 장을 구성하기 위해 페이지가 어떻게 정렬되는지가 있다. 마지막으로, 관리 메타데이터는 소스를 관리하는 데 도움이 되는 정보를 제공한다. 관리 메타데이터는 파일 유형 또는 파일이 생성된 시점과 방법과 같은 기술 정보를 참조한다. 관리 메타데이터의 두 가지 하위 유형은 권한 관리 메타데이터와 보존 메타데이터이다. 권한 관리 메타데이터는 지식재산권을 설명하며, 보존 메타데이터는 리소스를 보존하고 저장하는 정보를 포함한다.[8]

통계 데이터 저장소는 데이터의 출처와 품질뿐만 아니라[6] 데이터를 생성하는 데 사용된 통계 프로세스도 설명하기 위한 자체 메타데이터 요구 사항을 가지고 있다. 이는 통계 데이터 생산 프로세스를 검증하고 개선하기 위해 통계 커뮤니티에 특히 중요하다.[7]

추가적으로 개발되고 있는 메타데이터 유형은 접근성 메타데이터이다. 접근성 메타데이터는 도서관에 새로운 개념은 아니지만, 보편적 설계의 발전으로 그 중요성이 부각되었다.[25]:213–214 Cloud4All 및 GPII와 같은 프로젝트는 보편적 접근성 솔루션을 제공하는 데 있어서 사용자 요구 사항 및 선호도와 이러한 요구 사항에 맞는 정보를 설명하는 공통 용어 및 모델의 부족을 주요 간극으로 식별했다.[25]:210–211 이러한 정보 유형이 접근성 메타데이터이다.[25]:214 Schema.org는 IMS Global Access for All Information Model Data Element Specification을 기반으로 여러 접근성 속성을 통합했다.[25]:214 위키 페이지 WebSchemas/Accessibility에는 여러 속성과 그 값이 나열되어 있다. 정보 탐색자의 다양한 접근성 요구 사항을 설명하고 표준화하려는 노력이 더욱 활발해지기 시작했지만, 확립된 메타데이터 스키마에 대한 채택은 그만큼 개발되지 않았다. 예를 들어, 더블린 코어(DC)의 "대상"과 MARC 21의 "읽기 수준"은 난독증 사용자를 위한 적합한 리소스를 식별하는 데 사용될 수 있고, DC의 "형식"은 점자, 오디오 또는 큰 글씨 형식으로 제공되는 리소스를 식별하는 데 사용될 수 있지만, 더 많은 작업이 필요하다.[25]:214

구조

요약
관점

메타데이터(메타콘텐츠) 또는 더 정확하게는 메타데이터(메타콘텐츠) 문장을 구성하는 데 사용되는 어휘는 일반적으로 메타데이터 표준메타데이터 모델을 포함하는 잘 정의된 메타데이터 스키마를 사용하여 표준화된 개념에 따라 구조화된다. 통제 어휘집, 분류법, 시소러스, 데이터 사전, 메타데이터 레지스트리와 같은 도구를 사용하여 메타데이터에 추가 표준화를 적용할 수 있다. 구조적 메타데이터 공통성은 데이터 모델 개발 및 데이터베이스 설계에서도 가장 중요하다.

구문

메타데이터(메타콘텐츠) 구문은 메타데이터(메타콘텐츠)의 필드 또는 요소를 구조화하기 위해 생성된 규칙을 의미한다.[26] 단일 메타데이터 스키마는 여러 다른 마크업 또는 프로그래밍 언어로 표현될 수 있으며, 각 언어는 다른 구문을 요구한다. 예를 들어, 더블린 코어는 일반 텍스트, HTML, XML, RDF로 표현될 수 있다.[27]

(가이드) 메타콘텐츠의 일반적인 예는 서지 분류, 주제, 듀이 십진분류 번호이다. 어떤 객체의 "분류"에는 항상 암시적인 진술이 있다. 예를 들어, 듀이 분류 번호 514(위상수학)로 객체를 분류하는 경우(즉, 책등에 514번이 있는 책) 암시적인 진술은 "<book><subject heading><514>"이다. 이것은 주어-술어-객체 삼중항, 또는 더 중요하게는 클래스-속성-값 삼중항이다. 삼중항의 처음 두 요소(클래스, 속성)는 정의된 의미를 가진 구조적 메타데이터 조각이다. 세 번째 요소는 값이며, 바람직하게는 특정 통제 어휘집, 특정 참조(마스터) 데이터에서 가져온다. 메타데이터와 마스터 데이터 요소의 조합은 메타콘텐츠 진술, 즉 "메타콘텐츠 = 메타데이터 + 마스터 데이터"인 진술을 생성한다. 이러한 모든 요소는 "어휘"로 생각할 수 있다. 메타데이터와 마스터 데이터 모두 메타콘텐츠 진술로 조립될 수 있는 어휘이다. 이러한 어휘(메타 및 마스터 데이터 모두)의 출처는 UML, EDIFACT, XSD, Dewey/UDC/LoC, SKOS, ISO-25964, Pantone, Linnaean Binomial Nomenclature 등 다양하다. 인덱싱 또는 찾기를 위해 메타콘텐츠 진술의 구성 요소에 통제 어휘집을 사용하는 것은 ISO 25964에서 승인한다. "인덱서와 검색자 모두 같은 개념에 대해 같은 용어를 선택하도록 유도되면 관련 문서가 검색될 것이다."[28] 이는 구글과 같은 인터넷 검색 엔진을 고려할 때 특히 관련성이 있다. 이 프로세스는 페이지를 인덱싱한 다음 복잡한 알고리즘을 사용하여 텍스트 문자열을 일치시킨다. 지능이나 "추론"은 발생하지 않고 단지 그 환상만 있다.

계층적, 선형적, 평면적 스키마

메타데이터 스키마는 계층적일 수 있으며, 이 경우 메타데이터 요소 사이에 관계가 존재하고 요소가 중첩되어 부모-자식 관계가 형성된다. 계층적 메타데이터 스키마의 예로는 메타데이터 요소가 부모 메타데이터 요소에 속할 수 있는 IEEE LOM 스키마가 있다. 메타데이터 스키마는 또한 일차원적 또는 선형적일 수 있으며, 이 경우 각 요소는 다른 요소와 완전히 분리되어 한 가지 차원에 따라 분류된다. 선형적 메타데이터 스키마의 예로는 일차원적인 더블린 코어 스키마가 있다. 메타데이터 스키마는 종종 2차원적 또는 평면적이며, 이 경우 각 요소는 다른 요소와 완전히 분리되어 있지만 2개의 직교 차원에 따라 분류된다.[29]

세분성

데이터 또는 메타데이터가 구조화되는 정도를 "세분성"이라고 한다. "세분성"은 제공되는 세부 정보의 양을 나타낸다. 세분성이 높은 메타데이터는 더 깊고 상세하며 구조화된 정보를 제공하며 더 높은 수준의 기술 조작을 가능하게 한다. 세분성 수준이 낮다는 것은 메타데이터를 훨씬 적은 비용으로 생성할 수 있지만, 상세한 정보를 제공하지는 못한다는 것을 의미한다. 세분성의 주요 영향은 생성 및 캡처뿐만 아니라 유지 관리 비용에도 있다. 메타데이터 구조가 오래되면 참조된 데이터에 대한 접근도 마찬가지이다. 따라서 세분성은 메타데이터 생성 노력뿐만 아니라 유지 관리 노력도 고려해야 한다.

하이퍼매핑

메타데이터 스키마가 평면적 묘사를 초과하는 모든 경우, 선택한 측면에 따라 메타데이터를 표시하고 볼 수 있도록 하고 특별한 뷰를 제공하기 위해 특정 유형의 하이퍼매핑이 필요하다. 하이퍼매핑은 지리 및 지질 정보 오버레이의 계층화에 자주 적용된다.[30]

Remove ads

표준

요약
관점

국제 표준이 메타데이터에 적용된다. 특히 ANSIISO와 같은 국내 및 국제 표준 커뮤니티에서 메타데이터 및 레지스트리 표준화에 대한 합의를 이루기 위해 많은 노력이 이루어지고 있다. 핵심 메타데이터 레지스트리 표준은 ISO/IEC 11179 메타데이터 레지스트리(MDR)이며, 표준 프레임워크는 ISO/IEC 11179-1:2004에 설명되어 있다.[31] Part 1의 새 버전은 2015년 또는 2016년 초에 최종 출판될 예정이다. 이는 Part 3인 ISO/IEC 11179-3:2013[32]의 현재 버전과 일치하도록 개정되었으며, MDR을 확장하여 개념 시스템 등록을 지원한다. (ISO/IEC 11179 참조). 이 표준은 인간과 컴퓨터가 명확하게 사용할 수 있도록 데이터의 의미와 기술적 구조를 기록하기 위한 스키마를 지정한다. ISO/IEC 11179 표준은 메타데이터를 데이터에 대한 정보 객체, 즉 "데이터에 대한 데이터"라고 지칭한다. ISO/IEC 11179 Part-3에서 정보 객체는 데이터 요소, 값 도메인, 그리고 데이터 항목의 의미와 기술적 세부 사항을 설명하는 기타 재사용 가능한 의미 및 표현 정보 객체에 대한 데이터이다. 이 표준은 또한 메타데이터 레지스트리에 대한 세부 사항과 메타데이터 레지스트리 내의 정보 객체를 등록하고 관리하기 위한 세부 사항을 규정한다. ISO/IEC 11179 Part 3는 또한 다른 데이터 요소에서 파생된 복합 구조, 예를 들어 계산, 하나 이상의 데이터 요소 모음 또는 기타 형태의 파생 데이터를 설명하기 위한 조항을 가지고 있다. 이 표준은 원래 "데이터 요소" 레지스트리로 스스로를 설명하지만, 그 목적은 특정 응용 프로그램과 독립적으로 메타데이터 콘텐츠를 설명하고 등록하는 것을 지원하여, 등록된 메타데이터 콘텐츠에 따라 새로운 응용 프로그램, 데이터베이스를 개발하거나 데이터를 분석하는 데 인간 또는 컴퓨터가 설명을 발견하고 재사용할 수 있도록 하는 것이다. 이 표준은 표준의 등록 및 관리 부분을 재사용하고 확장하여 다른 종류의 메타데이터 레지스트리의 일반적인 기반이 되었다.

지리 공간 커뮤니티는 특히 지도 및 이미지 라이브러리 및 카탈로그의 전통을 기반으로 한 전문 지리 공간 메타데이터 표준을 가지고 있다. 일반적인 텍스트 처리 접근 방식이 적용되지 않으므로 공식 메타데이터는 지리 공간 데이터에 필수적이다.

더블린 코어 메타데이터 용어는 발견 목적으로 리소스를 설명하는 데 사용할 수 있는 어휘 용어 집합이다. 더블린 코어 메타데이터 요소 집합으로 알려진 15개의 고전적인[33] 메타데이터 용어의 원래 집합은 다음 표준 문서에서 승인되었다.

W3C 데이터 카탈로그 어휘(DCAT)[37]는 더블린 코어를 데이터셋, 데이터 서비스, 카탈로그 및 카탈로그 레코드 클래스로 보완하는 RDF 어휘이다. DCAT는 FOAF, PROV-O 및 OWL-Time의 요소도 사용한다. DCAT는 레코드를 포함하는 카탈로그의 일반적인 구조를 지원하는 RDF 모델을 제공하며, 각 레코드는 데이터셋 또는 서비스를 설명한다.

표준은 아니지만, 마이크로포맷 (아래 인터넷 상의 메타데이터 섹션에서도 언급됨)은 웹 기반의 시맨틱 마크업 접근 방식으로, 기존 HTML/XHTML 태그를 재사용하여 메타데이터를 전달하려 한다. 마이크로포맷은 XHTML 및 HTML 표준을 따르지만 그 자체로 표준은 아니다. 마이크로포맷의 옹호자 중 한 명인 탄텍 첼릭은 대안적 접근 방식의 문제점을 다음과 같이 특징지었다.

여기에 우리가 당신에게 배우기를 원하는 새로운 언어가 있고, 이제 당신은 당신의 서버에 이 추가 파일을 출력해야 한다. 이것은 번거롭다. (마이크로포맷은) 진입 장벽을 낮춘다.[38]
Remove ads

사용

요약
관점

파일 메타데이터

가장 일반적인 유형의 컴퓨터 파일은 문서(예: 마이크로소프트 오피스 파일, 오픈도큐먼트 파일, PDF), 이미지(예: JPEG, PNG), 비디오 파일(예: AVI, MP4), 오디오 파일(예: WAV, MP3)을 포함하여 메타데이터를 임베드할 수 있다.

메타데이터는 사용자가 파일에 추가할 수 있지만, 일부 메타데이터는 사용자 개입 없이 작성 응용 프로그램이나 파일을 생성하는 데 사용되는 장치에 의해 파일에 자동으로 추가되는 경우가 많다.

파일 내의 메타데이터는 파일을 찾는 데 유용하지만, 파일을 공유할 때 프라이버시 위험이 될 수 있다. 파일을 공유하기 전에 메타데이터 제거 도구를 사용하여 파일을 정리하면 이러한 위험을 완화할 수 있다.

사진

메타데이터는 디지털 사진 파일에 기록될 수 있으며, 이 메타데이터는 소유자, 저작권 및 연락처 정보, 파일을 생성한 카메라 브랜드 또는 모델, 노출 정보(셔터 속도, 조리개 등) 및 사진에 대한 키워드와 같은 설명 정보를 식별하여 컴퓨터 및 인터넷에서 파일을 검색할 수 있도록 한다. 일부 메타데이터는 색 공간, 색 채널, 노출 시간 및 조리개(EXIF)와 같은 카메라에 의해 생성되는 반면, 일부는 사진 작가 및 소프트웨어에 의해 컴퓨터로 다운로드된 후 입력된다.[39] 대부분의 디지털 카메라 모델 번호, 셔터 속도 등에 대한 메타데이터를 기록하며, 일부는 편집할 수 있도록 한다.[40] 이 기능은 니콘 D3 이후 대부분의 니콘 DSLR, 캐논 EOS 7D 이후 대부분의 새로운 캐논 카메라, 펜탁스 K-3 이후 대부분의 펜탁스 DSLR에서 사용 가능했다. 메타데이터는 키워드 사용을 통해 후반 작업에서 구성을 더 쉽게 만드는 데 사용될 수 있다. 필터는 특정 사진 세트를 분석하고 평점 또는 촬영 시간과 같은 기준에 따라 선택 항목을 생성하는 데 사용될 수 있다. GPS와 같은 지리적 위치 기능이 있는 장치(특히 스마트폰)에서는 사진이 촬영된 위치도 포함될 수 있다.

사진 메타데이터 표준은 다음 표준을 개발하는 조직에 의해 관리된다. 여기에는 다음이 포함되지만 이에 국한되지는 않는다.

  • IPTC 정보 교환 모델 IIM (국제 보도 통신 위원회)
  • IPTC XMP용 코어 스키마
  • XMP – Extensible Metadata Platform (ISO 표준)
  • Exif – Exchangeable image file format, CIPA (카메라 및 이미지 제품 협회)에서 유지 관리하고 JEITA (일본 전자 정보 기술 산업 협회)에서 발행
  • 더블린 코어 (더블린 코어 메타데이터 이니셔티브 – DCMI)
  • PLUS (Picture Licensing Universal System)
  • VRA Core (시각 자료 협회)[41]
  • JPEG 또는 JPG는 Joint Photographic Experts Group의 약자이다.

비디오

메타데이터는 비디오에서 특히 유용하다. 비디오의 내용에 대한 정보(예: 대화 녹취록 및 장면의 텍스트 설명)는 컴퓨터가 직접 이해할 수 없지만, 내용의 효율적인 검색이 바람직한 경우에 유용하다. 이는 자동 번호판 인식 및 차량 인식 식별 소프트웨어와 같은 비디오 응용 프로그램에서 특히 유용하며, 라이선스 플레이트 데이터가 저장되고 보고서 및 경고를 생성하는 데 사용된다.[42] 비디오 메타데이터는 (1) 운영적으로 수집된 메타데이터(생성된 콘텐츠에 대한 정보, 예: 장비 유형, 소프트웨어, 날짜, 위치)와 (2) 사람이 작성한 메타데이터(검색 엔진 가시성, 검색 가능성, 시청자 참여도 향상, 비디오 게시자에게 광고 기회 제공)의 두 가지 출처에서 파생된다.[43] Avid의 MetaSync와 Adobe의 Bridge는 메타데이터에 접근할 수 있는 전문 비디오 편집 소프트웨어의 예시이다.[44]

전기 통신

전화 통화, 전자 메시지, 인스턴트 메시지 및 기타 통신 방식의 시간, 발신지 및 수신지에 대한 정보는 메시지 내용과 달리 또 다른 형태의 메타데이터이다. 에드워드 스노든NSA와 같은 특정 정보 기관이 수백만 명의 인터넷 사용자에 대한 온라인 메타데이터를 최대 1년 동안 보관하고 있었다(그리고 여전히 보관하고 있을 수도 있음)는 사실을 폭로한 후, 이러한 통화 상세 기록 메타데이터의 대량 수집은 논란을 불러일으켰다.

지리 공간 메타데이터

지리 공간 메타데이터는 지리 정보 시스템(GIS) 파일, 지도, 이미지 및 위치 기반의 다른 데이터와 관련된다. 메타데이터는 GIS에서 데이터베이스 파일 및 GIS 내에서 개발된 데이터와 같은 지리 데이터의 특성과 속성을 문서화하는 데 사용된다. 여기에는 데이터를 개발한 사람, 수집 시기, 처리 방법, 사용 가능한 형식과 같은 세부 정보가 포함되며, 데이터가 효과적으로 사용될 수 있도록 컨텍스트를 제공한다.[45]

Remove ads

생성

요약
관점

메타데이터는 자동화된 정보 처리 또는 수동 작업으로 생성될 수 있다. 컴퓨터가 캡처하는 기본 메타데이터에는 객체 생성 시점, 생성자, 최종 업데이트 시점, 파일 크기 및 파일 확장자에 대한 정보가 포함될 수 있다. 이 맥락에서 객체는 다음 중 하나를 의미한다.

  • 책, CD, DVD, 종이 지도, 의자, 테이블, 화분 등 물리적 항목
  • 디지털 이미지, 디지털 사진, 전자 문서, 프로그램 파일, 데이터베이스 테이블 등 전자 파일

메타데이터 엔진은 특정 도메인 내에서 사용되는 데이터 및 메타데이터에 대한 정보를 수집, 저장 및 분석한다.[46]

데이터 가상화

데이터 가상화는 2000년대에 기업에서 가상화 "스택"을 완성하는 새로운 소프트웨어 기술로 등장했다. 메타데이터는 데이터베이스 및 애플리케이션 서버와 함께 기업 인프라 구성 요소인 데이터 가상화 서버에서 사용된다. 이 서버의 메타데이터는 영구 저장소로 저장되며 다양한 기업 시스템 및 애플리케이션의 비즈니스 객체를 설명한다. 구조적 메타데이터 공통성은 데이터 가상화를 지원하는 데에도 중요하다.

통계 및 인구 조사 서비스

표준화 및 조화 작업은 통계 커뮤니티에서 메타데이터 시스템을 구축하려는 산업 노력에 이점을 가져왔다.[47][48] 유럽 통계 실천 규범[49] 및 ISO 17369:2013(통계 데이터 및 메타데이터 교환 또는 SDMX)[47]과 같은 여러 메타데이터 지침 및 표준은 기업, 정부 기관 및 기타 기관이 통계 데이터 및 메타데이터를 관리해야 하는 방법에 대한 주요 원칙을 제공한다. 유로스타트,[50] 유럽 중앙은행 제도,[50]미국 환경보호청[51]과 같은 기관은 "통계 비즈니스 프로세스 관리 효율성"을 개선하기 위해 이러한 표준 및 지침을 구현했다.[50]

문헌정보학

메타데이터는 도서관에서 디지털 및 아날로그 형식으로 항목을 목록화하는 수단으로 다양하게 사용되어 왔다. 이러한 데이터는 특정 책, DVD, 잡지 또는 도서관이 소장할 수 있는 모든 객체를 분류, 집계, 식별 및 찾는 데 도움이 된다.[52] 1980년대까지 많은 도서관 목록은 3x5인치 카드에 책 제목, 저자, 주제 및 도서관 선반 내 책의 실제 위치를 나타내는 약식 영숫자 문자열(청구기호)을 표시했다. 도서관에서 자료를 주제별로 분류하는 데 사용하는 듀이 십진분류법은 메타데이터 사용의 초기 예이다. 초기 종이 목록에는 해당 카드에 설명된 각 항목에 대한 정보가 있었다. 즉, 제목, 저자, 주제, 그리고 해당 항목을 찾을 수 있는 번호였다.[53] 1980년대와 1990년대 초부터 많은 도서관들은 이러한 종이 파일 카드를 컴퓨터 데이터베이스로 대체했다. 이러한 컴퓨터 데이터베이스는 사용자가 키워드 검색을 훨씬 쉽고 빠르게 할 수 있게 해준다. 오래된 메타데이터 수집의 또 다른 형태는 미국 인구조사국이 "롱 폼(Long Form)"이라고 알려진 것을 사용하는 것이다. 롱 폼은 인구 통계 데이터를 생성하여 분포 패턴을 찾기 위해 사용되는 질문을 한다.[54] 도서관도서 목록에 메타데이터를 사용하며, 가장 일반적으로 도서관 통합 관리 시스템의 일부로 사용한다. 메타데이터는 책, 정기 간행물, DVD, 웹 페이지 또는 디지털 이미지와 같은 리소스를 목록화하여 얻어진다. 이 데이터는 MARC 메타데이터 표준을 사용하여 ILMS에 저장된다. 목적은 이용자를 찾는 항목이나 영역의 물리적 또는 전자적 위치로 안내하고, 해당 항목에 대한 설명을 제공하는 것이다.

최근의 전문화된 도서관 메타데이터 사례로는 전자 자료 저장소와 디지털 이미지 라이브러리를 포함한 전자 도서관의 구축이 있다. 비록 도서관 원칙에 기반을 두고 있지만, 사서가 아닌 사용에 중점을 두어, 특히 메타데이터 제공에 있어서 전통적 또는 일반적인 목록화 접근 방식을 따르지 않는다. 포함된 자료의 맞춤형 특성으로 인해 분류학적 분류 필드, 위치 필드, 키워드 또는 저작권 진술과 같은 메타데이터 필드가 종종 특별히 생성된다. 파일 크기 및 형식과 같은 표준 파일 정보는 일반적으로 자동으로 포함된다.[55] 도서관 운영은 수십 년 동안 표준화를 향한 노력에서 핵심적인 주제였다. 디지털 도서관의 메타데이터 표준에는 더블린 코어, METS, MODS, DDI, DOI, URN, PREMIS 스키마, EML, OAI-PMH가 포함된다. 세계 유수의 도서관들은 메타데이터 표준 전략에 대한 힌트를 제공한다.[56][57] 문헌정보학 분야에서 메타데이터의 사용 및 생성은 과학 출판물도 포함한다.

과학

FAIR 데이터영구 식별자에 대한 소개

과학 출판물에 대한 메타데이터는 종종 학술지 출판사 및 펍메드Web of Science와 같은 인용 데이터베이스에서 생성된다. 원고 또는 보충 자료로 함께 제공되는 데이터는 메타데이터 생성의 대상이 되는 경우가 적지만,[58][59] 출판 후 생물의학 데이터베이스 등에 제출될 수 있다. 그런 다음 원래 저자와 데이터베이스 큐레이터는 자동화된 프로세스의 도움을 받아 메타데이터 생성에 대한 책임이 있다. 모든 실험 데이터에 대한 포괄적인 메타데이터는 FAIR 원칙의 기초이며, 이는 연구 데이터가 검색 가능하고, 접근 가능하며, 상호 운용 가능하고, 재사용 가능하도록 보장하는 표준이다.[60]

이러한 메타데이터는 유용하게 활용, 보완 및 접근 가능하게 만들 수 있다. OpenAlex는 2억 개 이상의 과학 문서를 무료로 색인하는 온라인 데이터베이스로, 출처, 인용, 저자 정보, 학술 분야, 연구 주제와 같은 메타데이터를 통합하여 제공한다. 이 데이터베이스의 API 및 오픈 소스 웹사이트는 메타과학, 과학계량학, 그리고 이 시맨틱 웹 학술 논문을 쿼리하는 새로운 도구에 사용될 수 있다.[61][62][63] 개발 중인 또 다른 프로젝트인 Scholia는 과학 출판물의 메타데이터를 사용하여 다양한 시각화 및 집계 기능을 제공한다. 예를 들어, 위키데이터의 "주요 주제" 속성을 사용하여 SARS-CoV-2 바이러스의 특정 특징에 대한 문헌을 요약하는 간단한 사용자 인터페이스를 제공한다.[64]

연구 노동에서 저자의 저작물에 대한 투명한 메타데이터가 제안되었다. 예를 들어 논문 작성에서 수행된 역할, 기여 수준 및 책임 등이다.[65][66]

또한 과학적 결과물에 대한 다양한 메타데이터를 생성하거나 보완할 수 있다. 예를 들어, 일부 조직은 연구를 '지지', '언급' 또는 '대조'하는 논문의 인용을 추적하고 연결하려고 시도한다.[67] 다른 예로는 대안적 지표의 개발이 있는데,[68] 이는 평가 및 검색 가능성을 돕는 것 외에도 레딧과 같은 소셜 미디어에서의 과학 논문에 대한 대중 토론, 위키백과 인용, 뉴스 미디어의 연구 보고서 등 많은 정보를 집계한다.[69] 그리고 원래의 연구 결과가 확인되거나 재현될 수 있는지 여부를 보여줄 것을 요구한다.[70][71]

박물관

박물관 맥락에서의 메타데이터는 훈련된 문화 문서 전문가(기록물관리사, 사서, 박물관 등록관, 학예사 등)가 예술 작품, 건축, 문화재 및 그 이미지를 색인, 구조화, 설명, 식별하거나 달리 지정하기 위해 생성하는 정보이다.[72][73][74] 기술 메타데이터는 객체 식별 및 자원 회수 목적으로 박물관 맥락에서 가장 일반적으로 사용된다.[73]

사용법

메타데이터는 수집 기관 및 박물관 내에서 개발 및 적용되어 다음을 수행한다.

  • 자원 발견을 용이하게 하고 검색 쿼리를 실행한다.[74]
  • 박물관 소장품 및 문화재의 다양한 측면과 관련된 정보를 저장하는 디지털 아카이브를 생성하고, 보존 및 관리 목적으로 사용한다.[74]
  • 디지털 콘텐츠를 온라인으로 게시하여 대중이 문화재에 접근할 수 있도록 한다.[73][74]

표준

많은 박물관 및 문화유산 센터는 예술 작품 및 문화재의 다양성을 고려할 때, 단일 모델이나 표준으로는 문화 작품을 설명하고 목록화하기에 불충분하다는 것을 인정한다.[72][73][74] 예를 들어, 조각된 원주민 유물은 예술 작품, 고고학 유물 또는 원주민 유산 항목으로 분류될 수 있다. 박물관 커뮤니티 내 아카이빙, 설명 및 목록화 표준화의 초기 단계는 1990년대 후반에 예술 작품 기술 범주 (CDWA), Spectrum, CIDOC 개념 참조 모델 (CRM), Cataloging Cultural Objects (CCO) 및 CDWA Lite XML 스키마와 같은 표준 개발과 함께 시작되었다.[73] 이러한 표준은 기계 처리, 출판 및 구현을 위해 HTMLXML 마크업 언어를 사용한다.[73] 원래 책을 특성화하기 위해 개발된 영미 목록 작성 규칙 (AACR)도 문화재, 예술 작품 및 건축물에 적용되었다.[74] CCO와 같은 표준은 박물관의 소장품 관리 시스템 (CMS) 내에 통합되어 있으며, 박물관은 이 시스템을 통해 소장품, 취득, 대여 및 보존을 관리할 수 있다.[74] 이 분야의 학자와 전문가들은 "빠르게 진화하는 표준 및 기술 환경"이 문화 문서 담당자, 특히 비기술적으로 훈련된 전문가에게 어려움을 야기한다고 언급한다.[75] 대부분의 수집 기관 및 박물관은 관계형 데이터베이스를 사용하여 문화 작품과 그 이미지를 분류한다.[74] 관계형 데이터베이스 및 메타데이터는 문화재 및 다면적인 예술 작품 간의 복잡한 관계뿐만 아니라 객체와 장소, 사람 및 예술 운동 간의 관계를 문서화하고 설명하는 데 사용된다.[73][74] 관계형 데이터베이스 구조는 수집 기관 및 박물관 내에서도 유익한데, 기록물관리사가 문화재와 그 이미지를 명확하게 구분할 수 있도록 하기 때문이다. 불분명한 구분은 혼란스럽고 부정확한 검색으로 이어질 수 있다.[74]

문화재

객체의 물질성, 기능 및 목적뿐만 아니라 크기(예: 높이, 너비, 무게 등 측정치), 보관 요구 사항(예: 항온항습 환경), 박물관 및 소장품의 초점은 문화 문서 전문가가 객체에 부여하는 데이터의 설명적 깊이에 영향을 미친다.[74] 확립된 기관 목록화 관행, 문화 문서 전문가의 목표 및 전문성, 데이터베이스 구조 또한 문화재에 귀속되는 정보와 문화재가 분류되는 방식에 영향을 미친다.[72][74] 또한 박물관은 종종 기록물관리사가 예술 작품 및 문화재를 설명하는 방식을 규정하고 제한하는 표준화된 상업용 소장품 관리 소프트웨어를 사용한다.[75] 또한 수집 기관 및 박물관은 통제 어휘집을 사용하여 소장품의 문화재 및 예술 작품을 설명한다.[73][74] Getty Vocabularies 및 미국 의회도서관 통제 어휘집은 박물관 커뮤니티에서 신뢰할 수 있으며 CCO 표준에서 권장된다.[74] 박물관은 소장품과 관련성이 있고 디지털 정보 시스템의 기능을 향상시키는 통제 어휘집을 사용하도록 권장된다.[73][74] 통제 어휘집은 일관성 수준이 높아 자원 검색을 개선하므로 데이터베이스에서 유익하다.[73][74] 통제 어휘집을 포함한 메타데이터 구조는 생성된 시스템의 온톨로지를 반영한다. 종종 박물관에서 메타데이터를 통해 문화재가 설명되고 분류되는 프로세스는 제작자 커뮤니티의 관점을 반영하지 않는다.[72][76]

온라인 콘텐츠

메타데이터는 박물관 내 디지털 정보 시스템 및 아카이브 생성에 중요한 역할을 했으며, 박물관이 디지털 콘텐츠를 온라인으로 게시하는 것을 더 쉽게 만들었다. 이로 인해 지리적 또는 경제적 장벽으로 인해 문화재에 접근할 수 없었던 관객들이 접근할 수 있게 되었다.[73] 2000년대에 더 많은 박물관이 아카이빙 표준을 채택하고 복잡한 데이터베이스를 생성함에 따라, 박물관, 아카이브 및 문헌정보학 커뮤니티 내에서 박물관 데이터베이스 간의 링크드 데이터에 대한 논의가 활발해졌다.[75] 소장품 관리 시스템(CMS) 및 디지털 자산 관리 도구는 로컬 또는 공유 시스템일 수 있다.[74] 디지털 인문학 학자들은 박물관 데이터베이스 및 소장품 간의 상호 운용성이 많은 이점을 제공하지만, 그러한 상호 운용성을 달성하는 데 어려움이 있음을 인정한다.[75]

법률

미국

미국법률 분쟁에서 메타데이터와 관련된 문제가 널리 퍼지고 있다. 법원은 메타데이터의 당사자별 발견 가능성을 포함하여 메타데이터와 관련된 다양한 질문을 검토해 왔다. 연방 민사 소송 규칙에는 전자적으로 저장된 정보의 디스커버리에 대한 특정 규칙이 있으며, 해당 규칙을 적용하는 후속 판례는 연방 법원에서 소송을 제기할 때 소송 당사자의 메타데이터 생성 의무를 명확히 했다.[77] 2009년 10월, 애리조나주 대법원은 메타데이터 기록이 공공 기록이라고 판결했다.[78] 문서 메타데이터는 소송에서 민감한 정보를 포함하여 특정 당사자에게 불리한 정보를 포함할 수 있는 메타데이터를 요구하는 법률 환경에서 특히 중요하다고 입증되었다. 문서 "정리" 또는 삭제를 위해 메타데이터 제거 도구를 사용하면 민감한 데이터를 무의식적으로 보내는 위험을 완화할 수 있다. 이 과정은 전자 디스커버리를 통해 민감한 데이터가 잠재적으로 유출되는 것을 법률 회사로부터 부분적으로 보호한다(데이터 잔류성 참조).

여론 조사에 따르면 미국인의 45%는 소셜 미디어 사이트가 개인 데이터를 안전하게 보호할 수 있는 능력에 대해 "전혀 확신하지 못하고" 40%는 소셜 미디어 사이트가 개인에 대한 어떠한 정보도 저장할 수 없어야 한다고 답했다. 미국인의 76%는 광고 대행사가 자신에 대해 수집하는 정보가 안전하다고 확신하지 못하며 50%는 온라인 광고 대행사가 자신에 대한 어떠한 정보도 기록할 수 없어야 한다고 답했다.[79]

오스트레일리아

오스트레일리아에서는 국가 안보 강화를 위해 새로운 메타데이터 저장 법이 도입되었다.[80] 이 새로운 법은 보안 및 경찰 기관이 개인의 메타데이터를 최대 2년 동안 접근할 수 있도록 허용하여 테러 공격 및 심각한 범죄를 예방하는 것을 더 쉽게 만드는 것을 목표로 한다.

법률

입법 메타데이터는 2010년 3월 22일과 23일에 코넬 대학교 법학대학원법률 정보 연구소가 개최한 워크숍과 같은 law.gov 포럼에서 논의의 대상이 되어 왔다. 이 포럼의 문서는 "법률 및 규정에 대한 제안된 메타데이터 관행"이라는 제목이 붙어 있다.[81]

이러한 논의를 통해 몇 가지 핵심 사항이 요약되었으며, 다음은 그 섹션 제목이다.

  • 일반적인 고려 사항
  • 문서 구조
  • 문서 내용
  • 메타데이터 (요소)
  • 계층화
  • 시점별 대 사후 처리

건강 관리

오스트레일리아의 의학 연구는 건강 관리 응용 분야에서 메타데이터의 정의를 개척했다. 이 접근 방식은 세계보건기구 (WHO) 산하의 독점 표준을 정의하는 대신 의학 분야의 국제 표준을 준수하려는 최초의 인정된 시도를 제공한다. 의학계는 이러한 표준을 지지하는 연구에도 불구하고 메타데이터 표준을 따를 필요성을 아직 승인하지 않았다.[82]

생물의학 연구

생물의학분자생물학 분야의 연구는 종종 대량의 데이터를 산출하며, 여기에는 유전체 또는 군유전체 염기서열 분석 결과, 단백체학 데이터, 심지어 연구 과정에서 생성된 메모나 계획까지 포함된다.[83] 각 데이터 유형은 고유한 메타데이터 종류와 이러한 메타데이터를 생성하는 데 필요한 프로세스를 포함한다. ISA-Tab과 같은 일반적인 메타데이터 표준은[84] 연구자들이 일관된 형식으로 실험 메타데이터를 생성하고 교환할 수 있도록 한다. 특정 실험 접근 방식은 자체 메타데이터 표준 및 시스템을 가지고 있는 경우가 많다. 질량 분석법의 메타데이터 표준에는 mzML[85] 및 SPLASH가 포함되며,[86] XML 기반 표준인 PDBML[87] 및 SRA XML[88]는 각각 거대분자 구조 및 시퀀싱 데이터의 표준 역할을 한다.

생물의학 연구의 결과는 일반적으로 동료 검토를 거친 원고로 나타나며, 이러한 출판물은 또 다른 데이터 출처이다. 오류: no text specified (help).

데이터 웨어하우징

데이터 웨어하우스 (DW)는 조직의 전자적으로 저장된 데이터 저장소이다. 데이터 웨어하우스는 데이터를 관리하고 저장하도록 설계되었다. 데이터 웨어하우스는 비즈니스 인텔리전스 (BI) 시스템과 다르다. BI 시스템은 데이터를 사용하여 보고서를 생성하고 정보를 분석하여 경영진에게 전략적 지침을 제공하도록 설계되었기 때문이다.[89] 메타데이터는 데이터 웨어하우스에 데이터가 저장되는 방식에서 중요한 도구이다. 데이터 웨어하우스의 목적은 조직의 다양한 운영 시스템에서 추출된 표준화되고 구조화되고 일관되고 통합되며 정확하고 "정제된" 최신 데이터를 저장하는 것이다. 추출된 데이터는 엔터프라이즈 전체 관점을 제공하기 위해 데이터 웨어하우스 환경에 통합된다. 데이터는 보고 및 분석 요구 사항을 충족하도록 구조화된다. 개체-관계 모델 다이어그램과 같은 데이터 모델링 방법을 사용한 구조적 메타데이터 공통성의 설계는 모든 데이터 웨어하우스 개발 노력에 중요하다. 이들은 데이터 웨어하우스의 각 데이터 조각에 대한 메타데이터를 자세히 설명한다. 데이터 웨어하우스/비즈니스 인텔리전스 시스템의 필수 구성 요소는 메타데이터 및 메타데이터를 관리하고 검색하는 도구이다. 킴볼[90]은 메타데이터를 데이터 웨어하우스의 DNA라고 설명한다. 메타데이터는 데이터 웨어하우스의 요소를 정의하고 이들이 어떻게 함께 작동하는지를 정의하기 때문이다.

킴볼 외 연구진은[91] 메타데이터를 크게 기술 메타데이터, 비즈니스 메타데이터, 프로세스 메타데이터의 세 가지 범주로 나눈다. 기술 메타데이터는 주로 정의적이며, 비즈니스 메타데이터와 프로세스 메타데이터는 주로 기술적이다. 이 범주들은 때때로 겹친다.

  • 기술 메타데이터는 DW/BI 시스템의 객체와 프로세스를 기술적인 관점에서 정의한다. 기술 메타데이터에는 관계형 엔진의 테이블, 필드, 데이터 유형, 인덱스 및 파티션과 같은 데이터 구조뿐만 아니라 데이터베이스, 차원, 측정값 및 데이터 마이닝 모델을 정의하는 시스템 메타데이터가 포함된다. 기술 메타데이터는 데이터 모델과 사용자를 위한 표시 방식(보고서, 일정, 배포 목록 및 사용자 보안 권한 포함)을 정의한다.
  • 비즈니스 메타데이터는 데이터 웨어하우스의 내용을 사용자 친화적인 용어로 설명한다. 비즈니스 메타데이터는 어떤 데이터를 가지고 있는지, 어디에서 왔는지, 무엇을 의미하는지, 데이터 웨어하우스의 다른 데이터와의 관계는 무엇인지 알려준다. 비즈니스 메타데이터는 DW/BI 시스템의 문서 역할도 할 수 있다. 데이터 웨어하우스를 탐색하는 사용자는 주로 비즈니스 메타데이터를 보고 있다.
  • 프로세스 메타데이터는 데이터 웨어하우스의 다양한 작업 결과를 설명하는 데 사용된다. ETL 프로세스 내에서 모든 주요 작업 데이터는 실행 시 기록된다. 여기에는 시작 시간, 종료 시간, 사용된 CPU 초, 디스크 읽기, 디스크 쓰기 및 처리된 행이 포함된다. ETL 또는 쿼리 프로세스 문제 해결 시 이 데이터는 가치가 있다. 프로세스 메타데이터는 DW/BI 시스템을 구축하고 사용할 때의 사실 측정이다. 일부 조직은 이러한 종류의 데이터를 수집하고 회사에 판매하여 생계를 꾸리기도 한다. 이 경우 프로세스 메타데이터는 사실 및 차원 테이블의 비즈니스 메타데이터가 된다. 프로세스 메타데이터를 수집하는 것은 제품 사용자, 사용 중인 제품 및 수신하는 서비스 수준을 식별하는 데 데이터를 사용할 수 있는 비즈니스 사람들의 관심사이다.

인터넷

웹 페이지를 정의하는 데 사용되는 HTML 형식은 기본 기술 텍스트, 날짜 및 키워드에서 더블린 코어, e-GMS, AGLS[92] 표준과 같은 더욱 고급 메타데이터 스키마에 이르기까지 다양한 유형의 메타데이터를 포함할 수 있다. 페이지와 파일은 지리 태그를 사용하여 좌표를 포함하거나, 포크소노미와 같이 협력적으로 분류하거나 태그를 지정할 수도 있다.

미디어에 식별자가 설정되어 있거나 생성될 수 있을 때, 파일 태그 및 설명과 같은 정보는 스크래핑될 수 있다. 예를 들어 영화에 대한 정보이다.[93] 다양한 온라인 데이터베이스가 통합되어 다양한 데이터에 대한 메타데이터를 제공한다. 협력적으로 구축된 위키데이터는 미디어뿐만 아니라 추상적인 개념, 다양한 객체 및 기타 엔터티에 대한 식별자를 가지고 있으며, 이는 사람과 기계가 유용한 정보를 검색하고 다른 지식 베이스 및 데이터베이스의 지식을 연결하는 데 사용할 수 있다.[64]

메타데이터는 페이지의 헤더 또는 별도의 파일에 포함될 수 있다. 마이크로포맷은 일반 웹 사용자는 볼 수 없지만 컴퓨터, 웹 크롤러검색 엔진은 쉽게 접근할 수 있는 방식으로 페이지 내 데이터에 메타데이터를 추가할 수 있도록 한다. 많은 검색 엔진은 메타데이터의 악용과 검색 엔진 최적화(SEO)를 통한 순위 향상 관행 때문에 순위 알고리즘에서 메타데이터를 사용하는 것에 대해 신중하다. 자세한 내용은 메타 엘리먼트 문서를 참조하라. 이러한 신중한 태도는 닥터로우(Doctorow)에 따르면[94] 사람들이 자신의 메타데이터를 생성할 때 주의와 성실을 기울이지 않고, 메타데이터가 메타데이터 생성자의 목적을 홍보하는 데 사용되는 경쟁 환경의 일부이기 때문에 정당화될 수 있다. 연구에 따르면 검색 엔진은 메타데이터 구현이 있는 웹 페이지에 응답하며,[95] 구글은 검색 엔진이 이해하는 메타 태그를 보여주는 공지 사항을 자사 사이트에 게시했다.[96] 엔터프라이즈 검색 스타트업 스위프타입(Swiftype)은 메타데이터를 웹마스터가 웹사이트별 검색 엔진에 구현할 수 있는 관련성 신호로 인식하며, 심지어 자체 확장인 Meta Tags 2를 출시했다.[97]

방송 산업

방송 산업에서 메타데이터는 오디오 및 비디오 방송 미디어에 연결되어 다음을 수행한다.

  • 미디어 식별: 클립 또는 재생 목록 이름, 지속 시간, 타임코드
  • 내용 설명: 비디오 내용 품질, 등급, 설명에 대한 메모 (예: 스포츠 행사 중에는 골, 레드 카드와 같은 색인어가 일부 클립과 연관됨)
  • 미디어 분류: 메타데이터를 통해 제작자는 미디어를 정렬하거나 비디오 내용을 쉽고 빠르게 찾을 수 있다 (예: 뉴스는 특정 주제에 대한 아카이브 내용이 급히 필요할 수 있음). 예를 들어, BBC는 일반적인 국제십진분류법을 맞춤형으로 변형한 큰 주제 분류 시스템인 Lonclass를 보유하고 있다.

이 메타데이터는 비디오 서버를 통해 비디오 미디어에 연결될 수 있다. FIFA 월드컵이나 올림픽과 같은 대부분의 주요 스포츠 방송 행사는 이 메타데이터를 사용하여 색인어를 통해 방송국에 비디오 콘텐츠를 배포한다. 주 방송사[98]는 국제 방송 센터와 비디오 서버를 통해 메타데이터를 조직하는 일을 담당하는 경우가 많다. 이 메타데이터는 이미지와 함께 기록되며, 메타데이터 운영자(로거)가 라이브로 메타데이터 그리드에서 소프트웨어(Multicam(LSM) 또는 IPDirector와 같이 FIFA 월드컵이나 올림픽에서 사용되는 소프트웨어)를 통해 사용 가능한 메타데이터를 입력한다.[99][100]

지리학

전자 저장 또는 형식으로 지리적 객체(데이터셋, 지도, 피처 또는 지리 공간 구성 요소가 있는 문서 등)를 설명하는 메타데이터는 적어도 1994년부터 존재해 왔다. 이 클래스의 메타데이터는 지리 공간 메타데이터 문서에서 더 자세히 설명한다.

생태학 및 환경

생태 및 환경 메타데이터는 특정 연구를 위한 데이터 수집의 "누가, 무엇을, 언제, 어디서, 왜, 어떻게"를 문서화하는 것을 목표로 한다. 이는 일반적으로 어떤 조직이나 기관이 데이터를 수집했는지, 어떤 유형의 데이터인지, 데이터가 수집된 날짜, 데이터 수집의 근거, 그리고 데이터 수집에 사용된 방법론을 의미한다. 메타데이터는 다윈 코어, 생태학적 메타데이터 언어,[101] 또는 더블린 코어와 같이 가장 관련성이 높은 과학 커뮤니티에서 일반적으로 사용되는 형식으로 생성되어야 한다. 메타데이터 생성 도구는 메타데이터 생성을 용이하게 하기 위해 존재한다(예: Metavist,[102] Mercury, Morpho[103]). 메타데이터는 데이터의 출처(데이터가 어디서 시작되었는지, 어떤 변환을 거쳤는지)와 데이터 제품에 대한 공로 인정(인용) 방법을 설명해야 한다.

디지털 음악

1982년 처음 출시된 콤팩트 디스크는 디스크의 트랙 수와 샘플 단위의 길이를 담은 목차(TOC)만을 포함했다.[104][105] 14년 후인 1996년, CD 레드 북 표준의 개정판은 추가 메타데이터를 담기 위해 CD 텍스트를 추가했다.[106] 그러나 CD-Text는 널리 채택되지 않았다. 그 직후, 개인용 컴퓨터가 TOC를 기반으로 외부 소스(예: CDDB, 그레이스노트)에서 메타데이터를 검색하는 것이 일반화되었다.

디지털 오디오 파일과 같은 디지털 오디오 형식은 2000년대에 콤팩트 카세트CD와 같은 음악 형식을 대체했다. 디지털 오디오 파일은 파일 이름에만 포함될 수 있는 것보다 더 많은 정보를 레이블링할 수 있었다. 이러한 설명 정보는 일반적으로 오디오 태그 또는 오디오 메타데이터라고 불린다. 이 정보를 추가하거나 수정하는 데 특화된 컴퓨터 프로그램은 태그 편집기라고 불린다. 메타데이터는 디지털 오디오 파일의 이름 지정, 설명, 목록화, 소유권 또는 저작권 표시 등에 사용될 수 있으며, 그 존재는 일반적으로 메타데이터에 접근하는 검색 엔진을 통해 특정 오디오 파일을 그룹 내에서 훨씬 쉽게 찾을 수 있도록 한다. 다양한 디지털 오디오 형식이 개발되면서, 이 정보를 저장할 수 있는 디지털 파일 내의 특정 위치를 표준화하려는 시도가 있었다.

그 결과, MP3, 방송용 WAV, AIFF 파일을 포함한 거의 모든 디지털 오디오 형식은 메타데이터로 채울 수 있는 유사한 표준화된 위치를 가지고 있다. 압축 및 비압축 디지털 음악의 메타데이터는 종종 ID3 태그로 인코딩된다. TagLib과 같은 일반적인 편집기는 MP3, Ogg Vorbis, FLAC, MPC, Speex, WavPack TrueAudio, WAV, AIFF, MP4 및 ASF 파일 형식을 지원한다.

클라우드 애플리케이션

클라우드 애플리케이션의 가용성과 함께 콘텐츠에 메타데이터를 추가하는 애플리케이션을 포함하여 메타데이터는 인터넷을 통해 점점 더 많이 이용 가능해지고 있다.

Remove ads

관리 및 경영

요약
관점

저장

메타데이터는 데이터와 동일한 파일 또는 구조에 내부적으로 저장되거나[107] (이를 임베디드 메타데이터라고도 함), 또는 설명되는 데이터와 별도의 파일이나 필드에 외부적으로 저장될 수 있다. 데이터 저장소는 일반적으로 데이터를 분리하여 메타데이터를 저장하지만, 임베디드 메타데이터 접근 방식을 지원하도록 설계될 수도 있다. 각 옵션에는 장점과 단점이 있다.

  • 내부 저장 방식은 메타데이터가 항상 설명하는 데이터의 일부로 이동한다는 것을 의미한다. 따라서 메타데이터는 항상 데이터와 함께 제공되며 로컬에서 조작할 수 있다. 이 방법은 중복성을 생성하고(정규화 방지), 시스템의 모든 메타데이터를 한 곳에서 관리할 수 없게 한다. 메타데이터가 데이터 변경 시 언제든지 쉽게 변경되므로 일관성이 증가한다고 주장할 수 있다.
  • 외부 저장 방식은 모든 콘텐츠에 대한 메타데이터를 한곳에 모을 수 있게 하여, 예를 들어 데이터베이스에서 더 효율적인 검색 및 관리가 가능하다. 메타데이터의 구성을 정규화하여 중복성을 피할 수 있다. 이 접근 방식에서는 정보가 전송될 때(예: 스트리밍) 메타데이터를 콘텐츠와 결합하거나, 전송된 콘텐츠에서 참조(예: 웹 링크로)할 수 있다. 단점은 메타데이터와 데이터 콘텐츠의 분리, 특히 원본 메타데이터를 다른 곳에서 참조하는 독립형 파일의 경우, 둘 중 하나가 변경될 때 다른 하나에 반영되지 않아 불일치가 발생할 가능성이 높아진다.

메타데이터는 사람이 읽을 수 있는 형식이나 이진 형식으로 저장할 수 있다. XML과 같이 사람이 읽을 수 있는 형식으로 메타데이터를 저장하는 것은 사용자가 특수 도구 없이 이해하고 편집할 수 있기 때문에 유용할 수 있다.[108] 그러나 텍스트 기반 형식은 저장 용량, 통신 시간 또는 처리 속도에 최적화된 경우가 거의 없다. 이진 메타데이터 형식은 이러한 모든 측면에서 효율성을 가능하게 하지만, 이진 정보를 사람이 읽을 수 있는 콘텐츠로 변환하려면 특별한 소프트웨어가 필요하다.

데이터베이스 관리

각 관계형 데이터베이스 시스템은 메타데이터를 저장하기 위한 자체 메커니즘을 가지고 있다. 관계형 데이터베이스 메타데이터의 예는 다음과 같다.

  • 데이터베이스의 모든 테이블, 이름, 크기, 각 테이블의 행 수를 나타내는 테이블.
  • 각 데이터베이스의 열, 사용되는 테이블, 각 열에 저장된 데이터 유형을 나타내는 테이블.

데이터베이스 용어에서 이 메타데이터 집합을 카탈로그라고 한다. SQL 표준은 카탈로그에 접근하는 균일한 수단인 정보 스키마를 지정하지만, 모든 데이터베이스가 SQL 표준의 다른 측면을 구현하더라도 이를 구현하지는 않는다. 데이터베이스별 메타데이터 접근 방식의 예는 오라클 메타데이터를 참조하라. 메타데이터에 대한 프로그래밍 방식 접근은 JDBC 또는 SchemaCrawler와 같은 API를 사용하여 가능하다.[109]

Remove ads

대중문화

오늘날 우리가 이해하는 메타데이터 개념에 대한 최초의 풍자적 탐구 중 하나는 미국 공상과학 작가 할 드레이퍼의 단편 소설 "MS Fnd in a Lbry" (1961)이다. 이 소설에서 인류의 모든 지식은 책상 서랍 크기의 객체로 응축되지만, 메타데이터(예: 카탈로그의 카탈로그의... 뿐만 아니라 색인 및 역사)의 엄청난 규모는 결국 인류에게 심각하면서도 유머러스한 결과를 초래한다. 이 이야기는 메타데이터가 관련 실제 데이터보다 중요해지는 현대적 결과를 예견하며, 그 결과에 내재된 위험에 대한 교훈적인 이야기로 작용한다.

같이 보기

각주

추가 문헌

외부 링크

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads