상위 질문
타임라인
채팅
관점
자료
수, 영상, 단어 등의 형태로 된 의미 단위이다. 위키백과, 무료 백과사전
Remove ads

자료(資料, data, 데이터, 문화어: 데타)는 정보를 전달하는 불연속 또는 연속적인 값의 모음으로, 양, 질, 사실, 통계, 기타 기본적인 의미 단위 또는 단순히 추가적으로 형식적으로 해석될 수 있는 기호의 시퀀스를 설명한다. 데이텀(datum)은 자료 모음의 개별적인 값이다. 자료는 일반적으로 추가적인 맥락과 의미를 제공하는 표와 같은 구조로 조직되며, 더 큰 구조에서 자료로 사용될 수 있다. 자료는 컴퓨팅 프로세스의 변수로 사용될 수 있다.[1][2] 자료는 추상적인 아이디어 또는 구체적인 측정값을 나타낼 수 있다.[3] 자료는 일반적으로 과학 연구, 경제학 및 거의 모든 형태의 인간 조직 활동에 사용된다. 자료 집합의 예시로는 소비자 물가지수와 같은 물가 지수, 실업률, 문해율 및 인구 조사 자료 등이 있다. 이러한 맥락에서 자료는 유용한 정보를 추출할 수 있는 원시적인 사실과 수치를 나타낸다.

자료는 측정, 관측, 정보 검색, 또는 분석과 같은 기술을 사용하여 수집되며, 일반적으로 숫자 또는 문자로 표현되며 추가적으로 처리될 수 있다. 현장 자료는 통제되지 않은 현장 환경에서 수집된 자료이다. 실험 자료는 통제된 과학 실험 과정에서 생성된 자료이다. 자료는 계산, 이성, 토론, 프레젠테이션, 시각화 또는 기타 형태의 사후 분석과 같은 기술을 사용하여 분석된다. 분석 전에 원시 자료 (또는 미처리 자료)는 일반적으로 정제된다. 즉, 이상치가 제거되고 명백한 기기 또는 자료 입력 오류가 수정된다.
자료는 계산, 추론 또는 토론의 기초로 사용될 수 있는 가장 작은 단위의 사실적 정보로 볼 수 있다. 자료는 추상적인 아이디어에서 구체적인 측정값에 이르기까지 다양하며, 통계를 포함하지만 이에 국한되지 않는다. 관련 맥락에서 제시된 주제적으로 연결된 자료는 정보로 볼 수 있다. 맥락적으로 연결된 정보 조각들은 자료 통찰력 또는 지능으로 설명될 수 있다. 자료를 정보로 종합하여 시간이 지남에 따라 축적되는 통찰력과 지능의 재고는 지식으로 설명될 수 있다. 자료는 "디지털 경제의 새로운 석유"로 묘사되어 왔다.[4][5] 일반적인 개념으로서 자료는 기존의 정보 또는 지식이 더 나은 사용 또는 처리에 적합한 형태로 표현되거나 부호화된다는 사실을 나타낸다.
컴퓨팅 기술의 발전은 일반적으로 페타바이트 규모의 매우 많은 양의 자료를 의미하는 빅 데이터의 출현으로 이어졌다. 전통적인 자료 분석 방법과 컴퓨팅으로는 이러한 거대한 (그리고 성장하는) 자료 집합을 다루는 것이 어렵거나 심지어 불가능하다. (이론적으로 말하면, 무한한 자료는 무한한 정보를 산출하며, 이는 통찰력이나 지능을 추출하는 것을 불가능하게 만든다.) 이에 대응하여, 비교적 새로운 분야인 데이터 과학은 기계 학습 (및 기타 인공지능) 방법을 사용하여 빅 데이터에 분석 방법을 효율적으로 적용할 수 있도록 한다.
Remove ads
어원 및 용어
라틴어 단어 data는 datum, 즉 "(주어진) 것"의 복수형이며, "주다"를 뜻하는 dare의 중성 과거분사이다.[6] "data"라는 단어가 영어에서 처음 사용된 것은 1640년대이다. "data"라는 단어는 1946년에 "전송 가능하고 저장 가능한 컴퓨터 정보"를 의미하는 데 처음 사용되었다. "data processing"이라는 표현은 1954년에 처음 사용되었다.[6]
"data"가 "정보"의 동의어로 더 일반적으로 사용될 때는 단수 형태로 불가산 명사로 취급된다. 이러한 용법은 일상어와 소프트웨어 개발 및 컴퓨터 과학과 같은 기술 및 과학 분야에서 흔하다. 이러한 용법의 한 예시는 "빅 데이터"라는 용어이다. 자료 집합의 처리 및 분석을 더 구체적으로 지칭하는 데 사용될 때는 이 용어가 복수형을 유지한다. 이러한 용법은 자연 과학, 생명 과학, 사회 과학, 소프트웨어 개발 및 컴퓨터 과학에서 흔하며, 20세기와 21세기에 인기가 증가했다. 일부 스타일 가이드는 이 용어의 다른 의미를 인식하지 못하고 단순히 가이드의 대상 독자에게 가장 적합한 형태를 권장한다. 예를 들어, 7판 기준의 APA 스타일은 "data"를 복수형으로 취급하도록 요구한다.[7]
Remove ads
의미
요약
관점

자료, 정보, 지식, 지혜는 밀접하게 관련된 개념이지만, 각각은 다른 개념에 대한 고유한 역할을 가지며 각 용어는 고유한 의미를 가진다. 일반적인 관점에 따르면 자료는 수집되고 분석된다. 자료는 어떤 방식으로든 분석되어야만 의사 결정을 위한 적절한 정보가 된다.[8] 자료 집합이 어떤 사람에게 얼마나 유용한지는 그 사람이 그것을 얼마나 예상하지 못했는지에 달려 있다고 말할 수 있다. 자료 스트림에 포함된 정보의 양은 섀넌 엔트로피로 특징지어질 수 있다.
지식은 어떤 실체가 자신의 환경에 대해 가지고 있는 인식이지만, 자료는 단순히 그 지식을 전달한다. 예를 들어, 에베레스트산의 높이를 지정하는 데이터베이스의 항목은 정확하게 측정된 값을 전달하는 자료이다. 이 측정값은 에베레스트산에 대한 다른 자료와 함께 책에 포함되어 산을 오르는 최선의 방법을 결정하려는 사람들에게 유용한 방식으로 산을 설명할 수 있다. 이 자료로 표현된 특성에 대한 인식은 지식이다.
자료는 종종 가장 추상성이 적은 개념으로, 정보는 그 다음으로, 지식은 가장 추상적인 개념으로 간주된다.[9] 이러한 관점에서 자료는 해석을 통해 정보가 된다. 예를 들어, 에베레스트산의 높이는 일반적으로 "자료"로 간주되고, 에베레스트산의 지질학적 특성에 대한 책은 "정보"로 간주될 수 있으며, 에베레스트산 정상에 도달하는 최선의 방법에 대한 실용적인 정보를 포함하는 등반가 가이드북은 "지식"으로 간주될 수 있다. "정보"는 일상적인 용법에서 기술적인 용법에 이르기까지 다양한 의미를 지닌다. 그러나 이러한 관점은 자료가 정보에서, 정보가 지식에서 어떻게 출현하는지를 역전시킨다는 주장도 제기되었다.[10] 일반적으로 정보의 개념은 제약, 통신, 통제, 자료, 형식, 지시, 지식, 의미, 정신적 자극, 패턴, 지각 및 표현의 개념과 밀접하게 관련되어 있다. 베이논-데이비스는 기호의 개념을 사용하여 자료와 정보를 구별한다. 자료는 일련의 기호이며, 정보는 기호가 어떤 것을 지칭하는 데 사용될 때 발생한다.[11][12]
컴퓨팅 장치와 기계가 개발되기 전에는 사람들이 자료를 수동으로 수집하고 패턴을 부여해야 했다. 컴퓨팅 장치와 기계가 개발되면서 이러한 장치도 자료를 수집할 수 있게 되었다. 2010년대에는 마케팅, 시민의 사회 복지 사용 분석에서 과학 연구에 이르는 다양한 분야에서 자료를 수집하고 분류하거나 처리하기 위해 컴퓨터가 널리 사용되었다. 자료의 이러한 패턴은 지식을 향상시키는 데 사용될 수 있는 정보로 간주된다. 이러한 패턴은 "진리"로 해석될 수 있으며 (비록 "진리"는 주관적인 개념일 수 있지만) 일부 분야 또는 문화에서는 미학적 및 윤리적 기준으로 권한을 부여받을 수 있다. 지각할 수 있는 물리적 또는 가상적 흔적을 남기는 사건은 자료를 통해 추적될 수 있다. 흔적과 관측 사이의 연결이 끊어지면 흔적은 더 이상 자료로 간주되지 않는다.[13]
기계적 컴퓨팅 장치는 자료를 표현하는 방식에 따라 분류된다. 아날로그 컴퓨터는 자료를 전압, 거리, 위치 또는 기타 물리량으로 나타낸다. 디지털 컴퓨터는 고정된 알파벳에서 추출된 일련의 기호로 자료를 나타낸다. 가장 일반적인 디지털 컴퓨터는 이진 알파벳, 즉 일반적으로 "0"과 "1"로 표시되는 두 문자로 된 알파벳을 사용한다. 숫자나 문자처럼 더 친숙한 표현은 이진 알파벳에서 구성된다. 일부 특수한 형태의 자료는 구별된다. 컴퓨터 프로그램은 지침으로 해석될 수 있는 자료의 모음이다. 대부분의 컴퓨터 언어는 프로그램과 프로그램이 작동하는 다른 자료를 구별하지만, 특히 리스프와 유사한 언어와 같은 일부 언어에서는 프로그램이 다른 자료와 본질적으로 구별되지 않는다. 메타데이터, 즉 다른 자료에 대한 설명을 구별하는 것도 유용하다. 메타데이터에 대한 유사하지만 더 이른 용어는 "보조 자료"이다. 메타데이터의 전형적인 예는 도서 내용에 대한 설명인 도서관 목록이다.
Remove ads
자료 출처
마케팅 또는 기타 기업 수집 과정에서 수집된 자료의 소유권과 관련하여, 자료는 원본에 얼마나 가까운지 또는 추가 처리를 통해 생성되었는지에 따라 "당사자"에 따라 분류되었다. "제로 파티 데이터"는 고객이 "의도적으로 그리고 적극적으로 공유하는" 자료를 의미한다.[14] 이러한 종류의 자료는 구독, 선호도 센터, 퀴즈, 설문조사, 팝업 양식 및 인터랙티브 디지털 경험을 포함한 다양한 출처에서 나올 수 있다.[15] "퍼스트 파티 데이터"는 기업이 고객으로부터 직접 수집할 수 있다.[16] 기업 간의 퍼스트 파티 데이터의 안전한 교환은 데이터 클린 룸을 사용하여 수행될 수 있다.[17] "세컨드 파티 데이터"는 다른 조직이나 파트너로부터 구매 또는 기타 수단을 통해 얻은 자료를 의미하며, "다른 조직의 퍼스트 파티 데이터"로 묘사되어 왔다.[18][19] "서드 파티 데이터"는 다른 조직에 의해 수집되고 이후 다양한 출처, 웹사이트 및 플랫폼에서 집계된 자료이다.[18]
"노 파티" 데이터는 때때로 원본 데이터의 패턴을 기반으로 생성된 합성 데이터를 의미할 수 있다.[17]
자료 문서
자료가 등록되어야 할 때마다 자료는 자료 문서의 형태로 존재한다. 자료 문서의 종류는 다음과 같다.
이러한 자료 문서 중 일부(자료 저장소, 자료 연구, 자료 집합, 소프트웨어)는 자료 인용 색인에 색인되어 있는 반면, 자료 논문은 전통적인 서지 데이터베이스(예: 과학 인용 색인)에 색인되어 있다.
자료 수집
자료 수집은 1차 출처(연구자가 자료를 처음으로 얻는 사람) 또는 2차 출처(연구자가 과학 저널에 배포된 자료와 같이 다른 출처에서 이미 수집된 자료를 얻는 사람)를 통해 이루어질 수 있다. 자료 분석 방법론은 다양하며 자료 삼각측량 및 자료 여과를 포함한다.[20] 후자는 연구의 객관성을 극대화하고 조사 중인 현상에 대한 가능한 한 완전한 이해를 허용하기 위해 다섯 가지 가능한 분석 각도(최소 세 가지)를 사용하여 자료를 수집, 분류 및 분석하는 명확한 방법을 제공한다. 이는 질적 및 양적 방법, 문헌 검토(학술 기사 포함), 전문가 인터뷰 및 컴퓨터 시뮬레이션을 포함한다. 이후 자료는 가장 관련성이 높은 정보를 추출하기 위해 일련의 사전 결정된 단계를 사용하여 "여과"된다.
Remove ads
자료 수명 및 접근성
컴퓨터 과학, 기술 및 문헌정보학에서 중요한 분야는 자료의 수명이다. 과학 연구는 특히 유전체학 및 천문학뿐만 아니라 의료 과학, 예를 들어 의학촬영에서도 엄청난 양의 자료를 생성한다. 과거에는 과학 자료가 논문과 책으로 출판되어 도서관에 저장되었지만, 최근에는 거의 모든 자료가 하드 드라이브나 광 디스크에 저장된다. 그러나 종이와 달리 이러한 저장 장치는 수십 년 후에 읽을 수 없게 될 수 있다. 과학 출판사 및 도서관은 수십 년 동안 이 문제로 고심해 왔으며, 수세기 또는 심지어 영원히 자료를 장기 보관하는 만족스러운 해결책은 아직 없다.
자료 접근성. 또 다른 문제는 많은 과학 자료가 데이터베이스와 같은 자료 저장소에 출판되거나 예치되지 않는다는 것이다. 최근 설문 조사에서 2년에서 22년 전에 출판된 516개 연구에 자료를 요청했지만, 이들 연구 중 요청된 자료를 제공할 수 있거나 제공할 의향이 있는 연구는 5개 중 1개 미만이었다. 전반적으로 자료를 검색할 가능성은 출판 후 매년 17%씩 감소했다.[21] 마찬가지로, 드라이어드의 100개 자료 집합에 대한 설문 조사에서는 절반 이상이 연구 결과를 재현하기 위한 세부 정보가 부족한 것으로 나타났다.[22] 이는 출판되지 않았거나 재현할 충분한 세부 정보가 없는 과학 자료에 대한 접근의 심각한 상황을 보여준다.
재현성 문제에 대한 해결책은 FAIR 자료를 요구하려는 시도이다. 즉, 찾을 수 있고(Findable), 접근할 수 있고(Accessible), 상호 운용할 수 있으며(Interoperable), 재사용할 수 있는(Reusable) 자료이다. 이러한 요구 사항을 충족하는 자료는 후속 연구에 사용될 수 있으며 따라서 과학 및 기술을 발전시킨다.[23]
Remove ads
다른 분야에서
자료는 다른 분야에서도 점점 더 많이 사용되고 있지만, 자료의 고도로 해석적인 성격이 "주어진 것"으로서의 자료의 정신과 상충될 수 있다는 의견도 있다. 피터 체크랜드는 수많은 가능한 자료와 그 중 주의를 기울이는 하위 집합을 구별하기 위해 캡타(라틴어 capere, "취하다"에서 유래)라는 용어를 도입했다.[24] 요한나 드러커는 인문학이 지식 생산을 "상황에 따른, 부분적인, 구성적인" 것으로 단언하기 때문에 자료를 사용하는 것이 현상이 불연속적이거나 관찰자 독립적이라는 것과 같이 역효과를 낼 수 있는 가정을 도입할 수 있다고 주장했다.[25] 관찰 행위를 구성적인 것으로 강조하는 캡타라는 용어는 인문학의 시각적 표현을 위한 자료의 대안으로 제시된다.
데이터 기반이라는 용어는 다른 모든 요소보다 자료에 의해 주로 강제되는 활동에 적용되는 신조어이다. 데이터 기반 응용 프로그램에는 데이터 기반 프로그래밍 및 데이터 기반 저널리즘이 포함된다.
Remove ads
같이 보기
각주
외부 링크
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads