말뭉치언어학
From Wikipedia, the free encyclopedia
말뭉치 언어학(영어: Corpus Linguistics)은 '실제 언어' 혹은 실제 언어의 샘플을 이용하여 언어를 공부하는 응용언어학의 한 분야이다. 말뭉치(코퍼스)란, 언어를 연구하는 각 분야에서 필요로 하는 연구 재료로서 언어의 본질적인 모습을 총체적으로 드러내 보여줄 수 있는 자료의 집합을 뜻한다.
조건만 만족할 수 있으면 작게는 시집 한 권이나 소설 한 편으로부터 1억 어절 이상의 말 또는 글로 표현된 각종의 자료에 이르기까지, 다양한 크기의 자료 모음이 모두 말뭉치라는 이름으로 묶일 수 있으며, 그 내용도 연구의 목적에 따라 다양하게 구성될 수 있다. 그러므로 말뭉치라는 용어는 연구의 목적이나 성격에 따라 다양한 대상을 지시할 수 있는 포괄적인 개념이 있다. 최근의 언어 연구에서는 말뭉치의 개념을 더 좁게 보아, “일정 규모 이상의 크기를 갖추고 내용적으로 다양성과 균형성이 확보된 자료의 집합체”를 가리키는 개념으로 사용하는 것이 일반적이다. 초기에는 수작업으로 이루어졌으나 컴퓨터의 발달로 지금은 많이 자동화되었으며, 전산언어학의 도움을 많이 받고 있다.
촘스키의 관점에서는, 실제 언어는 언어수행상의 오류로 가득하기 때문에 언어학을 제대로 연구하기 위해서는 잘 제어된 환경에서 이루어진 언어를 다룰 필요가 있다고 하였는데, 말뭉치 언어학은 이러한 관점에 정면으로 반하고 있는 방법론이다. 촘스키가 다루는 정제된 환경에서는 언어에서 화자에 대한 정보를 아무것도 찾아낼 수 없다는 것이다. 말뭉치 언어학에서는 언어능력(competence)과 언어수행(performance)으로 나누는 촘스키식 이분법도 거부한다. 대신 말뭉치에 다가갈 수 있는 최소한의 인터페이스만 있으면 실제 언어를 통해 언어 현상의 본질에 다가갈 수 있다고 본다.