상위 질문
타임라인
채팅
관점
기계 번역
인간이 사용하는 자연 언어를 컴퓨터를 사용하여 다른 언어로 번역하는 일 위키백과, 무료 백과사전
Remove ads
기계 번역(機械飜譯, 영어: machine translation, MT[1])은 하나의 언어에서 다른 언어로 텍스트나 음성을 번역하기 위해 계산 기술을 사용하는 것으로, 두 언어의 문맥적, 관용적, 실용적 뉘앙스를 포함한다. 자동 번역이라고도 한다.

초기 접근 방식은 주로 규칙 기반 또는 통계적이었다. 이러한 방법들은 이후 신경망 기계 번역[2]과 대형 언어 모델에 의해 대체되었다.[3]
역사
요약
관점
기원
기계 번역의 기원은 9세기 아랍의 암호 해독가인 킨디의 작업에서 찾아볼 수 있는데, 그는 현대 기계 번역에 사용되는 암호 해독, 빈도분석 (암호), 확률 및 통계학을 포함한 체계적인 언어 번역 기술을 개발했다.[4] 기계 번역의 아이디어는 17세기 후반에 등장했다. 1629년, 르네 데카르트는 다른 언어의 동일한 아이디어가 하나의 기호를 공유하는 보편적인 언어를 제안했다.[5]
자연어 번역에 디지털 컴퓨터를 사용하는 아이디어는 1947년에 영국의 A. D. 부스[6]와 같은 해 록펠러 재단의 워렌 위버에 의해 제안되었다. "1949년 워렌 위버가 작성한 메모는 기계 번역 초기 가장 영향력 있는 단일 출판물일 것이다."[7][8] 다른 사람들도 뒤를 이었다. 1954년 런던 버크벡 칼리지의 APEXC 기계에서 영어에서 프랑스어로의 기초적인 번역 시연이 있었다. 당시 이 주제에 대한 여러 논문이 발표되었고, 심지어 대중 잡지에도 기사가 실렸다(예: 1955년 9월호 Wireless World에 실린 Cleave와 Zacharov의 기사). 당시 버크벡 칼리지에서 개척된 유사한 응용 분야는 컴퓨터를 이용한 점자 텍스트 읽기 및 작성이었다.
1950년대
이 분야의 첫 연구자인 예호슈아 바르-힐렐은 MIT에서 연구를 시작했다(1951). 마이클 자레치나크 교수가 이끄는 조지타운 대학교 MT 연구팀이 그 뒤를 이어(1951) 1954년에 조지타운-IBM 실험 시스템을 대중에게 시연했다. 일본[9][10]과 러시아(1955)에서 MT 연구 프로그램이 시작되었고, 첫 MT 컨퍼런스가 런던에서 열렸다(1956).[11][12]
데이비드 G. 헤이스는 "이미 1957년에 컴퓨터 지원 언어 처리에 대해 썼다"고 말하며 "1955년부터 1968년까지 랜드에서 전산 언어학 프로젝트 리더였다."[13]
1960–1975
미국에서는 기계 번역 및 전산 언어학 협회가 결성되고(1962), 국립 과학 아카데미는 MT를 연구하기 위해 자동 언어 처리 자문 위원회(ALPAC)를 구성하면서(1964) 연구자들이 계속해서 이 분야에 합류했다. 그러나 실제 진전은 훨씬 더 더뎠고, 10년간의 연구가 기대를 충족시키지 못했음을 발견한 ALPAC 보고서(1966) 이후 자금 지원이 크게 줄어들었다.[14] 1972년 국방 연구 및 공학 국장(DDR&E) 보고서에 따르면, 해당 분쟁 중 베트남어로 군사 매뉴얼을 번역하는 로고스 MT 시스템의 성공으로 대규모 MT의 실현 가능성이 재확인되었다.
프랑스 섬유 연구소도 MT를 사용하여 프랑스어, 영어, 독일어, 스페인어로 초록을 번역했다(1970). 브리검 영 대학교는 자동 번역을 통해 모르몬 경전을 번역하는 프로젝트를 시작했다(1971).
1975년 이후
1960년대 "미국 정부와의 계약 하에 이 분야를 개척한"[1] 시스트란은 제록스에서 기술 매뉴얼을 번역하는 데 사용되었다(1978). 1980년대 후반부터 컴퓨테이션 능력이 향상되고 비용이 저렴해지면서, 통계적 기계 번역을 위한 통계 모델에 대한 관심이 높아졌다. 컴퓨터의 등장 이후 MT는 더욱 인기를 얻었다.[15] 시스트란의 첫 구현 시스템은 1988년 라 포스트의 온라인 서비스인 미니텔에 의해 구현되었다.[16] 트라도스(1984)를 비롯한 다양한 컴퓨터 기반 번역 회사들도 설립되었는데, 트라도스는 번역 메모리 기술(1989)을 개발하고 판매한 최초의 회사였지만, 이는 MT와는 다르다. 러시아어/영어/독일어-우크라이나어용 최초의 상용 MT 시스템은 하르코프 주립 대학교에서 개발되었다(1991).
1998년까지 "29.95달러만 내면" PC에서 실행되는 "영어와 주요 유럽 언어 중 하나를 한 방향으로 번역하는 프로그램"을 "구매"할 수 있었다.[1]
웹상의 MT는 시스트란이 소규모 텍스트의 무료 번역을 제공하면서 시작되었고(1996), 이후 야후! 바벨피쉬를 통해 이를 제공했다.[1] 야후! 바벨피쉬는 하루 50만 건의 요청을 처리했다(1997).[17] 웹상의 두 번째 무료 번역 서비스는 러너트 & 하우스피의 글로바링크였다.[1] 아틀란틱 매거진은 1998년 "시스트란의 바벨피쉬와 글로바링크의 콤프렌데"가 "Don't bank on it"을 "유능하게 처리했다"고 썼다.[18]
프란츠 요제프 오흐(구글의 미래 번역 개발 책임자)는 방위고등연구계획국의 속도 MT 대회에서 우승했다(2003).[19] 이 시기에는 오픈소스 통계 MT 엔진 MOSES(2007), 일본 모바일 텍스트/SMS 번역 서비스(2008), 영어, 일본어, 중국어 음성-음성 번역 기능 내장 휴대폰(2009) 등 더 많은 혁신이 있었다. 2012년, 구글은 구글 번역이 하루에 약 100만 권의 책을 채울 만큼의 텍스트를 번역한다고 발표했다.
Remove ads
접근 방식
요약
관점
딥 러닝 방법이 등장하기 전에는 통계적 방법은 많은 규칙과 형태론, 통사론, 의미론 주석을 필요로 했다.
규칙 기반
규칙 기반 기계 번역 접근 방식은 주로 사전과 문법 프로그램 생성에 사용되었다. 가장 큰 단점은 모든 것을 명시적으로 만들어야 한다는 것이었다. 철자 변형과 오류가 있는 입력은 이를 처리하기 위해 원어 분석기의 일부가 되어야 했고, 모든 모호한 경우에 대해 어휘 선택 규칙을 작성해야 했다.
전이 기반 기계 번역
전이 기반 기계 번역은 원문의 의미를 시뮬레이션하는 중간 표현으로부터 번역을 생성한다는 점에서 중간언어 기계번역과 유사했다. 중간언어 MT와 달리, 번역에 관련된 언어 쌍에 부분적으로 의존했다.
중간언어
중간언어 기계 번역은 규칙 기반 기계 번역 접근 방식의 한 사례였다. 이 접근 방식에서는 번역될 텍스트인 원어를 중간 언어, 즉 어떤 언어에도 독립적인 "언어 중립적" 표현으로 변환했다. 그런 다음 중간언어로부터 대상 언어가 생성되었다. 상업적 수준에서 운영된 유일한 중간언어 기계 번역 시스템은 KANT 시스템(Nyberg and Mitamura, 1992)으로, 캐터필러 기술 영어(CTE)를 다른 언어로 번역하도록 설계되었다.
사전 기반
기계 번역은 사전 항목을 기반으로 하는 방법을 사용했는데, 이는 단어가 사전처럼 번역된다는 것을 의미한다.
통계적
통계적 기계 번역은 캐나다 의사록인 영어-프랑스어 캐나다 의회 기록 및 유로파를과 같은 이중 언어 텍스트 말뭉치를 기반으로 통계 방법을 사용하여 번역을 생성하려고 시도했다. 이러한 말뭉치를 사용할 수 있는 경우 유사한 텍스트를 번역하는 데 좋은 결과가 나왔지만, 많은 언어 쌍에 대해서는 이러한 말뭉치가 드물었다. 최초의 통계적 기계 번역 소프트웨어는 IBM의 CANDIDE였다. 2005년, 구글은 유엔 자료에서 약 2천억 단어를 사용하여 시스템을 훈련함으로써 내부 번역 기능을 개선했고, 번역 정확도가 향상되었다.[20]
SMT의 가장 큰 단점은 방대한 양의 병렬 텍스트에 의존한다는 점, 형태론적으로 풍부한 언어(특히 그러한 언어로의 번역)에서의 문제점, 단일 오류를 수정할 수 없다는 점 등이었다.
다중 병렬 말뭉치, 즉 3개 이상의 언어로 번역된 텍스트 본문을 활용하는 작업이 이루어졌다. 이러한 방법을 사용하면 2개 이상의 언어로 번역된 텍스트를 조합하여 단일 원어를 사용했을 때보다 세 번째 언어로 더 정확한 번역을 제공할 수 있다.[21][22][23]
신경망 MT
딥 러닝 기반의 MT 접근 방식인 신경망 기계 번역은 최근 몇 년 동안 급속한 발전을 이루었다. 그러나 현재의 통념은 소위 인간 수준의 패리티가 실제가 아니며, 이는 제한된 도메인, 언어 쌍 및 특정 테스트 벤치마크에 전적으로 기반하고 있다는 것이다.[24] 즉, 통계적 유의성이 부족하다는 것이다.[25]
2022년 현재 일반적으로 최고의 기계 번역 결과를 제공하는 것으로 알려진 DeepL 번역과 같은 신경망 MT 도구의 번역은 일반적으로 여전히 인간의 사후 편집이 필요하다.[26][27][28]
병렬 데이터셋에서 전문 번역 모델을 훈련하는 대신, 생성적 대형 언어 모델에 텍스트를 번역하도록 직접 GPT를 사용할 수도 있다.[29][30][31] 이 접근 방식은 유망하다고 여겨지지만,[32] 여전히 전문 번역 모델보다 더 많은 리소스를 소비한다.
Remove ads
문제점
요약
관점


인간 평가(예: 전문 문학 번역가 또는 인간 독자)를 사용한 연구는 최신 고급 MT 출력에서 다양한 문제를 체계적으로 식별했다.[31] 일반적인 문제는 올바른 번역을 위해 상식적인 의미론적 언어 처리 또는 맥락이 필요한 모호한 부분의 번역이다.[31] 또한 원문에 오류가 있을 수 있고, 고품질 훈련 데이터가 부족하며, 여러 유형의 문제의 심각성 또는 빈도가 현재까지 사용된 기술로는 줄어들지 않아 어느 정도의 인간의 적극적인 참여가 필요하다.
중의성 해소
단어 의미 중의성 해소는 단어가 하나 이상의 의미를 가질 수 있을 때 적절한 번역을 찾는 것과 관련이 있다. 이 문제는 1950년대에 예호슈아 바르-힐렐에 의해 처음 제기되었다.[33] 그는 "보편적인 백과사전" 없이는 기계가 단어의 두 가지 의미를 구별할 수 없을 것이라고 지적했다.[34] 오늘날 이 문제를 극복하기 위해 고안된 수많은 접근 방식이 있다. 이들은 대략 "얕은" 접근 방식과 "깊은" 접근 방식으로 나눌 수 있다.
얕은 접근 방식은 텍스트에 대한 지식을 가정하지 않는다. 단순히 모호한 단어 주변의 단어에 통계적 방법을 적용한다. 깊은 접근 방식은 단어에 대한 포괄적인 지식을 전제로 한다. 지금까지는 얕은 접근 방식이 더 성공적이었다.[35]
유엔과 세계보건기구의 오랜 번역가인 클로드 피롱은 기계 번역이 최선을 다해도 번역가의 업무 중 쉬운 부분을 자동화한다고 썼다. 더 어렵고 시간이 많이 걸리는 부분은 일반적으로 원시 텍스트의 중의성을 해결하기 위해 광범위한 조사를 수행하는 것을 포함하며, 이는 번역 대상 언어의 문법적 및 어휘적 요구 사항에 따라 해결되어야 한다.
왜 번역가는 5페이지를 번역하는 데 한두 시간이 아니라 하루 종일 걸리는가? ..... 평균 텍스트의 약 90%는 이러한 간단한 조건에 해당한다. 그러나 불행히도 나머지 10%가 있다. 이 부분이 6시간 [더] 많은 작업을 요구한다. 해결해야 할 모호성이 있다. 예를 들어, 원문의 저자인 호주 의사는 제2차 세계 대전 중 "일본군 포로수용소"에서 선언된 전염병의 예를 인용했다. 그는 일본인 포로가 있는 미국 수용소를 말하는 것인가, 아니면 미국인 포로가 있는 일본 수용소를 말하는 것인가? 영어에는 두 가지 의미가 있다. 따라서 조사를 해야 하고, 어쩌면 호주에 전화까지 해야 할 수도 있다.[36]
이상적인 심층 접근 방식은 번역 소프트웨어가 이러한 종류의 중의성 해소를 위해 필요한 모든 조사를 스스로 수행하는 것을 필요로 할 것이다. 그러나 이는 아직 달성되지 않은 더 높은 수준의 인공지능을 요구할 것이다. 피롱이 언급한 모호한 영어 구문의 의미를 단순히 추측하는 얕은 접근 방식(아마도 주어진 말뭉치에서 어떤 종류의 포로수용소가 더 자주 언급되는지에 기반하여)은 자주 잘못 추측할 합리적인 가능성이 있을 것이다. "각 중의성에 대해 사용자에게 묻는" 얕은 접근 방식은 피롱의 추정에 따르면 전문 번역가의 업무 중 약 25%만 자동화하고, 더 어려운 75%는 여전히 인간이 수행해야 한다.
비표준적인 발화
MT의 주요 함정 중 하나는 비표준적인 언어를 표준적인 언어와 동일한 정확도로 번역할 수 없다는 것이다. 휴리스틱 또는 통계 기반 MT는 언어의 표준 형식으로 된 다양한 출처의 입력을 받는다. 규칙 기반 번역은 본질적으로 일반적인 비표준 사용법을 포함하지 않는다. 이로 인해 방언 원문에서 또는 구어체로 번역할 때 오류가 발생한다. 일상적인 발화에서 번역의 한계는 모바일 장치에서 기계 번역 사용에 문제를 야기한다.
고유 명사
정보 추출에서 고유 명사는 좁은 의미에서 사람, 조직, 회사, 장소 등 고유한 이름을 가진 실제 세계의 구체적 또는 추상적 개체를 의미한다. 예를 들어 조지 워싱턴, 시카고, 마이크로소프트 등이 있다. 또한 2011년 7월 1일, 500달러와 같은 시간, 공간, 양의 표현도 포함한다.
"스미스는 파브리오닉스의 사장이다"라는 문장에서 스미스와 파브리오닉스는 모두 고유 명사이며, 이름이나 다른 정보를 통해 더 자세히 설명할 수 있다. "사장"은 고유 명사가 아닌데, 스미스가 이전에 파브리오닉스에서 다른 직책(예: 부사장)을 맡았을 수 있기 때문이다. 고정 지시어라는 용어는 통계적 기계 번역에서 이러한 사용법을 분석하기 위해 정의한다.
고유 명사는 텍스트에서 먼저 식별되어야 한다. 식별되지 않으면 일반 명사로 잘못 번역될 수 있으며, 이는 번역의 블루 등급에는 영향을 미치지 않지만 텍스트의 가독성은 변경시킬 수 있다.[37] 고유 명사가 출력 번역에서 생략될 수도 있으며, 이는 텍스트의 가독성과 메시지에도 영향을 미칠 수 있다.
전자는 대상 언어에서 원어의 이름에 가장 가깝게 해당하는 문자를 찾는 것을 포함한다. 그러나 이것은 때때로 번역 품질을 저하시키는 것으로 지적되어 왔다.[38] "Southern California"의 경우 첫 단어는 직접 번역되어야 하지만, 두 번째 단어는 전자되어야 한다. 기계는 종종 둘 다 전자하는데, 이는 기계가 둘을 하나의 개체로 취급하기 때문이다. 이러한 단어는 전자 구성 요소가 있는 기계 번역기에게도 처리하기 어렵다.
동일한 최종 목표인 번역 대신 전자를 갖는 "번역 금지" 목록의 사용은[39] 여전히 고유 명사의 올바른 식별에 의존한다.
세 번째 접근 방식은 클래스 기반 모델이다. 고유 명사는 "클래스"를 나타내는 토큰으로 대체된다. 예를 들어 "테드"와 "에리카"는 모두 "사람" 클래스 토큰으로 대체된다. 그러면 "테드"와 "에리카"의 분포를 개별적으로 보는 대신 일반적인 사람 이름의 통계적 분포와 사용을 분석할 수 있으므로 특정 언어에서 주어진 이름의 확률이 할당된 번역 확률에 영향을 미치지 않는다. 스탠포드 대학교의 이 번역 분야 개선 연구는 "데이비드가 산책하러 간다"와 "앙킷이 산책하러 간다"의 경우 훈련 데이터에 각 이름의 발생 횟수가 다르기 때문에 대상 언어가 영어일 때 다른 확률이 할당될 것이라는 예를 제시한다. 스탠포드 대학교의 같은 연구(및 고유 명사 인식 번역을 개선하기 위한 다른 시도)에서 좌절스러운 결과는 고유 명사 번역을 위한 방법을 포함하면 번역의 블루 점수가 여러 번 감소한다는 것이다.[39]
Remove ads
응용
요약
관점
어떤 시스템도 비제한 텍스트의 완전 자동 고품질 기계 번역이라는 이상을 제공하지 못하지만, 많은 완전 자동 시스템이 합리적인 출력을 생성한다.[40][41][42] 기계 번역의 품질은 도메인이 제한되고 제어되는 경우 크게 향상된다.[43] 이를 통해 기계 번역을 번역 속도를 높이고 단순화하는 도구로 사용할 수 있을 뿐만 아니라 결함이 있지만 유용한 저렴한 또는 임시 번역을 생성할 수 있다.
여행
기계 번역 응용 프로그램은 휴대폰, 포켓 PC, PDA 등 대부분의 모바일 장치용으로도 출시되었다. 휴대성으로 인해 이러한 기기는 다른 언어를 사용하는 파트너 간의 모바일 비즈니스 네트워킹을 가능하게 하거나 외국어 학습 및 인간 번역가의 중재 없이 해외 여행을 용이하게 하는 모바일 번역 도구로 지정되었다.
예를 들어, 구글 번역 앱을 사용하면 외국인이 증강 현실을 통해 스마트폰 카메라로 주변 텍스트를 빠르게 번역하여 번역된 텍스트를 겹쳐 표시할 수 있다.[44] 또한 음성 인식을 통해 음성을 인식하고 번역할 수 있다.[45]
공공 행정
내재된 한계에도 불구하고 MT 프로그램은 전 세계적으로 사용되고 있다. 아마도 가장 큰 기관 사용자는 유럽 연합 집행위원회일 것이다. 2012년, 규칙 기반 MT를 새로운 통계 기반 MT@EC로 대체하기 위해 유럽 연합 집행위원회는 307.2만 유로를 기여했다(ISA 프로그램을 통해).[46]
위키백과
기계 번역은 위키백과 문서 번역에도 사용되었으며, MT 기능이 향상됨에 따라 미래에 문서를 생성, 업데이트, 확장 및 일반적으로 개선하는 데 더 큰 역할을 할 수 있다. 편집자들이 여러 언어로 문서를 더 쉽게 번역할 수 있도록 "콘텐츠 번역 도구"가 있다.[47][48][49] 영어 위키백과 문서는 일반적으로 다른 언어의 번역되지 않은 문서보다 더 포괄적이고 편향되지 않은 것으로 생각된다.[50] 2022년 현재 영어 위키백과는 650만 개 이상의 문서를 보유하고 있는 반면, 예를 들어 독일어 위키백과와 스웨덴어 위키백과는 각각 250만 개 이상의 문서를 보유하고 있으며,[51] 각 문서는 종종 훨씬 덜 포괄적이다.
감시 및 군사
9·11 테러를 포함한 서방 국가의 테러 공격 이후, 미국과 동맹국들은 아랍어 기계 번역 프로그램 개발뿐만 아니라 파슈토어 및 다리어 번역에도 가장 큰 관심을 보였다. 이들 언어 내에서는 휴대폰 앱을 사용하여 군인과 민간인 간의 주요 구문 및 빠른 통신에 중점을 둔다.[52] 방위고등연구계획국 정보처리기술국은 TIDES 및 바빌론 번역기와 같은 프로그램을 주최했다. 미 공군은 언어 번역 기술 개발을 위해 100만 달러 계약을 체결했다.[53]
소셜 미디어
최근 몇 년간 웹상에서 소셜 네트워크의 눈에 띄는 증가는 기계 번역 소프트웨어 적용을 위한 또 다른 틈새 시장을 만들었다. 페이스북과 같은 유틸리티 또는 스카이프, 구글 토크, 윈도우 라이브 메신저 등과 같은 인스턴트 메신저 클라이언트는 서로 다른 언어를 사용하는 사용자들이 서로 소통할 수 있도록 한다.
온라인 게임
리니지W는 기계 번역 기능으로 인해 일본에서 인기를 얻었으며, 이를 통해 다른 나라의 플레이어들이 소통할 수 있었다.[54]
의학
1966년 미국 정부가 구성한 자동 언어 처리 자문 위원회에 의해 인간 번역의 가치 없는 경쟁자로 분류되었음에도 불구하고,[55] 기계 번역의 품질은 이제 온라인 협업 및 의료 분야에서의 적용 가능성이 연구될 정도로 향상되었다. 인간 번역가가 없는 의료 환경에서 이 기술을 적용하는 것도 연구 주제이지만, 의료 진단에서 정확한 번역의 중요성 때문에 어려움이 발생한다.[56]
연구원들은 의학 분야에서 기계 번역을 사용하는 것이 중요한 상황에서 위험할 수 있는 오역의 위험을 초래할 수 있다고 경고한다.[57][58] 기계 번역은 의사가 일상 활동에서 환자와 소통하는 것을 더 쉽게 만들 수 있지만, 다른 대안이 없을 때만 기계 번역을 사용하고 번역된 의료 텍스트는 정확성을 위해 인간 번역가가 검토해야 한다고 권장된다.[59][60]
법률
법률 언어는 그 정밀한 특성과 일반 단어의 비전형적인 사용으로 인해 기계 번역 도구에 상당한 어려움을 제기한다. 이러한 이유로 법률적 맥락에서 사용하기 위한 전문 알고리즘이 개발되었다.[61] 기계 번역기에서 발생할 수 있는 오역의 위험 때문에 연구원들은 기계 번역을 정확성을 위해 인간 번역가가 검토해야 한다고 권고하며, 일부 법원은 공식 절차에서 그 사용을 금지하고 있다.[62]
법률 분야에서의 기계 번역 사용은 번역 오류 및 고객 기밀 유지에 대한 우려를 불러일으켰다. 구글 번역과 같은 무료 번역 도구를 사용하는 변호사들은 번역 도구 제공업체에 개인 정보를 노출함으로써 실수로 고객 기밀을 위반할 수 있다.[61] 또한, 기계 번역을 통해 얻은 경찰 수색 동의는 무효라는 주장이 제기되었으며, 이에 대해 다른 법원들은 다른 판결을 내리고 있다.[57]
고대 언어
최근 몇 년간 합성곱 신경망과 저자원 기계 번역(훈련에 매우 제한된 양의 데이터와 예시만 사용할 수 있는 경우)의 발전은 아카드어 및 그 방언인 바빌로니아어, 아시리아어와 같은 고대 언어에 대한 기계 번역을 가능하게 했다.[63]
Remove ads
평가
요약
관점
기계 번역 시스템이 어떻게 평가되는지에 영향을 미치는 많은 요소들이 있다. 이러한 요소들에는 번역의 의도된 용도, 기계 번역 소프트웨어의 특성, 번역 과정의 특성이 포함된다.
다른 프로그램들은 다른 목적에 잘 맞을 수 있다. 예를 들어, 통계적 기계 번역 (SMT)은 일반적으로 사례 기반 기계 번역 (EBMT)보다 성능이 뛰어나지만, 연구원들은 영어-프랑스어 번역을 평가할 때 EBMT가 더 나은 성능을 보인다는 것을 발견했다.[64] 기술 문서에도 동일한 개념이 적용되는데, 이는 공식적인 언어 때문에 SMT에 의해 더 쉽게 번역될 수 있다.
그러나 특정 응용 분야, 예를 들어 간이언어로 작성된 제품 설명에서는 사전 기반 기계 번역 시스템이 품질 검사 외에는 인간의 개입이 필요 없는 만족스러운 번역을 생성했다.[65]
기계 번역 시스템의 출력 품질을 평가하는 다양한 방법이 있다. 가장 오래된 방법은 번역 품질을 평가하기 위해 인간 심사위원[66]을 사용하는 것이다. 인간 평가는 시간이 많이 걸리지만, 규칙 기반 시스템과 통계 시스템과 같은 다른 시스템을 비교하는 데 가장 신뢰할 수 있는 방법이다.[67] 자동화된 평가 방법에는 BLEU, NIST, METEOR, LEPOR 등이 있다.[68]
편집되지 않은 기계 번역에만 의존하는 것은 자연어의 의사소통이 문맥에 내재되어 있으며, 합리적인 확률로 원문의 문맥을 이해하는 데 사람이 필요하다는 사실을 무시하는 것이다. 순수하게 인간이 생성한 번역조차도 오류가 발생할 수 있는 것은 분명하다. 따라서 기계 생성 번역이 인간에게 유용하고 출판 가능한 품질의 번역이 달성되도록 하려면 이러한 번역은 인간에 의해 검토되고 편집되어야 한다.[69] 고인이 된 클로드 피롱은 기계 번역이 최선을 다해도 번역가의 업무 중 쉬운 부분을 자동화하며, 더 어렵고 시간이 많이 걸리는 부분은 일반적으로 원시 텍스트의 중의성을 해결하기 위해 광범위한 조사를 수행하는 것을 포함하며, 이는 대상 언어의 문법적 및 어휘적 요구 사항에 따라 해결되어야 한다고 썼다. 이러한 조사는 기계 번역 소프트웨어에 입력할 때 출력이 의미 없는 것이 되지 않도록 필요한 전처리의 필수적인 서곡이다.[70]
중의성 해소 문제 외에도, 기계 번역 프로그램의 훈련 데이터 수준이 다양하여 정확도가 떨어질 수 있다. 사례 기반 및 통계 기반 기계 번역 모두 번역의 기초로 방대한 양의 실제 예제 문장에 의존하며, 너무 많은 또는 너무 적은 문장이 분석되면 정확성이 저해된다. 연구원들은 프로그램이 203,529쌍의 문장으로 훈련되었을 때 정확도가 실제로 감소한다는 것을 발견했다.[64] 최적의 훈련 데이터 수준은 약 100,000개 문장인 것으로 보이는데, 이는 훈련 데이터가 증가함에 따라 가능한 문장의 수가 증가하여 정확한 번역 일치를 찾기가 더 어려워지기 때문일 수 있다.
기계 번역의 결함은 오락적 가치로도 지적되어 왔다. 2017년 4월 유튜브에 업로드된 두 개의 영상은 일본 히라가나 문자 두 글자 えぐ (え와 ぐ)를 구글 번역에 반복적으로 붙여넣으면 번역 결과가 빠르게 "DECEARING EGG", "Deep-sea squeeze trees"와 같은 무의미한 문구로 변질되고, 이를 점점 더 터무니없는 목소리로 읽는 것을 담고 있다.[71][72] 이 영상의 풀버전은 현재 710만 조회수를 기록하고 있다. 2025년 8월년 기준[update][73]
Remove ads
기계 번역과 수화 언어
2000년대 초반에는 구어와 수화 언어 간의 기계 번역 옵션이 매우 제한적이었다. 청각 장애인도 전통적인 번역기를 사용할 수 있다는 것이 일반적인 믿음이었다. 그러나 구어에서는 강세, 억양, 음높이, 타이밍이 수화 언어와는 매우 다르게 전달된다. 따라서 청각 장애인은 구어 기반의 문자 텍스트의 의미를 잘못 해석하거나 혼란스러워할 수 있다.[74]
연구원 자오(Zhao) 등(2000)은 영어에서 미국 수화 (ASL)로 번역을 완료하는 TEAM (translation from English to ASL by machine)이라는 프로토타입을 개발했다. 이 프로그램은 먼저 영어 텍스트의 통사론적, 문법적, 형태론적 측면을 분석했다. 다음 단계로, 이 프로그램은 ASL용 사전 역할을 하는 수화 합성기에 접근했다. 이 합성기는 ASL 수화를 완료하기 위해 따라야 할 과정과 이 수화들의 의미를 담고 있었다. 전체 텍스트가 분석되고 번역을 완료하는 데 필요한 수화가 합성기에서 발견되면, 컴퓨터로 생성된 인간이 나타나 ASL을 사용하여 영어 텍스트를 사용자에게 수화로 보여주었다.[74]
Remove ads
저작권
독창적인 저작물만이 저작권 보호의 대상이 되므로, 일부 학자들은 기계 번역 결과가 창의성을 포함하지 않기 때문에 저작권 보호를 받을 자격이 없다고 주장한다.[75] 문제의 저작권은 2차적저작물에 대한 것이다. 원어의 원본 저작자는 작품이 번역될 때 자신의 권리를 잃지 않는다. 번역가는 번역본을 출판할 수 있는 허가를 받아야 한다.
같이 보기
각주
외부 링크
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads