상위 질문
타임라인
채팅
관점

구글 엔그램 뷰어

위키백과, 무료 백과사전

구글 엔그램 뷰어
Remove ads

구글 엔그램 뷰어(Google Ngram Viewer) 또는 구글 북스 엔그램 뷰어(Google Books Ngram Viewer)는 영어, 중국어(간체), 프랑스어, 독일어, 히브리어, 이탈리아어, 러시아어, 스페인어로 된[1][2] 구글의 말뭉치에서 1500년부터 2019년 사이[3][1][4][5][6] 인쇄된 출전에서 발견되는 연간 n-gram의 수를 이용하여 일련의 검색 문자열의 주기를 도표화하는 온라인 검색 엔진이다. 미국 영어, 영국 영어, 영어 픽션 등 일부 특수한 영어 말뭉치도 존재한다.[7]

Thumb

이 프로그램은 오철자나 이치에 맞지 않는 단어나 구를 검색할 수 있다.[2] n-gram은 선택된 말뭉치 내에서 텍스트와 매칭이 되며 선택적으로 철자의 대소문자 구별이 가능하며[8] 40개 이상의 서적에서 발견되는 경우 그래프로 표출된다.[9]

구글 엔그램 뷰어는 품사와일드카드 검색을 지원한다.[7] 이는 검색에 주로 사용된다.[10][11]

Remove ads

역사

이 프로그램은 Jon Orwant, Will Brockman에 의해 개발되었으며 2010년 12월 중순에 출시되었다.[1][4]

말뭉치

요약
관점

검색에 쓰이는 말뭉치는 각 언어별로 total_counts, 1-grams, 2-grams, 3-grams, 4-grams, 5-grams로 구성된다. 각 파일의 개별 파일 포맷은 TSV(탭 구분 데이터)로 되어 있다. 각 줄은 다음의 포맷을 가진다:[12]

  • total_counts 파일
    year TAB match_count TAB page_count TAB volume_count NEWLINE
  • 버전 1 ngram 파일 (2009년 7월 생성됨)
    ngram TAB year TAB match_count TAB page_count TAB volume_count NEWLINE
  • 버전 2 ngram 파일 (2012년 7월 생성됨)
    ngram TAB year TAB match_count TAB volume_count NEWLINE

구글 엔그램 뷰어는 match_count를 사용하여 그래프를 그린다.

한 예로, 영어 1-grams의 버전 2 파일의 "Wikipedia"라는 단어는 다음과 같이 저장되어 있다:[13]

자세한 정보 ngram, year ...

위 데이터를 사용하여 구글 엔그램 뷰어가 그려낸 그래프는 여기에 있다:[14]

Remove ads

같이 보기

각주

외부 링크

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads