문자열 검색 알고리즘

문자열 검색 알고리즘(string-searching algorithm), 때로는 문자열 일치 알고리즘(string-matching algorithm)이라고도 불리는 이 알고리즘은 문자열 본문에서 패턴과 일치하는 부분을 검색하는 알고리즘이다.

문자열 검색의 기본적인 예는 패턴과 검색되는 텍스트가 유한 집합 Σ의 알파벳 요소의 배열인 경우이다. Σ는 예를 들어 인간 언어의 알파벳(A부터 Z까지의 글자)일 수 있고, 다른 응용 분야에서는 이진 알파벳(Σ = {0,1}) 또는 생물정보학에서 DNA 알파벳(Σ = {A,C,G,T})을 사용할 수 있다.

실제로, 실현 가능한 문자열 검색 알고리즘의 방법은 문자열 인코딩에 영향을 받을 수 있다. 특히, 가변 너비 인코딩이 사용되는 경우, N번째 문자를 찾는 것이 더 느려질 수 있으며, N에 비례하는 시간이 필요할 수도 있다. 이는 일부 검색 알고리즘의 속도를 크게 저하시킬 수 있다. 가능한 많은 해결책 중 하나는 코드 단위의 시퀀스를 대신 검색하는 것이지만, 인코딩이 이를 피하도록 특별히 설계되지 않았다면 잘못된 일치(false matches)를 생성할 수 있다.

알고리즘	전처리 시간	일치 시간	공간
순진한 알고리즘	없음	평균 Θ(n+m), O(mn)	없음
오토마타 기반 일치	Θ(km)	Θ(n)	Θ(km)
라빈-카프	Θ(m)	평균 Θ(n), 최악 O(mn)	O(1)
커누스-모리스-프랫	Θ(m)	Θ(n)	Θ(m)
보이어-무어	Θ(m + k)	최선 O(n/m), 최악 O(mn)	Θ(k)
양방향 알고리즘^[3]	Θ(m)	O(n)	O(log(m))
역방향 비결정적 DAWG 매칭 (BNDM)^[4]	O(m)	최선 Ω(n/m), 최악 O(mn)
역방향 오라클 매칭 (BOM)^[5]	O(m)	O(mn)

알고리즘	확장	전처리 시간	일치 시간	공간
아호-코라식	커누스-모리스-프랫	Θ(m)	Θ(n + o)	Θ(m)
콤멘츠-월터	보이어-무어	Θ(m)	최악 O(M * n) 평균 준선형^[9]	Θ(m)
Set-BOM	역방향 오라클 매칭

	텍스트 전처리 없음	텍스트 전처리됨
패턴 전처리 없음	기본 알고리즘	인덱스 방법
패턴 전처리됨	구축된 검색 엔진	시그니처 방법^[11]

문자열 검색 알고리즘

개요

검색 알고리즘의 예시

순진한 문자열 검색

유한 상태 오토마타 기반 검색

스텁

인덱스 방식

기타 변형

검색 알고리즘의 분류

패턴 개수에 따른 분류

단일 패턴 알고리즘

유한 패턴 집합을 사용하는 알고리즘

무한 패턴 집합을 사용하는 알고리즘

전처리 프로그램 사용에 따른 분류

매칭 전략에 따른 분류

실시간 문자열 매칭

와일드카드 문자열 검색

같이 보기

각주

외부 링크

Wikiwand - on