상위 질문
타임라인
채팅
관점
검색 엔진
웹 사이트를 검색하기 위한 프로그램 위키백과, 무료 백과사전
Remove ads

검색 엔진(search engine)은 사용자의 쿼리에 응답하여 웹의 웹 페이지 및 기타 관련 정보에 대한 하이퍼링크를 제공하는 소프트웨어 시스템이다. 사용자는 웹 브라우저 또는 모바일 앱에 쿼리를 입력하며, 검색 결과는 일반적으로 텍스트 요약 및 이미지와 함께 하이퍼링크 목록으로 표시된다. 사용자는 검색을 이미지, 비디오 또는 뉴스 등 특정 유형의 결과로 제한할 수도 있다.

검색 제공자에게는 엔진이 전 세계의 많은 데이터 센터를 포함할 수 있는 분산 컴퓨팅 시스템의 일부이다. 엔진의 쿼리에 대한 응답 속도와 정확성은 자동화된 웹 크롤러에 의해 지속적으로 업데이트되는 복잡한 색인 시스템에 기반한다. 여기에는 웹 서버에 저장된 컴퓨터 파일 및 데이터베이스의 데이터 마이닝이 포함될 수 있지만, 일부 콘텐츠는 크롤러가 접근할 수 없는 심층 웹에 있다.
1990년대 웹이 등장한 이래로 많은 검색 엔진이 있었지만, 구글 검색은 2000년대에 지배적인 위치를 차지했으며 지금까지 유지하고 있다. 2025년 5월 현재, StatCounter에 따르면 구글은 전 세계 검색 시장 점유율의 약 89–90%를 차지하며, 경쟁업체들은 한참 뒤처져 있다: 빙 (~4%), 얀덱스 (~2.5%), 야후! (~1.3%), 덕덕고 (~0.8%), 그리고 바이두 (~0.7%).[1] 특히, 이는 구글의 점유율이 90% 아래로 떨어진 것이 10여 년 만에 처음이다. 따라서 웹사이트가 마케팅 및 최적화로 알려진 검색 결과에서 가시성을 향상시키는 사업은 주로 구글에 집중되었다.
Remove ads
역사
요약
관점
1990년대 이전
1945년 버니바 부시는 사용자가 하나의 책상에서 방대한 정보에 접근할 수 있게 해주는 정보 검색 시스템을 설명했으며, 이를 메멕스라고 불렀다.[2] 그는 이 시스템을 《디 애틀랜틱 먼슬리》에 실린 "As We May Think"라는 제목의 기사에서 설명했다.[3] 메멕스는 계속해서 성장하는 과학 연구의 중앙 집중식 색인에서 정보를 찾는 것이 점점 더 어려워지는 문제를 사용자가 극복할 수 있도록 고안되었다. 버니바 부시는 현대의 하이퍼링크와 유사한 연결된 주석이 있는 연구 라이브러리를 구상했다.[4]
링크 분석은 결국 하이퍼 서치와 페이지랭크와 같은 알고리즘을 통해 검색 엔진의 중요한 구성 요소가 되었다.[5][6]
1990년대: 검색 엔진의 탄생
최초의 인터넷 검색 엔진은 1990년 12월 웹이 등장하기 전부터 존재했다. WHOIS 사용자 검색은 1982년으로 거슬러 올라가고,[7] Knowbot 정보 서비스 다중 네트워크 사용자 검색은 1989년에 처음 구현되었다.[8] 콘텐츠 파일, 즉 FTP 파일을 검색한 최초의 잘 문서화된 검색 엔진은 1990년 9월 10일에 출시된 아키였다.[9]
1993년 9월 이전에는 월드 와이드 웹이 전적으로 수동으로 색인화되었다. 팀 버너스리가 편집하고 CERN 웹 서버에서 호스팅한 웹 서버 목록이 있었다. 1992년의 목록 스냅샷이 하나 남아 있지만,[10] 점점 더 많은 웹 서버가 온라인 상태가 되면서 중앙 목록은 더 이상 따라갈 수 없었다. 국립 슈퍼컴퓨팅 응용 센터 사이트에서는 "What's New!"라는 제목으로 새로운 서버가 발표되었다.[11]
인터넷에서 콘텐츠(사용자와는 반대로)를 검색하는 데 사용된 최초의 도구는 아키였다.[12] 이름은 "v"가 없는 "아카이브"를 의미한다.[13] 캐나다 몬트리올의 맥길 대학교 컴퓨터 과학 학생이었던 앨런 엠티지가 만들었다.[13][14][15][16] 이 프로그램은 공용 익명 FTP(파일 전송 프로토콜) 사이트에 있는 모든 파일의 디렉터리 목록을 다운로드하여 파일 이름의 검색 가능한 데이터베이스를 생성했다. 그러나 아키 검색 엔진은 이 사이트의 내용을 색인화하지 않았다. 데이터 양이 너무 제한적이어서 수동으로 쉽게 검색할 수 있었기 때문이다.
1991년 미네소타 대학교의 마크 맥캐힐이 만든 고퍼의 등장은 두 가지 새로운 검색 프로그램인 베로니카와 저그헤드로 이어졌다. 아키와 마찬가지로 이들은 고퍼 색인 시스템에 저장된 파일 이름과 제목을 검색했다. 베로니카(Very Easy Rodent-Oriented Net-wide Index to Computerized Archives)는 전체 고퍼 목록에서 대부분의 고퍼 메뉴 제목에 대한 키워드 검색을 제공했다. 저그헤드(Jonzy's Universal Gopher Hierarchy Excavation And Display)는 특정 고퍼 서버에서 메뉴 정보를 얻기 위한 도구였다. 검색 엔진 "아키 검색 엔진"의 이름이 아치 만화책 시리즈를 참조한 것은 아니지만, "베로니카"와 "저그헤드"는 이 시리즈의 등장인물로, 전작을 참조하고 있다.
1993년 여름에는 웹을 위한 검색 엔진이 존재하지 않았지만, 수많은 전문화된 카탈로그가 수동으로 관리되고 있었다. 제네바 대학교의 오스카 니어스트라즈는 이러한 페이지를 주기적으로 미러링하고 표준 형식으로 다시 작성하는 일련의 펄 스크립트를 작성했다. 이것은 웹의 최초의 원시적인 검색 엔진인 W3Catalog의 기반이 되었고, 1993년 9월 2일에 출시되었다.[17]
1993년 6월, 당시 MIT에 재학 중이던 매튜 그레이는 아마도 최초의 웹 로봇인 펄 기반의 월드 와이드 웹 원더러를 만들었고, 이를 사용하여 "Wandex"라는 색인을 생성했다. 원더러의 목적은 월드 와이드 웹의 크기를 측정하는 것이었으며, 1995년 말까지 이 작업을 수행했다. 웹의 두 번째 검색 엔진 Aliweb은 1993년 11월에 등장했다. Aliweb은 웹 로봇을 사용하지 않고, 웹사이트 관리자가 특정 형식의 색인 파일이 각 사이트에 존재한다는 것을 통보해 주는 방식에 의존했다.
JumpStation (1993년 12월 조너선 플레처가 만듦[18])은 웹 로봇을 사용하여 웹 페이지를 찾고 색인을 구축했으며, 웹 폼을 쿼리 프로그램의 인터페이스로 사용했다. 따라서 이는 아래에 설명된 웹 검색 엔진의 세 가지 필수 기능(크롤링, 색인화, 검색)을 결합한 최초의 WWW 리소스 검색 도구였다. 실행되는 플랫폼의 제한된 리소스 때문에 색인화 및 검색은 크롤러가 발견한 웹 페이지의 제목과 헤딩으로 제한되었다.
최초의 "모든 텍스트" 크롤러 기반 검색 엔진 중 하나는 1994년에 출시된 웹크롤러였다. 이전 엔진들과 달리, 웹크롤러는 사용자가 모든 웹 페이지에서 어떤 단어든 검색할 수 있도록 허용했으며, 이는 이후 모든 주요 검색 엔진의 표준이 되었다. 또한 일반 대중에게 널리 알려진 검색 엔진이었다. 또한 1994년에는 카네기 멜런 대학교에서 시작된 라이코스가 출시되어 주요 상업적 사업이 되었다.
웹에서 최초로 인기 있는 검색 엔진은 야후! 검색이었다.[19] 제리 양과 데이비드 파일로가 1994년 1월에 설립한 야후!의 첫 번째 제품은 웹 디렉터리인 Yahoo! Directory였다. 1995년에는 검색 기능이 추가되어 사용자가 Yahoo! Directory를 검색할 수 있게 되었다.[20][21] 이는 사람들이 관심 있는 웹 페이지를 찾는 가장 인기 있는 방법 중 하나가 되었지만, 그 검색 기능은 웹 페이지의 전체 텍스트 사본이 아닌 웹 디렉터리에서 작동했다.
곧이어 많은 검색 엔진이 등장하여 인기를 다투었다. 여기에는 매젤란, 익사이트, 인포시크, 잉크토미, 노던 라이트, 알타비스타 등이 포함되었다. 정보 검색자들은 키워드 기반 검색 대신 디렉터리를 탐색할 수도 있었다.
1996년 리옌훙은 검색 엔진 결과 페이지 순위 지정을 위한 RankDex 사이트 스코어링 알고리즘을 개발했고,[22][23][24] 이 기술로 미국 특허를 받았다.[25] 이는 하이퍼링크를 사용하여 색인화하는 웹사이트의 품질을 측정하는 최초의 검색 엔진이었으며,[26] 2년 후인 1998년에 구글이 출원한 매우 유사한 알고리즘 특허보다 앞선 것이었다.[27] 래리 페이지는 자신의 페이지랭크 미국 특허 중 일부에서 리의 작업을 언급했다.[28] 리는 나중에 자신의 RankDex 기술을 사용하여 2000년에 중국에서 설립한 바이두 검색 엔진에 적용했다.
1996년, 넷스케이프는 넷스케이프의 웹 브라우저에서 주요 검색 엔진으로 단일 검색 엔진에게 독점 계약을 제공하려 했다. 관심이 너무 많아서 대신 넷스케이프는 주요 검색 엔진 5곳과 계약을 맺었다. 연간 5백만 달러를 받고 각 검색 엔진은 넷스케이프 검색 엔진 페이지에서 번갈아 가며 나타나게 되었다. 이 5개 엔진은 야후!, 매젤란, 라이코스, 인포시크, 익사이트였다.[29][30]
구글은 1998년 goto.com이라는 작은 검색 엔진 회사로부터 검색어 판매 아이디어를 채택했다. 이 움직임은 검색 엔진 사업에 상당한 영향을 미쳤는데, 고전하던 사업이 인터넷에서 가장 수익성 높은 사업 중 하나로 변모했다.[31][32]
검색 엔진은 1990년대 후반에 발생한 인터넷 투자 광풍에서 가장 빛나는 별 중 일부로도 알려져 있었다.[33] 여러 회사가 화려하게 시장에 진입하여 기업공개 시 기록적인 이익을 얻었다. 일부는 공개 검색 엔진을 폐쇄하고 노던 라이트처럼 기업 전용 버전을 판매하고 있다. 많은 검색 엔진 회사는 2000년 3월에 정점을 찍은 투기 주도 시장 호황인 닷컴버블에 휩쓸렸다.
2000년대-현재: 닷컴 버블 이후
2000년경 구글의 검색 엔진이 유명해졌다.[34] 이 회사는 구글의 창립자인 세르게이 브린과 래리 페이지가 작성한 "검색 엔진의 해부학"이라는 논문에 설명된 페이지랭크라는 알고리즘을 사용하여 많은 검색에서 더 나은 결과를 얻었다.[6] 이 반복 알고리즘은 좋거나 바람직한 페이지가 다른 페이지보다 더 많이 링크된다는 전제하에 다른 웹사이트와 페이지의 링크 수와 페이지랭크를 기반으로 웹 페이지의 순위를 매긴다. 래리 페이지의 페이지랭크 특허는 리옌훙의 이전 RankDex 특허를 영향을 준 것으로 인용한다.[28][24] 구글은 또한 검색 엔진에 대한 미니멀리스트 인터페이스를 유지했다. 대조적으로, 많은 경쟁업체는 검색 엔진을 웹 포털에 내장했다. 사실, 구글 검색 엔진은 너무 인기가 많아 Mystery Seeker와 같은 스푸프 엔진이 등장하기도 했다.
2000년까지 야후!는 잉크토미의 검색 엔진을 기반으로 검색 서비스를 제공하고 있었다. 야후!는 2002년에 잉크토미를, 2003년에는 오버추어(AlltheWeb과 알타비스타를 소유)를 인수했다. 야후!는 2004년까지 구글의 검색 엔진으로 전환하다가 인수한 기술들을 결합하여 자체 검색 엔진을 출시했다.
마이크로소프트는 1998년 가을 잉크토미의 검색 결과를 사용하여 MSN 검색을 처음 출시했다. 1999년 초에는 룩스마트의 목록을 잉크토미의 결과와 혼합하여 표시하기 시작했다. 1999년 잠시 동안 MSN 검색은 대신 알타비스타의 결과를 사용했다. 2004년, 마이크로소프트는 자체 웹 크롤러(msnbot이라고 함)로 구동되는 자체 검색 기술로 전환하기 시작했다.
마이크로소프트의 새로운 검색 엔진인 빙은 2009년 6월 1일에 출시되었다. 2009년 7월 29일, 야후!와 마이크로소프트는 야후! 검색이 마이크로소프트 빙 기술로 구동될 것이라는 계약을 최종 확정했다.
2019년 기준[update] 현재 활동 중인 검색 엔진 크롤러에는 구글, Sogou, 바이두, 빙, Gigablast, Mojeek, 덕덕고 및 얀덱스의 크롤러가 있다.
Remove ads
접근 방식
요약
관점
검색 엔진은 다음 프로세스를 거의 실시간으로 유지한다.[35]
웹 검색 엔진은 웹 크롤링을 통해 사이트에서 사이트로 정보를 얻는다. "스파이더"는 자신에게 할당된 표준 파일 이름인 robots.txt를 확인한다. robots.txt 파일에는 검색 스파이더에 어떤 페이지를 크롤링하고 어떤 페이지를 크롤링하지 않을지 지시하는 지시문이 포함되어 있다. robots.txt를 확인하고 파일을 찾거나 찾지 못한 후, 스파이더는 제목, 페이지 내용, 자바스크립트, 캐스케이딩 스타일 시트(CSS), 헤딩 또는 HTML 메타 태그의 메타데이터와 같은 여러 요인에 따라 특정 정보를 다시 색인하도록 보낸다. 특정 수의 페이지를 크롤링하거나, 색인화된 데이터 양이 많거나, 웹사이트에서 보낸 시간이 지나면 스파이더는 크롤링을 중단하고 다음으로 넘어간다. "어떤 웹 크롤러도 실제로 접근 가능한 웹 전체를 크롤링할 수는 없다. 무한한 웹사이트, 스파이더 트랩, 스팸 및 실제 웹의 다른 비상사태로 인해 크롤러는 대신 크롤링 정책을 적용하여 사이트 크롤링이 충분하다고 판단될 시기를 결정한다. 일부 웹사이트는 철저히 크롤링되지만, 다른 웹사이트는 부분적으로만 크롤링된다."[37]
색인화란 웹 페이지에서 발견된 단어와 기타 정의 가능한 토큰을 해당 도메인 이름 및 HTML 기반 필드와 연결하는 것을 의미한다. 이러한 연결은 공개 데이터베이스에 저장되며 웹 검색 쿼리를 통해 접근할 수 있다. 사용자로부터의 쿼리는 단일 단어, 여러 단어 또는 문장일 수 있다. 색인은 쿼리와 관련된 정보를 가능한 한 빨리 찾는 데 도움이 된다.[36] 색인화 및 캐싱 기술 중 일부는 영업 비밀인 반면, 웹 크롤링은 모든 사이트를 체계적으로 방문하는 간단한 과정이다.
스파이더가 방문하는 동안, 검색 엔진 작업 메모리에 저장된 페이지의 캐시된 버전(페이지를 렌더링하는 데 필요한 콘텐츠의 일부 또는 전부)이 요청자에게 빠르게 전송된다. 방문 기한이 지난 경우, 검색 엔진은 대신 웹 프록시 역할을 할 수 있다. 이 경우 페이지는 색인화된 검색어와 다를 수 있다.[36] 캐시된 페이지는 이전에 단어가 색인화되었던 버전의 모양을 유지하므로 실제 페이지가 손실되었을 때 웹사이트에 캐시된 버전의 페이지가 유용할 수 있지만, 이 문제 또한 가벼운 형태의 링크 깨짐으로 간주된다.

일반적으로 사용자가 검색 엔진에 쿼리를 입력할 때에는 몇 가지 키워드를 사용한다.[38] 역색인에는 이미 키워드를 포함하는 사이트의 이름이 있으며, 이들은 색인에서 즉시 얻어진다. 실제 처리 부하는 검색 결과 목록인 웹 페이지를 생성하는 데 있다. 전체 목록의 모든 페이지는 색인의 정보에 따라 가중치가 부여되어야 한다.[36] 그런 다음 상위 검색 결과 항목은 일치하는 키워드의 컨텍스트를 보여주는 스니펫을 조회, 재구성 및 마크업해야 한다. 이것들은 각 검색 결과 웹 페이지가 요구하는 처리의 일부에 불과하며, 추가 페이지(상위 다음)는 이러한 후처리 작업을 더 많이 요구한다.
간단한 키워드 조회 외에도 검색 엔진은 검색 결과를 구체화하기 위해 자체적인 GUI 또는 명령 기반 연산자 및 검색 매개변수를 제공한다. 이러한 기능은 첫 검색 결과의 초기 페이지를 기반으로 사용자가 검색 결과를 필터링하고 가중치를 부여하면서 생성하는 피드백 루프에 참여하는 데 필요한 제어를 제공한다. 예를 들어, 2007년부터 Google.com 검색 엔진은 초기 검색 결과 페이지의 가장 왼쪽 열에서 "검색 도구 표시"를 클릭한 다음 원하는 날짜 범위를 선택하여 날짜별로 필터링할 수 있도록 허용했다.[39] 각 페이지에는 수정 시간이 있으므로 날짜별로 가중치를 부여하는 것도 가능하다. 대부분의 검색 엔진은 최종 사용자가 검색 쿼리를 구체화하는 데 도움이 되도록 Boolean 연산자 AND, OR 및 NOT의 사용을 지원한다. 불리언 연산자는 사용자가 검색 용어를 구체화하고 확장할 수 있도록 하는 리터럴 검색에 사용된다. 엔진은 입력된 단어 또는 구문을 정확히 찾는다. 일부 검색 엔진은 사용자가 키워드 간의 거리를 정의할 수 있는 근접 검색이라는 고급 기능을 제공한다.[36] 또한 사용자가 검색하는 단어 또는 구문을 포함하는 페이지에 대한 통계 분석을 사용하는 개념 검색도 있다.
검색 엔진의 유용성은 반환하는 결과 세트의 적합성에 달려 있다. 특정 단어나 구문을 포함하는 수백만 개의 웹 페이지가 있을 수 있지만, 일부 페이지는 다른 페이지보다 더 관련성이 높거나, 인기가 많거나, 권위가 있을 수 있다. 대부분의 검색 엔진은 "최고의" 결과를 먼저 제공하기 위해 결과를 순위 매기는 방법을 사용한다. 검색 엔진이 어떤 페이지가 가장 일치하는지, 그리고 어떤 순서로 결과를 표시해야 하는지를 결정하는 방법은 엔진마다 크게 다르다.[36] 이러한 방법은 인터넷 사용이 변하고 새로운 기술이 발전함에 따라 시간과 함께 변한다. 진화한 검색 엔진의 주요 유형은 두 가지다. 하나는 인간이 광범위하게 프로그래밍한 미리 정의되고 계층적으로 정렬된 키워드 시스템이다. 다른 하나는 찾은 텍스트를 분석하여 "역색인"을 생성하는 시스템이다. 첫 번째 형태는 컴퓨터 자체에 훨씬 더 많이 의존하여 대부분의 작업을 수행한다.
대부분의 웹 검색 엔진은 광고 수익으로 운영되는 상업적 사업이므로, 일부는 광고주가 유료로 검색 결과에서 자신의 목록 순위를 높일 수 있도록 허용한다. 검색 결과에 대해 돈을 받지 않는 검색 엔진은 일반 검색 엔진 결과와 함께 검색 관련 광고를 게재하여 돈을 번다. 검색 엔진은 누군가 이러한 광고를 클릭할 때마다 돈을 번다.[40]
지역 검색
지역 검색은 지역 비즈니스의 노력을 최적화하는 과정이다. 이들은 일관된 검색 결과를 보장하는 데 중점을 둔다. 많은 사람들이 검색을 기반으로 어디로 갈지, 무엇을 살지 결정하기 때문에 중요하다.[41]
Remove ads
시장 점유율
2022년 01월 기준[update] 구글은 전 세계에서 가장 많이 사용되는 검색 엔진으로 시장 점유율 90%를 차지하고 있으며, 세계에서 두 번째로 많이 사용되는 검색 엔진은 빙이 4%, 얀덱스가 2%, 야후!가 1%를 차지했다. 목록에 없는 다른 검색 엔진은 시장 점유율이 3% 미만이다.[42] 2024년, 구글의 지배력은 미국 법무부가 제기한 소송에서 불법 독점으로 판결되었다.[43]
![]() | 이 그래프는 더 이상 지원되지 않는 레거시 그래프 확장 기능을 사용하고 있습니다. 새로운 차트 확장 기능으로 변환해야 합니다. |
러시아 및 동아시아
러시아에서 얀덱스는 62.6%의 시장 점유율을 가지고 있으며, 구글은 28.3%이다. 얀덱스는 아시아와 유럽에서 스마트폰에서 두 번째로 많이 사용되는 검색 엔진이다.[44] 중국에서는 바이두가 가장 인기 있는 검색 엔진이다.[45] 한국 기반 검색 포털인 네이버는 국내 온라인 검색의 62.8%를 차지한다.[46] Yahoo! Japan과 Yahoo! Taiwan은 각각 일본과 대만에서 인터넷 검색에 가장 인기 있는 선택지이다.[47] 중국은 구글이 웹 검색 엔진 시장 점유율 상위 3위에 들지 못하는 몇 안 되는 국가 중 하나이다. 구글은 이전에 중국에서 더 인기가 있었지만, 검열과 사이버 공격에 대한 정부와의 불화로 인해 크게 철수했다. 그러나 빙은 14.95%의 시장 점유율로 웹 검색 엔진 상위 3위에 속한다. 바이두는 49.1%의 시장 점유율로 선두를 달리고 있다.[48]
유럽
유럽 연합 대부분의 국가 시장은 구글이 지배하고 있으며, 체코에서는 Seznam이 강력한 경쟁자이다.[49]
검색 엔진 Qwant는 프랑스 파리에 본사를 두고 있으며, 대부분의 월간 5천만 명의 등록 사용자를 이곳에서 유치한다.
검색 엔진 편향
검색 엔진은 인기도와 관련성 조합을 기반으로 웹사이트 순위를 매기도록 프로그램되어 있지만, 실증 연구에 따르면 제공하는 정보와[50][51] 기술의 기본 가정에[52] 다양한 정치적, 경제적, 사회적 편향이 존재함을 나타낸다. 이러한 편향은 경제적 및 상업적 과정(예: 검색 엔진에 광고하는 회사가 자연 검색 결과에서 더 인기를 얻을 수 있음)과 정치적 과정(예: 현지 법률 준수를 위한 검색 결과 삭제)의 직접적인 결과일 수 있다.[53] 예를 들어, 구글은 홀로코스트 부정이 불법인 프랑스와 독일에서는 특정 네오나치 웹사이트를 검색 결과에 표시하지 않는다.
편향은 또한 사회적 과정의 결과일 수도 있는데, 검색 엔진 알고리즘은 종종 비정규적인 관점을 배제하고 더 "인기 있는" 결과를 선호하도록 설계되기 때문이다.[54] 주요 검색 엔진의 색인화 알고리즘은 비미국 국가의 웹사이트보다 미국 기반 사이트의 적용 범위에 편향되어 있다.[51]
구글 폭탄은 정치적, 사회적 또는 상업적 목적으로 검색 결과를 조작하려는 시도의 한 예이다.
여러 학자들이 검색 엔진이 촉발한 문화적 변화,[55] 그리고 아일랜드에서의 테러리즘,[56] 기후 변화 부정,[57] 및 음모론과 같은 논란이 많은 주제의 검색 결과 표현을 연구했다.[58]
Remove ads
맞춤 결과 및 필터 버블
구글이나 빙과 같은 검색 엔진이 사용자의 활동 기록에 기반하여 맞춤 결과를 제공하여, 일라이 파리저가 2011년에 에코 챔버 또는 필터 버블이라고 부른 현상으로 이어진다는 우려가 제기되었다.[59] 주장은 검색 엔진과 소셜 미디어 플랫폼이 사용자 정보(위치, 과거 클릭 행동 및 검색 기록 등)를 기반으로 사용자가 보고 싶어할 정보를 선택적으로 추측하기 위해 알고리즘을 사용한다는 것이다. 결과적으로 웹사이트는 사용자의 과거 관점과 일치하는 정보만을 보여주는 경향이 있다. 일라이 파리저에 따르면, 사용자들은 상충되는 관점에 덜 노출되고 자신의 정보 거품 속에 지적으로 고립된다. 이 문제가 확인된 이후, 덕덕고와 같이 사용자를 추적하거나 "거품을 만들지" 않아 이 문제를 피하려는 경쟁 검색 엔진들이 등장했다. 그러나 많은 학자들은 파리저의 견해에 의문을 제기하며, 필터 버블에 대한 증거가 거의 없음을 발견했다.[60][61][62] 오히려 필터 버블의 존재를 확인하려는 여러 연구는 검색에서 사소한 수준의 개인화만을 발견했으며,[62] 대부분의 사람들이 온라인에서 다양한 관점을 접하고, 구글 뉴스는 주류 언론을 홍보하는 경향이 있음을 발견했다.[63][61]
Remove ads
종교적 검색 엔진
지난 10년간 아랍 및 이슬람 세계에서 인터넷과 전자 미디어의 전 세계적인 성장은 중동 및 아시아 아대륙의 이슬람 신도들에게 자체 검색 엔진, 즉 사용자가 안전 검색을 수행할 수 있도록 하는 자체 필터링된 검색 포털을 시도하도록 장려했다. 일반적인 안전 검색 필터보다 더 많은 이슬람 웹 포털은 샤리아 법 해석에 따라 웹사이트를 "할랄" 또는 "하람"으로 분류한다. ImHalal은 2011년 9월에 온라인으로 출시되었다. Halalgoogling은 2013년 7월에 온라인으로 출시되었다. 이들은 구글과 빙(및 기타)에서 수집된 내용에 하람 필터를 사용한다.[64]
투자 부족과 이슬람 세계 기술 발전의 더딘 속도가 이슬람 검색 엔진의 발전과 성공을 방해했지만, 주요 소비층인 이슬람 신도를 대상으로 하는 Muxlim(무슬림 라이프스타일 사이트)과 같은 프로젝트는 Rite Internet Ventures와 같은 투자자로부터 수백만 달러를 받았지만 역시 실패했다. 다른 종교 지향 검색 엔진으로는 구글의 유대인 버전인 Jewogle과[65] 기독교 검색 엔진인 SeekFind.org가 있다. SeekFind는 신앙을 공격하거나 훼손하는 사이트를 필터링한다.[66]
Remove ads
검색 엔진 제출
웹 검색 엔진 제출은 웹마스터가 웹사이트를 검색 엔진에 직접 제출하는 과정이다. 검색 엔진 제출은 때때로 웹사이트를 홍보하는 방법으로 제시되지만, 일반적으로는 필요하지 않다. 주요 검색 엔진은 웹 크롤러를 사용하여 인터넷상의 대부분의 웹사이트를 도움 없이도 결국 찾아내기 때문이다. 웹마스터는 한 번에 한 웹 페이지를 제출하거나, 사이트맵을 사용하여 전체 사이트를 제출할 수 있지만, 검색 엔진이 잘 설계된 웹사이트를 크롤링할 수 있으므로 일반적으로 웹사이트의 홈페이지만 제출하면 된다. 웹사이트 또는 웹 페이지를 검색 엔진에 제출해야 하는 두 가지 남은 이유는 다음과 같다. 검색 엔진이 새로운 웹사이트를 발견할 때까지 기다리지 않고 완전히 새로운 웹사이트를 추가하는 경우, 그리고 웹사이트가 크게 재설계된 후 웹사이트 기록을 업데이트하는 경우이다.
일부 검색 엔진 제출 소프트웨어는 여러 검색 엔진에 웹사이트를 제출할 뿐만 아니라, 자체 페이지에서 웹사이트로의 링크를 추가한다. 이는 웹사이트의 랭킹을 높이는 데 도움이 될 수 있는데, 외부 링크가 웹사이트 랭킹을 결정하는 가장 중요한 요소 중 하나이기 때문이다. 그러나 구글의 존 뮬러는 이것이 "사이트에 엄청난 수의 부자연스러운 링크를 초래할 수 있으며" 사이트 랭킹에 부정적인 영향을 미칠 수 있다고 밝혔다.[67]
Remove ads
기술
요약
관점
아키
최초의 웹 검색 엔진은 1990년[68] 몬트리올의 맥길 대학교 학생이었던 앨런 엠티지가 만든 아키였다. 저자는 원래 이 프로그램을 "아카이브"라고 부르고 싶었지만, grep, cat, troff, sed, awk, perl 등과 같이 프로그램과 파일에 짧고 알기 어려운 이름을 할당하는 유닉스 세계 표준을 준수하기 위해 줄여야 했다.
파일을 저장하고 검색하는 주된 방법은 파일 전송 프로토콜(FTP)을 통하는 것이었다. 이것은 컴퓨터가 인터넷을 통해 파일을 교환하는 일반적인 방법을 지정하는 시스템이었다(그리고 지금도 그렇다). 작동 방식은 다음과 같다. 어떤 관리자가 자신의 컴퓨터에서 파일을 사용할 수 있도록 만들기로 결정한다. 그는 자신의 컴퓨터에 FTP 서버라는 프로그램을 설정한다. 인터넷의 누군가가 이 컴퓨터에서 파일을 검색하려면 FTP 클라이언트라는 다른 프로그램을 통해 컴퓨터에 연결한다. 클라이언트와 서버 프로그램이 모두 FTP 프로토콜에 명시된 사양을 완전히 준수하는 한, 어떤 FTP 클라이언트 프로그램이든 어떤 FTP 서버 프로그램과도 연결할 수 있다.
처음에는 파일을 공유하고 싶은 사람은 파일을 다른 사람이 사용할 수 있도록 FTP 서버를 설정해야 했다. 나중에는 "익명" FTP 사이트가 파일 저장소가 되어 모든 사용자가 파일을 게시하고 검색할 수 있게 되었다.
아카이브 사이트가 있더라도 많은 중요한 파일은 여전히 작은 FTP 서버에 흩어져 있었다. 이러한 파일은 인터넷의 입소문과 동등한 방식으로만 찾을 수 있었다. 누군가가 메시지 목록이나 토론 포럼에 이메일을 게시하여 파일의 가용성을 알리는 식이었다.
아키는 이 모든 것을 바꿨다. 아키는 익명 FTP 파일의 사이트 목록을 가져오는 스크립트 기반 데이터 수집기와 사용자 쿼리와 일치하는 파일 이름을 검색하는 정규 표현식 매처를 결합했다. (4) 다시 말해, 아키의 수집기는 인터넷을 통해 FTP 사이트를 샅샅이 뒤져서 발견한 모든 파일을 색인화했다. 정규 표현식 매처는 사용자에게 데이터베이스에 대한 접근 권한을 제공했다.[69]
베로니카
1993년에 네바다 대학교 시스템 컴퓨팅 서비스 그룹은 베로니카를 개발했다.[68] 이는 아키와 유사하지만 고퍼 파일용으로 만들어진 검색 장치였다. 얼마 후 저그헤드라는 또 다른 고퍼 검색 서비스가 등장했는데, 아마도 만화 삼총사를 완성하기 위한 유일한 목적으로 보였다. 저그헤드는 Jonzy's Universal Gopher Hierarchy Excavation and Display의 약자이지만, 베로니카처럼 창작자가 약자를 나중에 끼워 맞췄을 것으로 추정하는 것이 안전하다. 저그헤드의 기능은 베로니카와 거의 동일했지만, 좀 더 거칠고 미완성된 느낌이었다.[69]
외로운 방랑자
1993년 매튜 그레이가 개발한 월드 와이드 웹 원더러는 웹 성장을 추적하기 위해 설계된 웹 최초의 로봇이었다.[70] 초기에는 웹 서버만 세었지만, 곧이어 URL도 수집하기 시작했다. 수집된 URL 데이터베이스는 최초의 웹 데이터베이스인 Wandex가 되었다.
매튜 그레이의 원더러는 당시 상당한 논란을 일으켰는데, 부분적으로는 초기 버전의 소프트웨어가 넷 전체를 난잡하게 돌아다니며 눈에 띄는 네트워크 성능 저하를 초래했기 때문이다. 이 저하는 원더러가 하루에 같은 페이지에 수백 번 접근했기 때문에 발생했다. 원더러는 곧 개선되었지만, 로봇이 인터넷에 좋은지 나쁜지에 대한 논란은 계속되었다.
원더러에 대한 응답으로 마르타인 코스터는 1993년 10월 Archie-Like Indexing of the Web, 즉 ALIWEB을 만들었다. 이름에서 알 수 있듯이 ALIWEB은 아키의 HTTP 버전이었으며, 이 때문에 여러 면에서 여전히 독특하다.
ALIWEB에는 웹 검색 로봇이 없다. 대신, 참여 사이트의 웹마스터는 각 목록에 올리고 싶은 페이지에 대한 자체 색인 정보를 게시한다. 이 방법의 장점은 사용자가 자신의 사이트를 설명할 수 있고, 로봇이 네트워크 대역폭을 잡아먹지 않는다는 것이다. ALIWEB의 단점은 오늘날 더 큰 문제이다. 주요 단점은 특별한 색인 파일을 제출해야 한다는 것이다. 대부분의 사용자는 이러한 파일을 만드는 방법을 이해하지 못하므로 페이지를 제출하지 않는다. 이는 상대적으로 작은 데이터베이스로 이어지며, 이는 사용자가 대규모 봇 기반 사이트보다 ALIWEB를 검색할 가능성이 낮다는 것을 의미한다. 이 캐치-22는 다른 데이터베이스를 ALIWEB 검색에 통합함으로써 어느 정도 상쇄되었지만, 여전히 야후!나 라이코스와 같은 검색 엔진의 대중적인 매력은 없다.[69]
익사이트
처음에는 아키텍스트(Architext)라고 불렸던 익사이트는 1993년 2월 스탠퍼드 대학교 6명의 학부생이 시작했다. 그들의 아이디어는 인터넷에 있는 방대한 정보 속에서 더 효율적인 검색을 제공하기 위해 단어 관계에 대한 통계 분석을 사용하는 것이었다. 그들의 프로젝트는 1993년 중반까지 전액 자금 지원을 받았다. 자금이 확보되자마자 그들은 웹마스터들이 자신의 웹사이트에서 사용할 수 있는 검색 소프트웨어 버전을 출시했다. 당시 이 소프트웨어는 아키텍스트라고 불렸지만, 지금은 웹 서버용 익사이트라는 이름으로 사용된다.[69]
익사이트는 1995년에 출시된 최초의 진지한 상업용 검색 엔진이었다.[71] 스탠퍼드에서 개발되었고 @Home에 65억 달러에 인수되었다. 2001년에 익사이트와 @Home은 파산했고 InfoSpace는 익사이트를 1천만 달러에 인수했다.
야후!
1994년 4월, 스탠퍼드 대학교 박사 과정 학생인 데이비드 파일로와 제리 양은 상당히 인기 있는 페이지들을 만들었다. 그들은 이 페이지 모음을 야후!라고 불렀다. 이름 선택에 대한 공식적인 설명은 그들 스스로를 어리숙한 야후라고 여겼기 때문이라는 것이었다.
링크 수가 늘어나고 페이지가 하루에 수천 건의 조회를 받기 시작하면서 팀은 데이터를 더 잘 정리하는 방법을 만들었다. 데이터 검색을 돕기 위해 야후!(www.yahoo.com)는 검색 가능한 디렉터리가 되었다. 검색 기능은 간단한 데이터베이스 검색 엔진이었다. 야후! 항목은 수동으로 입력되고 분류되었기 때문에 야후!는 실제로 검색 엔진으로 분류되지 않았다. 대신, 일반적으로 검색 가능한 디렉터리로 간주되었다. 야후!는 이후 수집 및 분류 과정의 일부 측면을 자동화하여 엔진과 디렉터리 간의 구분을 모호하게 만들었다.
원더러는 URL만 수집했기 때문에 URL로 명시적으로 설명되지 않은 것을 찾기가 어려웠다. URL은 처음부터 다소 암호 같았기 때문에 일반 사용자에게는 도움이 되지 않았다. 야후!나 갤럭시를 검색하는 것이 훨씬 더 효과적이었는데, 그들은 색인화된 사이트에 대한 추가 설명 정보를 포함하고 있었기 때문이다.
라이코스
1994년 7월, 카네기 멜런 대학교에서 마이클 모들린은 라이코스 검색 엔진을 개발했다.
웹 검색 엔진의 종류
웹 검색 엔진은 다른 사이트에 저장된 콘텐츠를 검색하는 기능을 갖춘 사이트이다. 다양한 검색 엔진이 작동하는 방식에는 차이가 있지만, 모두 세 가지 기본 작업을 수행한다.[73]
- 제공된 키워드를 기반으로 전체 또는 부분 콘텐츠를 찾고 선택하기.
- 콘텐츠의 색인을 유지하고 찾은 위치를 참조하기
- 사용자가 해당 색인에서 찾은 단어 또는 단어 조합을 검색할 수 있도록 허용하기.
이 과정은 사용자가 제공된 인터페이스를 통해 시스템에 쿼리 문을 입력할 때 시작된다.
기본적으로 세 가지 유형의 검색 엔진이 있다. 로봇(크롤러; 개미 또는 스파이더)에 의해 구동되는 것과 인간 제출에 의해 구동되는 것, 그리고 이 두 가지의 하이브리드이다.
크롤러 기반 검색 엔진은 자동화된 소프트웨어 에이전트(크롤러라고 불림)를 사용하는 검색 엔진으로, 웹사이트를 방문하고 실제 사이트의 정보를 읽으며, 사이트의 메타 태그를 읽고, 또한 사이트가 연결되는 링크를 따라가 모든 연결된 웹사이트에 대해서도 색인화를 수행한다. 크롤러는 이 모든 정보를 중앙 저장소로 다시 보내고, 거기서 데이터가 색인화된다. 크롤러는 주기적으로 사이트를 다시 방문하여 변경된 정보가 있는지 확인한다. 이 작업이 발생하는 빈도는 검색 엔진 관리자가 결정한다.
인간 기반 검색 엔진은 인간이 정보를 제출하는 방식에 의존하며, 제출된 정보는 이후 색인화되고 분류된다. 제출된 정보만 색인에 포함된다.
두 경우 모두, 사용자가 정보를 찾기 위해 검색 엔진에 쿼리를 보내면, 실제로는 검색 엔진이 생성한 색인을 검색하는 것이지 웹 자체를 검색하는 것이 아니다. 이러한 색인은 수집 및 저장된 정보의 거대한 데이터베이스이며 이후 검색된다. 이것이 야후!나 구글과 같은 상업용 검색 엔진에서 검색했을 때 때때로 더 이상 유효하지 않은 링크가 반환되는 이유를 설명한다. 검색 결과는 색인을 기반으로 하므로, 웹 페이지가 유효하지 않게 된 이후 색인이 업데이트되지 않았다면 검색 엔진은 해당 페이지를 여전히 활성 링크로 간주한다. 이는 색인이 업데이트될 때까지 계속된다.
그렇다면 왜 다른 검색 엔진에서 동일한 검색이 다른 결과를 생성할까? 그 질문에 대한 답의 일부는 모든 색인이 정확히 같지는 않기 때문이다. 그것은 스파이더가 무엇을 찾는지 또는 인간이 무엇을 제출했는지에 달려 있다. 하지만 더 중요한 것은 모든 검색 엔진이 색인을 검색하는 데 동일한 알고리즘을 사용하지 않는다는 점이다. 알고리즘은 검색 엔진이 색인에 있는 정보가 사용자가 검색하는 내용과 얼마나 관련성이 높은지를 결정하는 데 사용하는 것이다.
검색 엔진 알고리즘이 스캔하는 요소 중 하나는 웹 페이지에 있는 키워드의 빈도와 위치이다. 빈도가 높은 키워드는 일반적으로 더 관련성이 높은 것으로 간주된다. 그러나 검색 엔진 기술은 키워드 스터핑 또는 스팸덱싱으로 알려진 것을 억제하기 위해 점점 더 정교해지고 있다.
알고리즘이 분석하는 또 다른 일반적인 요소는 페이지가 웹의 다른 페이지에 링크되는 방식이다. 페이지가 서로 어떻게 링크되는지 분석함으로써 엔진은 페이지가 무엇에 관한 것인지(링크된 페이지의 키워드가 원본 페이지의 키워드와 유사한 경우) 그리고 해당 페이지가 "중요"하다고 간주되어 순위 상승에 도움이 되는지 판단할 수 있다. 기술이 키워드 스터핑을 무시하기 위해 점점 더 정교해지는 것처럼, 인위적인 순위를 높이기 위해 사이트에 인위적인 링크를 구축하는 웹마스터에게도 점점 더 현명해지고 있다.
현대 웹 검색 엔진은 수년에 걸쳐 진화한 기술을 사용하는 고도로 복잡한 소프트웨어 시스템이다. 특정 '탐색' 요구에 개별적으로 적용 가능한 여러 하위 범주의 검색 엔진 소프트웨어가 있다. 여기에는 웹 검색 엔진(예: 구글), 데이터베이스 또는 구조화된 데이터 검색 엔진(예: Dieselpoint), 그리고 혼합 검색 엔진 또는 엔터프라이즈 검색이 포함된다. 구글과 야후!와 같은 더 널리 사용되는 검색 엔진은 수십만 대의 컴퓨터를 사용하여 수조 개의 웹 페이지를 처리하여 상당히 정확한 결과를 반환한다. 이러한 방대한 쿼리 양과 텍스트 처리로 인해 소프트웨어는 높은 중복성을 가진 고도로 분산된 환경에서 실행되어야 한다.
또 다른 범주의 검색 엔진은 과학 검색 엔진이다. 이들은 과학 문헌을 검색하는 검색 엔진이다. 가장 잘 알려진 예는 구글 스칼라이다. 연구자들은 이론적 구성이나 핵심 연구 결과를 추출하는 등 기사의 콘텐츠 요소를 이해하도록 검색 엔진 기술을 개선하는 작업을 하고 있다.[74]
Remove ads
같이 보기
각주
외부 링크
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads