Loading AI tools
sistema per compiere ricerche Da Wikipedia, l'enciclopedia libera
Nell'ambito delle tecnologie di Internet, un motore di ricerca (in inglese search engine) è un sistema automatico che analizza un insieme di dati (spesso da esso stesso raccolti) e restituisce un indice dei contenuti disponibili[1] classificandoli in modo automatico in base a formule statistico-matematiche che ne indichino il grado di rilevanza data una determinata chiave di ricerca. Uno dei campi in cui i motori di ricerca trovano maggiore utilizzo è quello dell'information retrieval e nel web. I motori di ricerca più utilizzati nel 2017 sono stati: Google, Bing, Baidu, Qwant, Yandex, Ecosia, DuckDuckGo.[2][3]
Concettualmente un motore di ricerca è un sistema molto simile ad un'applicazione web ovvero un sistema client-server, attraverso la rete Internet, dove il client è rappresentato dal web browser dell'utente che su richiesta dello stesso si connette ad un server il quale a sua volta esegue una query di ricerca, tramite opportuni algoritmi di ricerca, su dei database (database distribuiti). Nell'analisi dei risultati forniti in uscita un componente essenziale è il cosiddetto crawler o spider. Un buon motore di ricerca è quello che riesce a trovare il maggior numero di contenuti in linea con la tipologia di richiesta ordinandoli per importanza e rilevanza secondo la specifica di ricerca[4].
Il lavoro dei motori di ricerca si divide principalmente in tre fasi[5]:
Dopo l'analisi delle pagine, a seconda di criteri che variano da motore a motore, alcune di esse vengono inserite nel database e nell'indice del motore di ricerca.
La parte testuale archiviata durante la fase di analisi verrà in seguito analizzata per fornire le risposte alle ricerche degli utenti. Molti motori di ricerca sul web rendono anche disponibile una copia dei dati testuali di ogni pagina archiviata per quando la risorsa originale sia irraggiungibile: questa funzione è detta copia cache[6][7][8].
Rispondere alle richieste degli utenti implica la necessità di elencare i siti in ordine di rilevanza rispetto alla richiesta ricevuta.
Per stabilire la rilevanza di un sito vengono cercati nel database quei documenti che contengono la parola chiave[9] inserita dall'utente, dopodiché ogni motore di ricerca sfrutta propri algoritmi per classificare le pagine, controllando, per esempio, quante volte le parole chiave vengono ripetute, quanti link riceve quel documento, in quali punti della pagina sono poste le parole chiave, quanti siti del database contengono link verso quella pagina, o quante volte un utente ha visitato quel sito dopo una ricerca[10].
La possibilità di raffinare la ricerca varia da motore a motore, ma la maggior parte permette di utilizzare operatori booleani: ad esempio è possibile cercare "Ganimede AND satellite NOT coppiere" per cercare informazioni su Ganimede inteso come pianeta e non come figura mitologica.
Su Google e sui motori più moderni è possibile raffinare la ricerca a seconda della lingua del documento, delle parole o frasi presenti o assenti, del formato dei file (Microsoft Word, PDF, PostScript, ecc.), a seconda della data di ultimo aggiornamento, e altro ancora. È anche possibile cercare contenuti presenti in un determinato sito, ad esempio "Ganimede site:nasa.gov" cercherà le informazioni su Ganimede presenti sul sito della NASA.
Su Exalead si trova una parte speciale per raffinare la ricerca più intuitivamente.
Per indicizzazione si intende l'inserimento di un sito web nel database di un motore di ricerca. L'indicizzazione di un sito internet, in altre parole, è il modo in cui il sito viene acquisito e interpretato dai motori di ricerca e quindi compare nelle loro pagine di risposta alle interrogazioni degli utenti web.
Per indicizzarsi, un sito deve essere scansionato da un crawler. Ciò può avvenire naturalmente grazie alle scansioni di routine effettuate dai motori di ricerca, oppure tramite esplicita richiesta. Per Google, è possibile richiedere una scansione tramite la Search Console collegata al sito in questione.
Con il termine posizionamento s'intende l'acquisizione di visibilità tra i risultati dei motori di ricerca. Più specificamente, è l'operazione attraverso la quale il sito viene ottimizzato per comparire nei risultati in una posizione il più possibile favorevole e rilevante[11].
Con il termine ottimizzazione per i motori di ricerca si intendono, nel linguaggio di internet, tutte quelle attività volte a migliorare la visibilità di un sito web sui motori di ricerca (quali ad es. Google, Yahoo!, ecc.) al fine di migliorare (o mantenere) il posizionamento nelle pagine di risposta alle interrogazioni degli utenti del web. A sua volta, il buon posizionamento di un sito web nelle pagine di risposta dei motori di ricerca è funzionale alla visibilità dei prodotti/servizi venduti[12].
I motori di ricerca forniscono anche risultati sponsorizzati, ovvero mostrano in maggiore evidenza nelle SERP (Search Engine Result Pages, Pagine dei risultati dei motori di ricerca) siti web di aziende che pagano per risultare tra i primi risultati quando si cercano termini (detti parole chiave) che sono in relazione all'ambito di competenza dell'azienda stessa[13]. I risultati sponsorizzati dei motori possono apparire anche sui siti che partecipano al loro programma di affiliazione. In particolar modo, Google permette di far apparire nelle proprie pagine dei risultati (chiaramente distinti dai risultati "naturali") risultati a pagamento comprati con il programma AdWords. In aggiunta a questo offre anche un servizio di sponsorizzazione che si rivolge a tutti i siti che hanno determinati requisiti, chiamato AdSense. Google AdSense (spesso abbreviato con Google AS) usa le capacità del motore di ricerca di interpretare il tema della pagina in cui è posizionato l'apposito codice per fornire annunci a tema[14]. Yahoo! Search ha annunciato l'arrivo di un programma analogo chiamato Panama[15].
I motori di ricerca con maggiore rilevanza internazionale nel 2020 sono[16][17]:
Questi 4 motori di ricerca sono dotati di tecnologia proprietaria.
Altre menzioni importanti sono:
Tra questi ultimi gli unici che sono dotati in parte di un indice proprietario sono Qwant e in parte DuckDuckGo
Anno | Motore | Evento | Motore | Stato attuale |
---|---|---|---|---|
1993 | W3Catalog | Lancio | Inattivo | |
Aliweb | Lancio | Inattivo | ||
JumpStation | Lancio | Inattivo | ||
WWW Worm | Lancio | Inattivo | ||
1994 | WebCrawler | Lancio | Bing | Attivo |
Go.com | Lancio | Inattivo | ||
Infoseek | Lancio | Inattivo | ||
Lycos | Lancio | Bing | Attivo | |
Spenki | Fondazione | Inattivo | ||
1995 | AltaVista | Lancio | Inattivo, reindirizzato a Yahoo! | |
Daum | Lancio | Attivo | ||
Magellan | Lancio | Inattivo | ||
Excite | Lancio | Inattivo, solo notizie | ||
SAPO | Lancio | Inattivo, solo notizie | ||
Yahoo! | Lancio | Inattivo (diventato Yahoo! Search) | ||
1996 | Dogpile | Lancio | Aggregatore | Attivo |
Inktomi | Fondazione | Inattivo, acquisito da Yahoo! | ||
HotBot | Fondazione | Attivo | ||
Arianna | Fondazione | Inattivo, inglobato in Libero | ||
Multisoft | Fondazione | Inattivo | ||
Virgilio | Fondazione | Attivo, risultati Google | ||
Ask Jeeves | Fondazione | Inattivo (rimarchiato in ask.com) | ||
1997 | Northern Light | Lancio | Inattivo | |
Yandex | Lancio | Proprietario | Attivo | |
1998 | Lancio | Proprietario | Attivo | |
Ixquick | Lancio | Aggregatore | Attivo anche come Startpage | |
MSN Search | Lancio | Inattivo, diventato Bing | ||
empas | Lancio | Inattivo (fusa con NATE) | ||
1999 | Alltheweb | Lancio | Inattivo (URL reindirizzato a Yahoo!) | |
GenieKnows | Lancio | Inattivo | ||
Naver | Lancio | Attivo | ||
Teoma | Fondazione | Ask | Attivo | |
Vivísimo | Fondazione | Inattivo, IMB | ||
superEva | Lancio | Inattivo, solo analisi trend | ||
2000 | Baidu | Fondazione | Proprietario | Attivo |
Exalead | Lancio | Proprietario | Attivo | |
Gigablast | Lancio | Proprietario | Attivo | |
2001 | Kartoo | Lancio | Inattivo | |
2003 | Info.com | Lancio | Bing | Attivo |
Scroogle | Lancio | Inattivo | ||
2004 | Yahoo! Search | Lancio finale | Bing | Attivo |
A9.com | Lancio | Inattivo | ||
Sogou | Lancio | Attivo | ||
2005 | Windows Live Search | Lancio finale | Inattivo | |
GoodSearch | Lancio | Inattivo | ||
SearchMe | Lancio | Inattivo | ||
2006 | Soso | Lancio | Attivo | |
Quaero | Fondazione | Inattivo | ||
Search.com | Fondazione | Proprietario | Attivo (Cerca solo su CBS) | |
Ask.com | Lancio | Attivo | ||
Windows Live Search | Lancio | Inattivo | ||
ChaCha | Lancio beta | Inattivo | ||
Guruji.com | Lancio beta | Inattivo | ||
2007 | Wikiseek | Lancio | Inattivo | |
Sproose | Lancio | Inattivo | ||
Wikia Search | Lancio | Inattivo | ||
2008 | Cuil | Lancio | Inattivo | |
Powerset | Lancio | Inattivo | ||
Picollator | Lancio | Inattivo | ||
Viewzi | Lancio | Inattivo | ||
Boogami | Lancio | Inattivo | ||
LeapFish | Lancio | Inattivo | ||
Forestle | Lancio | Inattivo | ||
Ecocho | Lancio | Inattivo | ||
DuckDuckGo | Lancio | Bing + Algoritmi proprietari | Attivo | |
2009 | Wolfram Alpha | Lancio | Proprietario | Attivo |
Bing | Lancio | Proprietario | Attivo | |
Yebol | Lancio | Inattivo | ||
Mugurdy | Lancio | Inattivo | ||
Scout (Goby) | Lancio | Inattivo | ||
Coozila! | Lancio | Attivo | ||
Ecosia | Lancio | Bing + Algoritmi proprietari | Attivo | |
NATE | Lancio | Attivo | ||
2010 | iAlgae | Lancio | Attivo | |
Blekko | Lancio | Inattivo (venduto a IBM) | ||
Cuil | Lancio | Inattivo | ||
Yandex (Versione
in Inglese) |
Lancio | Attivo | ||
2011 | YaCy | Lancio | Inattivo (Software self-hosted) | |
2012 | Volunia | Lancio | Inattivo | |
Ideao | Lancio | Inattivo | ||
2013 | Istella | Lancio | Proprietario | Raggiungibile, inattivo |
Qwant | Lancio | Bing + Algoritmi proprietari | Attivo | |
Aoohe | Lancio | Inattivo | ||
Coc Coc | Lancio | Attivo | ||
Egerin | Lancio | Attivo, motore di ricerca in curdo / Sorani | ||
2014 | Searx | Lancio | Aggregatore | Attivo |
Swisscows | Lancio | Bing | Attivo | |
2015 | Cliqz | Lancio | Proprietario | Inattivo |
2017 | Xaphir | Beta | Proprietario | Inattivo, acquisito da Qwant[19] |
2018 | Kagi | Lancio | Metamotore + Proprietario | Attivo |
La maggior parte dei motori di ricerca che opera sul web è gestito da compagnie private che utilizzano algoritmi proprietari e banche dati tenuti segreti. Esistono comunque diversi tentativi di dar vita a motori di ricerca fondati sul software libero, alcuni esempi sono:
Altri motori di ricerca attivi al marzo 2020, sono: Metager (per la privacy), Serch Encrypt, SearX,Gibiru, YaCy (decentralizzato), Yippi, Lukol e Boardreader.
Le più recenti innovazioni nella produzione di algoritmi e di sistemi di Information Retrieval si basano sull'analisi semantica dei termini e sulla conseguente creazione di reti semantiche. La stessa Google ha adottato sistemi per la prevenzione dell'errore e la contestualizzazione dei risultati[20][21].
È lecito prevedere che nel giro di alcuni anni i motori di ricerca baseranno le proprie tecnologie sia sull'analisi quantitativa dei contenuti (le parole in sé), sia soprattutto su quella qualitativa (il senso delle parole). I motori di ricerca saranno, ad esempio, in grado di distinguere il senso della parola "pesca" a seconda di quale sia il contesto in cui la parola è contenuta (capire se sia il frutto, la disciplina sportiva, o altro). Per muoversi in questa direzione Google ha acquisito Oingo (un tempo noto come "il motore dei concetti") e la tecnologia dell'azienda che lo creò, la Applied Semantics[22].
La nuova frontiera dei motori di ricerca è il web 2.0. Adottando questa logica molti motori e directory internazionali puntano a una maggiore partecipazione degli utenti nella creazione dei contenuti dei motori di ricerca, in modo da eliminare qualsiasi ricorso a spider o a link sponsorizzati. Con questa logica gli utenti possono segnalare essi stessi i link e decidono se dare o meno popolarità ai siti segnalati.
Il web 2.0 punta anche a una facilità di utilizzo più rapida, veloce ed intuitiva grazie all'utilizzo di Metamotori (o motori di ricerca multipli) come[23][24]:
I comuni browser contengono una lista predefinita di motori di ricerca (i maggiori) nell'impostazione relativa al motore di ricerca preferito (principale). Qualora un certo motore di ricerca non sia presente è sufficiente eseguire la seguente procedura:
Contrariamente ad alcune aspettative dei primi anni Duemila, i motori di ricerca hanno reso più importante l'attività umana di ricerca e selezione delle fonti più autorevoli.
Le biblioteche svolgono un'attività di supporto e consulenza in tal senso. Esistono progetti aperti e gratuiti, come Eurekoi, nei quali un utente può porre a una rete di bibliotecari esperti un quesito circa una risorsa per un argomento specifico.[26]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.