Timeline
Chat
Prospettiva
Tatoeba
Da Wikipedia, l'enciclopedia libera
Remove ads
Tatoeba.org è un database online gratuito di esempi di frasi, orientato verso gli studenti di lingue straniere.
Il nome del progetto deriva dal termine giapponese 例えば tatoeba, che significa "per esempio". A differenza di altri dizionari online, che si concentrano sulle parole, Tatoeba si concentra su frasi complete, sulle loro proprietà grammaticali e sulle loro traduzioni in altre lingue.
La registrazione è facoltativa per la consultazione ma obbligatoria per potere contribuire al progetto, aperto a tutti i contributi a prescindere dalle conoscenze linguistiche degli utenti.
Il progetto Tatoeba è stato fondato da Trang Ho nel 2006 e fu inizialmente ospitato su Sourceforge sotto il nome del progetto "Multilangdict". Trang Ho mantiene e gestisce il progetto assieme ad Allan Simon, che si è unito al progetto nel 2009[1]. Tatoeba è ospitato e sostenuto dalla Free Software Foundation francese[2].
Remove ads
Contenuti
A settembre del 2014 il corpus di Tatoeba contiene più di 3360000 frasi in 178 lingue. Può essere trovato un elenco di quante frasi sono presenti per ciascuna lingua nella pagina delle statistiche di Tatoeba. L'interfaccia è disponibile in 20 diverse lingue, tra cui l'italiano. Ci sono delle procedure da seguire per aggiungere nuove lingue di interfaccia e di contenuto.
Tatoeba ospita anche il Tanaka Corpus, una volta di pubblico dominio, che contiene circa 150.000 coppie di frasi inglese-giapponese. Compilato dal professore della Università di Hyogo Yasuhito Tanaka, il corpus è stato pubblicato per la prima volta nel 2001 e sta ricevendo le sue revisioni più recenti su Tatoeba[3][4].
Remove ads
Interfaccia
Riepilogo
Prospettiva
Ogni utente, anche se non registrato, può cercare parole in qualsiasi lingua all'interno del database e ottenere una lista di frasi contenenti quella data parola. Ogni frase nel database di Tatoeba viene visualizzata assieme a traduzioni in altre lingue; traduzioni dirette e indirette sono differenziate. Le frasi vengono etichettate in base ai contenuti quali il soggetto, la varietà linguistica o il registro, ma anche le discussioni sono utilizzate per facilitare le correzioni da parte di altri utenti e per aggiungere note culturali. Al momento quasi 142.00 frasi in 15 lingue contengono letture audio. Le frasi possono anche essere ricercate per lingua, etichetta o audio.
Gli utenti registrati possono aggiungere nuove frasi, tradurre o revisionare quelle esistenti, anche se la loro lingua di destinazione non è la loro lingua materna. Le traduzioni sono legate automaticamente alla frase originale. Gli utenti possono liberamente modificare le loro frasi, "adottare" e correggere le frasi senza un proprietario e commentare le frasi altrui. I contribuenti avanzati, un grado sopra i nuovi utenti, possono etichettare, collegare e scollegare le frasi. Solo gli utenti che hanno ricevuto lo status di "responsabile del corpus" e gli amministratori possono eliminare le frasi.
Remove ads
Struttura del database
La struttura dei dati di base di Tatoeba è una serie di nodi e collegamenti. Ogni frase è un nodo; ogni collegamento unisce due o più frasi con lo stesso significato[5].
Licenza
L'intero database di Tatoeba è pubblicato sotto la licenza Creative Commons Attribution 2.0[6], rendendolo libero per un utilizzo accademico o educativo.
Riconoscimenti
Tatoeba ha ricevuto nel dicembre 2010 una borsa di studio[7][8] da Mozilla Drumbeat.
Utilizzo
I corpora paralleli come Tatoeba servono per l'elaborazione del linguaggio naturale, come ad esempio la traduzione automatica. I dati di Tatoeba sono stati utilizzati come dati per un treebanking del giapponese[9] e per la traduzione statistica delle macchine[10], così come per il dizionario giapponese-inglese WWWJDIC.
Note
Altri progetti
Collegamenti esterni
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads

