Najlepsze pytania
Chronologia
Czat
Perspektywa

Apache Tika

Z Wikipedii, wolnej encyklopedii

Apache Tika
Remove ads

Apache Tikaotwartoźródłowe oprogramowanie do wykrywania i analizy treści, napisane w Javie, stworzone i znajdujące się pod opieką Apache Software Foundation. Tika wykrywa i wyodrębnia metadane oraz tekst z ponad tysiąca różnych typów plików[1]. Narzędzia Tika można używać m.in. jako biblioteki programistycznej (nie tylko w jęz. Java, lecz w wielu innych popularnych jęz. programowania[2]), z wiersza poleceń (CLI) lub jako serwis webowy (REST).

Szybkie fakty Autor, Pierwsze wydanie ...
Remove ads

Opis działania

Tika umożliwia identyfikację ponad 1400 typów plików na podstawie taksonomii typów MIME. W przypadku większości popularnych i popularnych formatów Tika zapewnia ekstrakcję treści, ekstrakcję metadanych oraz identyfikację języka. Formatem wyjściowym działania aplikacji może być jeden z kilku formatów (m.in. JSON, XML, HTML), które mogą następnie być użyte jako dane wejściowe do innych narzędzi. Istnieje możliwość rozpoznawania tekstu w formie obrazu za pomocą oprogramowania OCR Tesseract(inne języki)[3].

Remove ads

Użycie

Tika, mimo że może być użyta samodzielnie, typowo jest używana w powiązaniu z innymi narzędziami[4]: wyodrębniony tekst i metadane trafiają do narzędzi indeksujących treść takich jak Apache Solr lub Elasticsearch[5] lub są poddawane analizie „w locie”[6]. Tego typu funkcje są użyteczne w systemach zarządzania treścią[7], wyszukiwarkach korporacyjnych i internetowych czy robotach internetowych, takich jak Apache Nutch[8] itp. Treści wyodrębnione przez system Tika mogą być udostępnione w innej formie w jednym popularnych formatów.

Remove ads

Zastosowania

Tika jest, pośrednio lub bezpośrednio, używana obecnie w wielu dziedzinach i branżach, które są zainteresowane przetwarzaniem dużych ilości danych tekstowych: w badaniach naukowych i rynkowych[6], przez instytucje finansowe (w tym Goldman Sachs[9]) itp.

4 kwietnia 2016 r. Forbes opublikował artykuł wskazujący Tikę jako jedną z kluczowych technologii używanych przez ponad 400 dziennikarzy do analizy 11,5 miliona ujawnionych dokumentów w ramach wycieku danych znanych pod nazwą Panama Papers (gdzie ujawniono przypadki przechowywania środków finansowych w zagranicznych instytucjach finansowych zlokalizowanych w rajach podatkowych przez wielu prominentnych polityków, urzędników i ich współpracowników)[10].

Przypisy

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads