Apache OpenNLP

From Wikipedia, the free encyclopedia

Apache OpenNLP
Remove ads

Apache OpenNLP er et verktøysett som utnytter Maskinlæring for Natural Language Processing (NLP). Det støtter de vanligste oppgavene innen NLP, for eksempel språk deteksjon, tokenisering, setnings segmentering, part-of-speech labelling, named entity extraction, chunking, parsing og coreference resolution. Denne typen oppgaver er vanligvis nødvendig for å utvikle mer avanserte tekstbehandlingstjenester.

Kjappe fakta Utvikler(e), Utgitt ...

Biblioteket er skrevet i Java og kan enkelt integreres i Java-prosjekter eller prosjekter som bruker Java Virtual Machine (JVM)[7].

Remove ads

Detaljer

  • Språkdeteksjon: «LanguageDetector» krever en trent modell. OpenNLP tilbyr den fullt trente modellen langdetect-183.bin for nedlasting. Den kan identifisere 103 språk [8].
  • Setningsgjenkjenning: «SentenceDetector» gjenkjenner om et punktum markerer slutten på en setning, eller om det har en annen betydning. Også her er det nødvendig å spesifisere en trent mal. OpenNLP tilbyr maler for ulike språk, for eksempel opennlp-no-ud-bokmaal-sentence-1.3-2.5.4.bin for setningsgjenkjenning i norske tekster.[9].
  • Tokenisering: Tokenizeren deler en tegnstreng inn i tokens. Tokens er vanligvis ord, tegnsetting, tall osv.
  • Part-of-speech labelling: OpenNLP har et utvalg av forhåndstrenede maler for 36 språk (tysk, engelsk, spansk, portugisisk, dansk osv.). Disse malene kan brukes til automatisk merking av et tekstkorpus på et hvilket som helst av disse språkene.[10]
  • Uttrekking av navngitte entiteter: «TokenNameFinder» kan gjenkjenne navngitte entiteter og tall i tekst. Det kreves en mal for å gjenkjenne entiteter. Malen avhenger av språket og typen entitet den er trent for. OpenNLP-prosjektet tilbyr en rekke forhåndstrente modeller som har blitt trent på ulike fritt tilgjengelige korpus. De kan lastes ned fra nedlastingssiden for maler.
Remove ads

Se også

Referanser

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads