Apache OpenNLP
From Wikipedia, the free encyclopedia
Remove ads
Apache OpenNLP er et verktøysett som utnytter Maskinlæring for Natural Language Processing (NLP). Det støtter de vanligste oppgavene innen NLP, for eksempel språk deteksjon, tokenisering, setnings segmentering, part-of-speech labelling, named entity extraction, chunking, parsing og coreference resolution. Denne typen oppgaver er vanligvis nødvendig for å utvikle mer avanserte tekstbehandlingstjenester.
Biblioteket er skrevet i Java og kan enkelt integreres i Java-prosjekter eller prosjekter som bruker Java Virtual Machine (JVM)[7].
Remove ads
Detaljer
- Språkdeteksjon: «LanguageDetector» krever en trent modell. OpenNLP tilbyr den fullt trente modellen langdetect-183.bin for nedlasting. Den kan identifisere 103 språk [8].
- Setningsgjenkjenning: «SentenceDetector» gjenkjenner om et punktum markerer slutten på en setning, eller om det har en annen betydning. Også her er det nødvendig å spesifisere en trent mal. OpenNLP tilbyr maler for ulike språk, for eksempel opennlp-no-ud-bokmaal-sentence-1.3-2.5.4.bin for setningsgjenkjenning i norske tekster.[9].
- Tokenisering: Tokenizeren deler en tegnstreng inn i tokens. Tokens er vanligvis ord, tegnsetting, tall osv.
- Part-of-speech labelling: OpenNLP har et utvalg av forhåndstrenede maler for 36 språk (tysk, engelsk, spansk, portugisisk, dansk osv.). Disse malene kan brukes til automatisk merking av et tekstkorpus på et hvilket som helst av disse språkene.[10]
- Uttrekking av navngitte entiteter: «TokenNameFinder» kan gjenkjenne navngitte entiteter og tall i tekst. Det kreves en mal for å gjenkjenne entiteter. Malen avhenger av språket og typen entitet den er trent for. OpenNLP-prosjektet tilbyr en rekke forhåndstrente modeller som har blitt trent på ulike fritt tilgjengelige korpus. De kan lastes ned fra nedlastingssiden for maler.
Remove ads
Se også
Referanser
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads