Hopp til innhold

Apache OpenNLP

Fra Wikipedia, den frie encyklopedi
Apache OpenNLP
Utvikler(e)Apache Software Foundation
Utgitt 22. april 2004[1]
Nyeste versjon2.5.3 (10. januar 2025)[2]
Kodelagerhttps://github.com/apache/opennlp
StatusAktiv
PlattformJava Virtual Machine
OperativsystemGNU/Linux, Mac OS X, Windows, FreeBSD
Skrevet iJava[3][4]
TypeNaturlig språkbehandling, programvarebibliotek,[3] analyse,[5] innholdsanalyse[5]
LisensApache License 2.0
Nettstedopennlp.apache.org[6]
Last nedhttp://opennlp.apache.org/download.html

Apache OpenNLP er et verktøysett som utnytter Maskinlæring for Natural Language Processing (NLP). Det støtter de vanligste oppgavene innen NLP, for eksempel språk deteksjon, tokenisering, setnings segmentering, part-of-speech labelling, named entity extraction, chunking, parsing og coreference resolution. Denne typen oppgaver er vanligvis nødvendig for å utvikle mer avanserte tekstbehandlingstjenester.

Biblioteket er skrevet i Java og kan enkelt integreres i Java-prosjekter eller prosjekter som bruker Java Virtual Machine (JVM)[7].

  • Språkdeteksjon: «LanguageDetector» krever en trent modell. OpenNLP tilbyr den fullt trente modellen langdetect-183.bin for nedlasting. Den kan identifisere 103 språk [8].
  • Setningsgjenkjenning: «SentenceDetector» gjenkjenner om et punktum markerer slutten på en setning, eller om det har en annen betydning. Også her er det nødvendig å spesifisere en trent mal. OpenNLP tilbyr maler for ulike språk, for eksempel opennlp-no-ud-bokmaal-sentence-1.2-2.5.0.bin for setningsgjenkjenning i norske tekster.[9].
  • Tokenisering: Tokenizeren deler en tegnstreng inn i tokens. Tokens er vanligvis ord, tegnsetting, tall osv.
  • Part-of-speech labelling: OpenNLP har et utvalg av forhåndstrenede maler for 32 språk (tysk, engelsk, spansk, portugisisk, dansk osv.). Disse malene kan brukes til automatisk merking av et tekstkorpus på et hvilket som helst av disse språkene.[10]
  • Uttrekking av navngitte entiteter: «TokenNameFinder» kan gjenkjenne navngitte entiteter og tall i tekst. Det kreves en mal for å gjenkjenne entiteter. Malen avhenger av språket og typen entitet den er trent for. OpenNLP-prosjektet tilbyr en rekke forhåndstrente modeller som har blitt trent på ulike fritt tilgjengelige korpus. De kan lastes ned fra nedlastingssiden for maler.

Referanser

[rediger | rediger kilde]
Autoritetsdata