Apache OpenNLP
Utseende
Apache OpenNLP | |||
---|---|---|---|
Utvikler(e) | Apache Software Foundation | ||
Utgitt | 22. april 2004[1] | ||
Nyeste versjon | 2.5.3 (10. januar 2025)[2] | ||
Kodelager | https://github.com/apache/opennlp | ||
Status | Aktiv | ||
Plattform | Java Virtual Machine | ||
Operativsystem | GNU/Linux, Mac OS X, Windows, FreeBSD | ||
Skrevet i | Java[3][4] | ||
Type | Naturlig språkbehandling, programvarebibliotek,[3] analyse,[5] innholdsanalyse[5] | ||
Lisens | Apache License 2.0 | ||
Nettsted | opennlp.apache.org[6] | ||
Last ned | http://opennlp.apache.org/download.html |
Apache OpenNLP er et verktøysett som utnytter Maskinlæring for Natural Language Processing (NLP). Det støtter de vanligste oppgavene innen NLP, for eksempel språk deteksjon, tokenisering, setnings segmentering, part-of-speech labelling, named entity extraction, chunking, parsing og coreference resolution. Denne typen oppgaver er vanligvis nødvendig for å utvikle mer avanserte tekstbehandlingstjenester.
Biblioteket er skrevet i Java og kan enkelt integreres i Java-prosjekter eller prosjekter som bruker Java Virtual Machine (JVM)[7].
Detaljer
[rediger | rediger kilde]- Språkdeteksjon: «LanguageDetector» krever en trent modell. OpenNLP tilbyr den fullt trente modellen langdetect-183.bin for nedlasting. Den kan identifisere 103 språk [8].
- Setningsgjenkjenning: «SentenceDetector» gjenkjenner om et punktum markerer slutten på en setning, eller om det har en annen betydning. Også her er det nødvendig å spesifisere en trent mal. OpenNLP tilbyr maler for ulike språk, for eksempel opennlp-no-ud-bokmaal-sentence-1.2-2.5.0.bin for setningsgjenkjenning i norske tekster.[9].
- Tokenisering: Tokenizeren deler en tegnstreng inn i tokens. Tokens er vanligvis ord, tegnsetting, tall osv.
- Part-of-speech labelling: OpenNLP har et utvalg av forhåndstrenede maler for 32 språk (tysk, engelsk, spansk, portugisisk, dansk osv.). Disse malene kan brukes til automatisk merking av et tekstkorpus på et hvilket som helst av disse språkene.[10]
- Uttrekking av navngitte entiteter: «TokenNameFinder» kan gjenkjenne navngitte entiteter og tall i tekst. Det kreves en mal for å gjenkjenne entiteter. Malen avhenger av språket og typen entitet den er trent for. OpenNLP-prosjektet tilbyr en rekke forhåndstrente modeller som har blitt trent på ulike fritt tilgjengelige korpus. De kan lastes ned fra nedlastingssiden for maler.
Se også
[rediger | rediger kilde]Referanser
[rediger | rediger kilde]- ^ https://sourceforge.net/p/opennlp/news/2004/04/opennlp-tools-initial-release/.
- ^ «Apache OpenNLP 2.5.3 released». 10. januar 2025. Besøkt 10. januar 2025.
- ^ a b https://projects.apache.org/json/projects/opennlp.json; besøksdato: 8. april 2020.
- ^ https://www.openhub.net/p/apache-opennlp/analyses/latest/languages_summary; Open Hub; besøksdato: 25. januar 2021.
- ^ a b https://marketplace.sshopencloud.eu/tool-or-service/rbo6MV.
- ^ projects.apache.org, besøkt 8. april 2020[Hentet fra Wikidata]
- ^ «Apache OpenNLP - Building from Source» (på norsk). Besøkt 5. januar 2025.
- ^ «Apache OpenNLP - Language Detection Model» (på engelsk). Besøkt 5. januar 2025.
- ^ «Apache OpenNLP - Sentence Detection Models» (på engelsk). Besøkt 5. januar 2025.
- ^ «Apache Stanbol - OpenNLP POS Tagging Engine» (på norsk). Besøkt 5. januar 2025.
Autoritetsdata