Apache OpenNLP

Apache OpenNLP
Utvikler(e)	Apache Software Foundation
Utgitt	22. april 2004
Nyeste versjon	2.5.3 (10. januar 2025)
Kodelager	https://github.com/apache/opennlp
Status	Aktiv
Plattform	Java Virtual Machine
Operativsystem	GNU/Linux, Mac OS X, Windows, FreeBSD
Skrevet i	Java
Type	Naturlig språkbehandling, programvarebibliotek, analyse, innholdsanalyse
Lisens	Apache License 2.0
Nettsted	opennlp.apache.org
Last ned	http://opennlp.apache.org/download.html

Apache OpenNLP er et verktøysett som utnytter Maskinlæring for Natural Language Processing (NLP). Det støtter de vanligste oppgavene innen NLP, for eksempel språk deteksjon, tokenisering, setnings segmentering, part-of-speech labelling, named entity extraction, chunking, parsing og coreference resolution. Denne typen oppgaver er vanligvis nødvendig for å utvikle mer avanserte tekstbehandlingstjenester.

Biblioteket er skrevet i Java og kan enkelt integreres i Java-prosjekter eller prosjekter som bruker Java Virtual Machine (JVM)^[7].

Detaljer

Språkdeteksjon: «LanguageDetector» krever en trent modell. OpenNLP tilbyr den fullt trente modellen langdetect-183.bin for nedlasting. Den kan identifisere 103 språk ^[8].
Setningsgjenkjenning: «SentenceDetector» gjenkjenner om et punktum markerer slutten på en setning, eller om det har en annen betydning. Også her er det nødvendig å spesifisere en trent mal. OpenNLP tilbyr maler for ulike språk, for eksempel opennlp-no-ud-bokmaal-sentence-1.2-2.5.0.bin for setningsgjenkjenning i norske tekster.^[9].
Tokenisering: Tokenizeren deler en tegnstreng inn i tokens. Tokens er vanligvis ord, tegnsetting, tall osv.
Part-of-speech labelling: OpenNLP har et utvalg av forhåndstrenede maler for 32 språk (tysk, engelsk, spansk, portugisisk, dansk osv.). Disse malene kan brukes til automatisk merking av et tekstkorpus på et hvilket som helst av disse språkene.^[10]
Uttrekking av navngitte entiteter: «TokenNameFinder» kan gjenkjenne navngitte entiteter og tall i tekst. Det kreves en mal for å gjenkjenne entiteter. Malen avhenger av språket og typen entitet den er trent for. OpenNLP-prosjektet tilbyr en rekke forhåndstrente modeller som har blitt trent på ulike fritt tilgjengelige korpus. De kan lastes ned fra nedlastingssiden for maler.

Se også

Referanser

^ https://sourceforge.net/p/opennlp/news/2004/04/opennlp-tools-initial-release/.
^ «Apache OpenNLP 2.5.3 released». 10. januar 2025. Besøkt 10. januar 2025.
^ ^a ^b https://projects.apache.org/json/projects/opennlp.json; besøksdato: 8. april 2020.
^ https://www.openhub.net/p/apache-opennlp/analyses/latest/languages_summary; Open Hub; besøksdato: 25. januar 2021.
^ ^a ^b https://marketplace.sshopencloud.eu/tool-or-service/rbo6MV.
^ projects.apache.org, besøkt 8. april 2020^{[Hentet fra Wikidata]}
^ «Apache OpenNLP - Building from Source» (på norsk). Besøkt 5. januar 2025.
^ «Apache OpenNLP - Language Detection Model» (på engelsk). Besøkt 5. januar 2025.
^ «Apache OpenNLP - Sentence Detection Models» (på engelsk). Besøkt 5. januar 2025.
^ «Apache Stanbol - OpenNLP POS Tagging Engine» (på norsk). Besøkt 5. januar 2025.

Autoritetsdata

[wikidata-2f21ce473c732b88a651c720eb0d7244bb3b36c2-v18-1] ttps://sourceforge.net/p/opennlp/news/2004/04/opennlp-tools-initial-release/.

[wikidata-8788c2260d5d76599f2403c4d9a1bbb033019b66-v18-2] «Apache OpenNLP 2.5.3 released». 10. januar 2025. Besøkt 10. januar 2025.

[wikidata-1180657623fa1e9f6ad78de6a9c11ad1f4e424d0-v18-3] ttps://projects.apache.org/json/projects/opennlp.json; besøksdato: 8. april 2020.

[wikidata-2e0f8d5da6c5c5f4415f737da58dd965b6388ee0-v18-4] ttps://www.openhub.net/p/apache-opennlp/analyses/latest/languages_summary; Open Hub; besøksdato: 25. januar 2021.

[wikidata-89d93b6b24ee93f43aeba499488c97995243ecb9-v18-5] ttps://marketplace.sshopencloud.eu/tool-or-service/rbo6MV.

[hash-1180657623fa1e9f6ad78de6a9c11ad1f4e424d0-6] rojects.apache.org, besøkt 8. april 2020^{[Hentet fra Wikidata]}

[7] «Apache OpenNLP - Building from Source» (på norsk). Besøkt 5. januar 2025.

[8] «Apache OpenNLP - Language Detection Model» (på engelsk). Besøkt 5. januar 2025.

[9] «Apache OpenNLP - Sentence Detection Models» (på engelsk). Besøkt 5. januar 2025.

[10] «Apache Stanbol - OpenNLP POS Tagging Engine» (på norsk). Besøkt 5. januar 2025.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

v d r Apache Software Foundation
Toppnivåprosjekt	Abdera Accumulo ActiveMQ Ambari Ant Aries Apache HTTP Server APR Avro Axis Axis2 Bloodhound Buildr Camel Cassandra Cayenne Chemistry Click CloudStack Cocoon Continuum Cordova CouchDB cTAKES CXF Deltacloud Derby Directory Drill Empire-db Felix Flex Flink Flume Forrest Geronimo Gora Gump Hadoop Hama HBase Hive Jackrabbit James JMeter Kafka Lucene Mahout Marmotta Maven MINA mod_perl MyFaces Nutch ODE OFBiz Oozie OpenEJB OpenJPA OpenNLP OpenOffice PDFBox Phoenix POI Pig Pivot Qpid River Roller Samza ServiceMix Shindig Shiro Sling Spark Stanbol Storm SpamAssassin Sqoop Struts Subversion Tapestry Thrift Tiles Tomcat Traffic Server Turbine Tuscany UIMA Velocity Wave Wicket Wink Xalan Xerces XMLBeans ZooKeeper
Commons-prosjekter	BCEL BSF Daemon Jelly
Lucene-prosjekter	Lucene Java Solr
Hadoop-prosjekter	Hadoop HDFS
Andre prosjekt	Batik Chainsaw FOP Ivy Log4j Log4Net XAP
Inkubator-prosjekt	XAP
Apache Attic	AxKit Beehive Bluesky Cactus Jakarta Excalibur Harmony HiveMind Lenya Slide Shale stdcxx iBATIS
Lisenser	Apache-lisensen
Kategori Commons