Hopp til innhold

Wikipedia:Løpende synkronisering av eksterne tjenester

Fra Wikipedia, den frie encyklopedi

Løpende synkronisering av eksterne tjenester er en enkel forklaring på hvordan eksterne tjenester kan holdes løpende synkronisert mot Wikipedia. Denne artikkelen er ikke utfyllende men kun en samling moment en bot-operatør må forholde seg til.

Det finnes regler for hvor hyppig en bot kan aksessere Wikipedia, det finnes lisensregler å forholde seg til og det finnes administrative forhold.

Kilde for oppdateringene

[rediger kilde]

Databasedumpene (Database download) bør alltid være utgangspunktet for å initiere en ekstern database. Dette er for å unngå å belaste Wikipedia med massive mengder oppslag. Dette betyr at det vil oppstå hull mellom tidspunktet da databasene ble dumpet og nå-tidspunktet.

Løpende oppdatering av artikler bør komme annetstedsfra, enten kan en bot periodisk hente siste endringer eller så kan det settes opp en bot som henter lister av artikler som endres fra #no.wikipedia. Sansynligvis må en bot følge med på begge i tilfelle utfall av irc-kanalen.

Oppdateringer kan også komme via syndication. Mediawiki i formen brukt i Wikipedia støtter både RSS og en:Atom (standard)Atom (1.0) overføringer av endringer. Noen endringer vil ikke rapporteres i disse verktøyene. Spesielt vil ikke endringer utført av registrerte bot'er bli overført og endringer flagget som «minor edits».

Siste endringer bør etter at de er logget caches i flere timer før en henter artikkelen. Dette er for å unngå at en gjentatte ganger henter artikler under arbeid.

I tillegg må også slettingslogger følges opp da artikler slettes relativt hyppig. Spesielt skal artikler som inneholder personsjikane og lignende forhold slettes løpende.

Databasedumpene må synkroniseres med de løpende oppdateringene. Artiklene har en last-id som kan brukes for å velge vilken av de to versjonene som skal velges. Høyere nummer impliserer nyere artikkel.

Først når en har mottatt databasedump nummer to kan en si noe om artikler som skal slettes og som en har mistet underveis. Hvis det finnes en artikkel i egen database som er eldre enn databasedumpet fra Wikipedia så er denne slettet og skal fjernes. Normalt vil en få egne oppføringer i dumpet som angir slettede artikler.

Å ikke følge opp sletting og endringer av artikler som omhandler personer strider mot god skikk og bruk og vil kunne utløse straffeansvar.

I mange tilfeller vil en kunne bruke databasedumpene slik de er, uten å gjøre et løpende vedlikehold av et lokalt speil. Dette reduserer lasten på Wikipedias servere og anses som en fordel der dette er tilstrekkelig.

Registrering av boter

[rediger kilde]

Boter som manipulerer artikler i Wikipedia må ha egne bot-flagg satt. Boter som blir observert og som ikke har dette flagget, og hvor det ikke finnes sider som beskriver oppførselen, vil bli blokkert. Botflagg blir gitt etter forespørsel på en egen side på meta. Flagget kan kun settes av en steward, og må settes separat for hvert prosjekt boten skal kjøre på. I tillegg må boter som leecher Wikipedia og derfor setter en stor last på systemet listes på meta, hvis ikke kan de havne på en black list og deretter bli sperret.

Operatøren av en bot må kunne vise til at boten ikke har negative effekter og at aktiviteten er ønsket. Hvis boten i tillegg gjør endringer/redigeringer i Wikipedia kan operatøren bli bedt om å forevise den aktuelle koden.

Hvis en bot ikke manipulerer artikler i Wikipedia trenger normalt ikke å få satt bot-flagget.

Programmering av boter

[rediger kilde]

En operatør av en bot er ansvarlig for å påse at den til enhver tid kan lese, og respekterer, angivelser i robots.txt og annen metainformasjon sendt til boten. Filen robots.txt inneholder angivelser av hvilke sider som ikke skal aksesseres, hvilke boter som ikke er tillatt og hvor ofte en bot kan aksessere Wikipedia. Hvis en bot av noen grunn er svartelistet så skal den ikke brukes, heller ikke under andre navn, før forholdet som medførte svartelistingen er rettet.

Ikke alle bot'er respekterer alle parametre i robots.txt, men de kan via interne og eksterne mekanismer settes til å respektere de angitte forhold. Ikke minst bør operatøren av en bot påse at den ikke aksesserer Wikipedia oftere enn angitt i «Crawl-delay». For tiden er denne satt til 1 sekund for bot'er som ikke logger på, det vil si at de leser sider fra Wikipedias cache. Hvis en bot manipulerer artikler så gjelder andre regler for hvor fort den kan endre artikler.

Flere rammeverk kan brukes for å bygge en bot, men en av de vaneligste er python wikipediabot. Det finnes også rammeverk for boter i Perl, sjekk CPAN – Comprehensive Perl Archive Network – for de siste versjonene. Spesielt kan nevnes at det finnes biblioteker både for interaktive spørringer og for cvs-lignende funksjonalitet.

Sentralt i programmering av en bot er hvordan en får tak i artikler. For oppdaterte notater om hvordan dette til enhver tid gjøres så er maskin-vennlig wiki grensesnitt et startpunkt. For øyeblikket bruker imidlertid de fleste systemer raw-metodikken. For eksempel ser denne artikkelen slik ut som raw artikkel.

Respekter lisensbetingelsene

[rediger kilde]

Generelt er alle artikler i Wikipedia underlagt GFDL - Gnu Free Documentation License. Denne gir enkelte føringer på bruken av artiklene, og ikke minst at kilde må oppgis! Andre prosjekter under «Wikipediaparaplyen» kan ha helt andre føringer på lisensene. Spesielt gjelder at bilder på commons bruker en blanding av forskjellige lisenser men hvor alle skal kunne brukes fritt (avvik forekommer), og at tekst på Wikinytt bruker Creative Commons Attribution Share Alike 2.5.

Bilder er derimot ikke generelt fritt tilgjengelig på norsk Wikipedia. Spesielt gjelder at de kan ha føringer som sier at de kun kan brukes på Wikipedia og/eller i forbindelse med spesielle artikler.

Brudd på lisensbestemmelsene vil bli observert. For en liste av eksisterende tjenester som er notert, og en status på disse, se GFDL Compliance.

Om det er spørsmål utover dette så er Tinget et sted å spørre.

Dyplenking

[rediger kilde]

Norske nettmedier har etablert en praksis med dyplenking inn på andre nettsteder, samtidig som de ønsker å regulere andres anledning til å lenke inn på eget nettsted. Det er antatt at gjensidig lenking er en fordel og at et nettsted som lenker til Wikipedia også ønsker å bli lenket til. Fra Wikipedias side er dette delvis formalisert i Underprosjekt Dyplenking.

I en videre tolking så kan det dermed antas at et nettsted som representerer en ren linkfarm, og hvor Wikipedia har liten interesse av selv å lenke til nettstedet, må disse på sin side ta nødvendige skritt for å sikre at Wikipedias normale brukere ikke blir skadelidende. Hvis aktiviteten medfører at normal bruk blir skadelidende kan nettstedet bli svartelistet og aksess blokkert.

Se også

[rediger kilde]

Utover de sider som lenkes nedenfor påligger det operatøren av en bot å selv følge med på, og gjøre seg kjent med, de regler som gjelder for den typen bot og den typen bruk som operatøren driver.

Norske regler, en operatør må påse at disse følges

Engelske regler, en operatør må påse at disse følges hvis ikke de foregående overstyrer disse

Aktuelle API og biblioteker

[rediger kilde]

Sjekk eventuelt for nyere versjoner og alternative løsninger før det blir tatt avgjørelser på hva som er mest egnet for spesifikke prosjekter

API mot prosjektet
Perl biblioteker
Java biblioteker
Python biblioteker
Python biblioteker
Andre biblioteker