Hopp til innhold

Wikipedia:Tinget/Arkiv/2017-48

Fra Wikipedia, den frie encyklopedi

Sortering av norske tegn

[rediger kilde]

Dette får konsekvenser ganske mange steder, så derfor ber jeg om at nettsamfunnet blir enige om hva som er rett.

Det ser ut som om sortering av norske tegn ikke er helt slik det kanskje bør være, og slik Norsk språkråd beskriver det i Det latinske alfabetet og avsnittet «Rekkefølgen av tegnene». Før vi sier alt for bastant hvordan vi vil ha det så bør vi vel være enige.

På siden Kategori:Testkategori vises det hvordan «æ», «ø», og «å» plasseres. Dette er ligaturer som når de skrives ut består av to bokstaver. På norsk sorteres «aa» som «å», «aa» kommer etter «å», og kommer til sist. Dette er riktig i testkategorien. På norsk skal også andre ligaturer sorteres som doble karakterer, «En skal merke seg at «sammensatte tegn» som æ og œ blir behandlet som henholdsvis ae og oe.» Hvorvidt «œ» faktisk er det samme som «ø» er det uenighet om, men jeg tror de fleste er enige om at dette er samme tegnet. Det er ikke vanlig såvidt jeg kan se å sortere disse som om tegnene brukes enkeltvis, så dermed er bruken motsatt av for «å».

Jeg mener sortering av kategorien er riktig.

På siden Bruker:Jeblad/sortering er det en tabell som kan sorteres. Her sorteres «å» foran «æ» og «ø», noe som er feil. I tillegg sorteres tegnene «aa» uten unntaket for «å», slik at de kommer først.

Jeg mener sortering av tabellen er feil.

Hvis ingen er uenig så kommer det til å bli meldt inn to feil for scriptet som sorterer tabellen. En for plassering av «å», og en for feil plassering av «aa». — Jeblad 8. nov. 2017 kl. 22:17 (CET)

Vi kan fikse dette lokalt med midlertidige regler i Mediawiki:Common.js ala det som står nedenfor. En permanent løsning vil nok ta litt tid å få på plass. (phab:T72157) Den litt merkelige mappingen til feil bokstaver er for å justere for bokstavenes normale plass, sorteringen er annerledes enn codepointene i Unicode. Hvis noen ønsker andre regler så er det mulig, blant annet mappingen for «aa» kan skape problemer med navn ala Aachen og Maastricht. — Jeblad 9. nov. 2017 kl. 21:14 (CET)
Forslag til collation sequence 
/**
 * Collation sequence for Norwegian.
 * Note that æ, ø, and å are reordered.
 * For jquery.tablesorter.js
 */
 mw.config.set( 'tableSorterCollation', {
 	'Æ'  : 'Å',
 	'Ø'  : 'Æ',
 	'Å'  : 'Ø',
 	'Aa' : 'Ø',
 	'Þ'  : 'Th',
 	'æ'  : 'å',
 	'ø'  : 'æ',
 	'å'  : 'ø',
 	'ä'  : 'å',
 	'ö'  : 'æ',
 	'ü'  : 'y',
 	'aa' : 'ø',
 	'þ'  : 'th'
} );
Vet ikke om jeg skjønner helt hva du sier. Det gjelder særlig et par punkter:
  • «På norsk sorteres «aa» som «å», «aa» kommer etter «å», og kommer til sist.» — Mener du at de er likestilt, og at en algoritme avgjør hva som listes opp først på det tegnet alene? Vil for eksempel «Aaraas» sorteres korrekt foran «Åsen»?
  • «En skal merke seg at «sammensatte tegn» som æ og œ blir behandlet som henholdsvis ae og oe.» — Blir behandlet hvor? «æ» skal da ikke behandles som «ae», eller? Rekkefølgen å, æ, ø er for øvrig svensk.
Vinguru (diskusjon) 9. nov. 2017 kl. 21:34 (CET)
Punkt en i spørsmålet ditt; med fiksen så sorteres «Aaraas» sammen med andre ord på «Å», og foran «Åsen» og etter «Årn». Du kan teste på Bruker:Jeblad/sortering, feel free til å legge til flere testrader.
Punkt to i spørsmålet ditt; tekst er hentet fra Språkrådet, du finner hele teksten på Det latinske alfabetet og i avsnittet «Rekkefølgen av tegnene». Jeg har ikke lagt til omskriving av ligaturene «ae» og «oe», til digrafer. Såvidt jeg kan skjønne er denne omskrivingen uvanlig, selv om den kanskje er riktig.
Det ser ut som enkelte prosjekter har droppet omskrivingen av «aa», det skaper problemer med sortering av Aachen og Maastricht. Muligens er det enklere å sette opp manuell sortering av akkurat disse digrafene. — Jeblad 9. nov. 2017 kl. 21:55 (CET)
Nå kommer små bokstaver etter store, mens Språkrådet sier det skal være motsatt. Det er mulig å fikse dette, men da blir tabellen en god del større. — Jeblad 9. nov. 2017 kl. 22:40 (CET)

Uklart forslag. Her er det ikke klart hva Jeblad vil fikse eller hvordan det skal fikses. Denne kan vi droppe. ツDyveldi☯ prat ✉ post 26. nov. 2017 kl. 09:33 (CET)

Fint om Dyveldi kan slutte å trolle. — Jeblad 26. nov. 2017 kl. 09:57 (CET)
Jeblad bør slutte å kalle andre for troll. --ツDyveldi☯ prat ✉ post 26. nov. 2017 kl. 12:37 (CET)
Det er en artikkel Det dansk-norske alfabetet som viser hvordan en normal sorteringsfølge ser ut. (Her er en referanse [1] for de som måtte tvile.) Alfabetet er gjengitt nedenfor
A, B, C, D, E, F, G, H, I, J, K, L, M, N, O, P, Q, R, S, T, U, V, W, X, Y, Z, Æ, Ø, Å
Legg merke til bokstavene i slutten av alfabetet som er angitt i fet skrift. Hvis dette sorteres i en tabell hos oss så kommer det ut som
A, B, C, D, E, F, G, H, I, J, K, L, M, N, O, P, Q, R, S, T, U, V, W, X, Y, Z, Å, Æ, Ø
Dette er ikke riktig sorteringsfølge, og selv barn på barneskolen vet det. Feilen kommer av at sorteringen slavisk følger codepoints og ikke de lokale reglene for hvert enkelt språk.
Det finnes en quick-fix, hvor vi gjør de nødvendige endringene, eller vi kan vente på en sentral oppdatering. Phab:T72157 er nå tre år gammel, og det kommer nok til å ta vinter og vår før en fiks rulles ut. — Jeblad 26. nov. 2017 kl. 10:52 (CET)
Jeg synes denne tableSorterCollation er dårlig dokumentert, og ut fra hvordan den ser ut, får jeg inntrykk av at det er en ganske stygg hack når det gjelder å endre rekkefølgen på tegn. Men hvis det er den eneste måten å fikse riktig rekkefølge i sortering på slik at Wikipedia ikke fremstår som skrevet av folk som strøk i norsk i første klasse på barneskolen, så må det vel til. Alternativet er vel å skrive om hva nå enn som bruker tableSorterCollation til å gjøre ting riktig i utgangspunktet, men det forutsetter jo at noen her har kompetansen og tiden til det. Ters (diskusjon) 26. nov. 2017 kl. 11:09 (CET)
Utvidelsen vi bruker er jquery.tablesorter, og bugs er sporet på phab:tag/mediawiki-jquery-tablesorter/. Jeg kan ikke huske å ha sett en skikkelig dokumentasjon noe sted, men det finnes en delvis på mw:Help:Sorting. Helt enig i at det er et stygt hack, men det er eneste som er tilgjengelig her og nå. — Jeblad 26. nov. 2017 kl. 11:33 (CET)

Forutsatt at dette ikke dreier seg om sortering av oe etc og alt det andre som Jeblad har nevnt i det ovenstående, men kun dreier seg om å endre rekkefølgen på Å, Æ og Ø til Æ, Ø, og Å og at det gjøres på en måte som ikke skaper problemer andre steder er jeg for. Hvor ÆØÅ skulle stå i det norske alfabetet ble vedtatt i 1917 og omtrent samtidig valgte svenskene en annen rekkefølge, kort informativt innslag på Språkteigen i dag. Hvis jeg husker rett startet diskusjonen omtrent i 1859 og ble avsluttet med vedtak i 1917. --ツDyveldi☯ prat ✉ post 26. nov. 2017 kl. 12:37 (CET)

Hva har 1917 med dette å gjøre? — Jeblad 26. nov. 2017 kl. 12:58 (CET)
oe=ø og slikt, ja kanskje til og med aa=å, bør vi kanskje unngå å håndtere automatisk. Jeg tror vi vil slite mer med at toere sorteres feil hvis vi gjør det enn vi vil slite med at Hoegberg sorteres feil hvis vi ikke gjør det. Mappinger andre veien, som Þ=th bør vel også være greit, men ta de viktigste æ, ø og å først. Ters (diskusjon) 26. nov. 2017 kl. 18:03 (CET)
Varianter som Hoegaarden, Hoegner, Hoegea, Hoëgne, Høgfjell, Högaborg, Goethe, Göttingen, Encyclopædia tror jeg vi skal unngå å lage spesialregler for sortering av. Her er for mange språk innvolvert og de har antagelig sine egne spesialregler, i alle fall sorterer svenskene ä og ö anderledes enn norsk og tysk.--ツDyveldi☯ prat ✉ post 26. nov. 2017 kl. 20:22 (CET)
Merk mitt innlegg fra 9. nov. 2017 kl. 21:55 (CET). — Jeblad 26. nov. 2017 kl. 18:48 (CET)
og hvis du klarer for fremtiden å motstå fristelsen til å bruke ord som ligaturene og digrafer så har du en sjanse til å bli lest og forstått i stedet for å bli ignorert som du her ble.--ツDyveldi☯ prat ✉ post 26. nov. 2017 kl. 20:22 (CET)

Kan noen programmerere si noe om dette "hacket" vil påvirke andre ting og om det er ufarlig å innføre eller om vi vil innføre problemer hvis vi innfører det for å sortere æøå i stedet for åæø.--ツDyveldi☯ prat ✉ post 26. nov. 2017 kl. 20:22 (CET)
-- Og så for å være overtydelig hvilket man noen ganger skal være. Stor ros til Jeblad for å oppdage at vi sorterer ÆØÅ i samsvar med det svenske alfabetet (dvs ÅØÆ) og ikke i henhold til norsk rekkefølge som ble innført i norsk språk i 1917. Kjempeflott at han også har kommet med forslag til løsning. Det tok litt tid å skjønne, men noen ganger er det sånn. Kan flere nå se på dette og sier noe om løsningen og eventuelle alternativer slik at vi kan drive frem en beslutning her som støttes av flere. ツDyveldi☯ prat ✉ post 26. nov. 2017 kl. 22:20 (CET)

Noen ganger kan det være lurt å tenke etter hvorvidt en skal mene noe om ting man ikke forstår. De som kan litt om koden i Mediawiki finner du på Spesial:Versjon/Credits. Du kan jo sjekke om «TheDJ (Derk-Jan Hartman)» som foreslo løsningen i phab:T180142 står på den lista, eller andre for den saks skyld. (Ja, jeg står på lista.) Hvorvidt «dette "hacket" vil påvirke andre ting» kan du enklest sjekke ved å se om det er andre som bruker løsningen. Det er blant annet slike som dewiki, eswiki, frwiki, og plwiki. — Jeblad 27. nov. 2017 kl. 00:03 (CET)
Der skjøt du deg selv i foten Jeblad. Slike kommentarer er nøyaktig det du bør slutte med. ツDyveldi☯ prat ✉ post 27. nov. 2017 kl. 21:02 (CET)

Ut over at rekkefølgen på ..xyzÆØÅ er klar i det norske alfabetet så har vi noen utfordringer. Jeg lyttet på Språkteigen og det ble på uttale og feil skriftlig, svensk har ikke ø eller æ, de har ö og ä som de plasserer sist i alfabetet, dvs ..xyzåäö. Videre så plasserer tysk ä og ö som om det stod a eller o, på fransk bryr de seg ikke en tøddel om disse prikkene, som de for eksempel har i w:fr:Noël, i alfabetet sitt. Vi kan med andre ord ikke gi oss til å sortere Göttingen på tysk måte og så Göteborg på svensk måte, selv om dette ville bli riktig etter landenes respektive alfabet og på overflaten ser likt ut så er ö og ö her ikke samme bokstav. Aschehoug og Gyldendals Store norske leksikon 3. utgave 1997 har plassert Göteborg og Göttingen som om det stod Gøteborg og Gøttingen og tilsvarende ä og æ som om de var det samme, mens i Noël bryr de seg ikke en tøddel om (det er da også her ikke en tøddel, men et trema). Güiraldes har de plassert som om det stod Guiraldes. De har imidlertid også råd til å plassere norske aa som om det stod å og utenlandske aa som aa. Det er da også et papirleksikon som bare kan sorteres på én måte og hvor du kan forhåndsbestemme nøyaktig hvordan et ord skal stå i den alfabetiske rekkefølgen. Dette er et nettleksikon og jeg klarer ikke å se for meg at vi kan ha ö og ö som skal alfabetiseres på forskjellige steder for å få det riktig.ツDyveldi☯ prat ✉ post 27. nov. 2017 kl. 21:02 (CET)

Vi skriver på norsk og bruker lokalisering for norsk. Vi skriver ikke tysk, svensk, dansk, fransk, eller noe annet. Hvis vi trenger å uttrykke fraser på et annet språk så merker vi det spesielt. Så også i dette tilfellet. Dette er beskrevet på hjelpesiden, se mw:Help:Sorting#Specifying a sort key. Virker som dette har gått over til å bli voksenopplæring, og det er ikke målet med Tinget.
Forøvrig er dette tatt i bruk, så for min del er dette case closed. — Jeblad 27. nov. 2017 kl. 21:31 (CET)