Alfabetisch rangschikken of alfabetiseren houdt in dat gegevens op volgorde van de letters van het alfabet worden geplaatst. Woorden die met dezelfde letter beginnen, komen bij elkaar te staan, ongeacht de betekenis, en worden onderling verder gesorteerd op hun overige letters. In de talen met een alfabetisch schrift bestaan hier verschillende conventies voor.
Het voordeel van een alfabetische ordening is dat deze, gegeven de conventie, eenduidig is, zodat bijna iedereen met kennis van het alfabet en de conventie makkelijk kan vinden wat hij of zij zoekt, zonder nadere kennis over de inhoud. Daarmee is deze volgorde ook neutraal. De alfabetische volgorde wordt dan ook veel gebruikt, bijvoorbeeld in lijsten, registers, in naslagwerken zoals woordenboeken, telefoongidsen en encyclopedieën en voor plaatsing van de boeken in een bibliotheek. Ook bij elektronische informatie worden zoekresultaten vaak alfabetisch geordend. Nadeel van de alfabetische rangschikking is dat er geen inhoudelijke samenhang is; in sommige gevallen zal men liever voor een chronologische, numerieke of systematische ordening kiezen.
De volgorde van de 26 letters is standaard (in kapitalen): A, B, C, D, E, F, G, H, I, J, K, L, M, N, O, P, Q, R, S, T, U, V, W, X, Y, Z. Deze volgorde houdt misschien verband met het feit dat de letters vroeger ook wel als cijfers werden gebruikt. Over het ontstaan van de alfabetische volgorde is weinig bekend. Er is een duidelijke overeenkomst aan te wijzen met de volgorde van andere alfabetten, zoals het Grieks, Hebreeuws en Fenicisch.
Sommige letters die tegenwoordig als volwaardige letters gelden, zijn recent toegevoegd door modificatie van bestaande letters. Ze komen in de volgorde vlak vóór of na de oorspronkelijke letter. Deze letters zijn J, U en W. Ook de Y is een recente toevoeging. De K is al eerder uit het Grieks overgenomen. In teksten van enkele eeuwen geleden treft men deze letters dan ook niet aan.
In het Latijnse alfabet, zoals dat ook voor de Nederlandse taal wordt gebruikt, zijn er 26 letters die een vaste volgorde kennen. In sommige talen beschouwt men bepaalde lettercombinaties (digrafen) en letters met diakritische tekens als zelfstandige ‘letter’ met een eigen positie in het alfabet (zie de heikele punten verderop). Dit doet niet af aan de basisprincipes voor het alfabetisch sorteren van losse woorden:
- Eerst vergelijkt men de beginletters van de woorden: ‘appel’ komt voor ‘banaan’ omdat de ‘a’ in het alfabet voor de ‘b’ komt.
- Bij woorden met dezelfde beginletter wordt vervolgens naar de tweede letter gekeken. Als dat geen uitsluitsel biedt naar de derde letter en zo verder. De woorden ‘peer’ en ‘perzik’ komen voor ‘pruim’ omdat de ‘e’ in het alfabet voor de ‘r’ staat. Om diezelfde reden komt – bij de 3e stap – ‘peer’ voor ‘perzik’.
- Als een woord overeenkomt met het eerste deel van een ander woord komt het kortere woord eerst, bijvoorbeeld 'te' komt voor 'ten'.
Als de lijst met te sorteren gegevens niet alleen uit losse woorden bestaat, maar ook uit titels, namen of termen van meerdere woorden, wordt het ingewikkelder, want dan moet een keuze worden gemaakt tussen twee vormen van alfabetische rangschikking:
- Woord voor woord (vooral in registers): het eerste woord dient als primaire sorteersleutel, het tweede woord als de secundaire sorteersleutel enzovoorts. Als een tekst overeenkomt met de eerste woorden van een andere tekst komt de kortere tekst eerst, bijvoorbeeld 'te' komt voor 'te moede'.[1] Voorbeeld:
- te
- te moede
- te rade gaan
- ten aanhoren van
- Letter voor letter (vaak in woordenboeken en encyclopedieën): over de woordgrenzen (spaties) heen wordt telkens naar de volgende letter gekeken. Anders gezegd: spaties worden genegeerd. Voorbeeld:
- te moede
- ten aanhoren van
- te rade gaan
Te alfabetiseren teksten staan tegenwoordig vaak al op een computer, die ze ook kan sorteren. De tekens van de tekenset hebben dan door nummering en/of interne representatie al een volgorde waarop gesorteerd kan worden. Een teken met een lager nummer, zoals de A, komt voor een letter met een hoger nummer, zoals de Z. In veel tekensets zoals ASCII heeft de spatie een lager nummer dan alle letters. In dat geval komt de rangschikking van woordgroepen overeen met de woord-voor-woordmethode: woordgrenzen zijn daarin immers belangrijker dan de letters van het volgende woord.
Eenvoudige computersortering werkt prima als de gegevens ook weer door een computer opgezocht moeten worden, maar voor gebruik door mensen stelt men vaak andere eisen:
- Soms wil men op een afwijkende manier omgaan met spaties en leestekens.
- Meestal wil men geen onderscheid maken tussen hoofdletters en kleine letters.
- In veel talen wordt bij de alfabetisering geen onderscheid gemaakt tussen letters met en zonder diakritische tekens. Dit betekent dat de letters mét zulke tekens (bijvoorbeeld é en ë) handmatig of automatisch moeten worden omgezet naar de ‘kale’ versie (in dit voorbeeld de e). Hierop zijn echter uitzonderingen: in het Spaans komt de Ñ na de N en in Scandinavische talen komen Ä, Å, Ö en Ø na de Z. Men moet zich dus ook afvragen of men een vreemde naam wil alfabetiseren volgens de regels in de oorspronkelijke taal of volgens de eigen taal.
- In sommige talen kent men combinaties van letters die voor de alfabetische volgorde als een enkele letter gelden. In oudere Spaanse woordenboeken zijn dat CH (na de C) en LL (na de L), in het Nederlands (volgens sommigen) IJ. In het Deens wordt AA hetzelfde gesorteerd als Å. Hierbij geldt weer hetzelfde probleem als met diakritische tekens, waarbij men bijvoorbeeld moet bedenken dat in de plaatsnaam Dijon geen IJ voorkomt, maar wel een I en een J.
- Personen worden meestal gesorteerd op achternaam en pas daarna op voornaam. (Eerst Jansen, Alfred; daarna komt Jansen, Bob). Het voorvoegsel (van, de) wordt in Nederland bij het sorteren meestal achteraan gezet, zoals: Vries, Jan de. In België is de normale orde van toepassing: De Vries, Jan. Vanden Heuvel, Loes.
- Ook lidwoorden worden meestal genegeerd. Dus: Volkskrant, de.
- Afkortingen, vooral aan het begin, worden liever vermeden. Men sorteert dus op Laan van Meerdervoort of Meerdervoort, laan van, maar niet op Ln v Meerdervoort.
- In genealogische lijsten kiest men vaak voor een standaardspelling, omdat namen, vóór de invoering van de Burgerlijke stand nogal willekeurig gespeld werden. Namen als Cleyn, Cleijn, Klein, worden door elkaar gesorteerd alsof er Klein stond.
- Iets dergelijks geldt ook voor de namen van instellingen. Men maakt bij de sortering geen onderscheid tussen Nederlandse, Neederlandsche en Nederlandsche, aangezien de gebruiker vaak niet weet wat de juiste spelling is.
- Getallen worden op numerieke volgorde gesorteerd, dus 3 komt eerder dan 13. Voor mensen is dat vanzelfsprekend, maar voor computers is een ingreep nodig om dat te bereiken. Soms bereikt men het door in de invoer voorloopnullen of -spaties te schrijven.
Achternamen
Alfabetische volgorde bij namen volgens Taaladvies.net (van de Taalunie) in 2006:
"Voor een gewone lijst met namen (bijvoorbeeld klanten of personeelsleden) adviseren wij om de familienaam in zijn geheel vooraan te laten staan en de spaties te negeren. Wij raden af om rekening te houden met spaties (en eventuele apostrofs) in de familienaam, want dit zou tot gevolg hebben dat een naam als Van den daele vóór Vande Kerckhove komt te staan.
- Toelichting:
- bij het alfabetisch ordenen is er in grote trekken keuze tussen letter-voor-letter-ordening of woord-voor-woord-ordening.
- Bij letter-voor-letter-ordening worden de spaties en apostrofs genegeerd. Daarbij geldt ook dat "niets komt voor iets", dus Vandevel komt voor Vandevelde. Deze ordening komt vooral in woordenboeken voor.
- Bij woord-voor-woord-ordening staan alle termen die met hetzelfde woord beginnen bij elkaar, en wordt op het tweede woord gealfabetiseerd. Deze ordening is gebruikelijk in registers. Hier wordt het koppelteken genegeerd.
- In België worden voorvoegsels als de, van, ter, van de, als vaste onderdelen van de naam gezien, zoals onveranderlijk vastgelegd in de burgerlijke stand. Namen met zulke voorvoegsels worden onder de letter van het voorvoegsel geïndexeerd. Luc De Vos staat bij de D, net als Luc Devos. Het nadeel van deze methode is dat letters als d en v (eerste letters van de en van) veel meer items bevatten dan de andere letters en iets meer opzoekwerk vragen.
- In Nederland worden de voorvoegsels achter de voornaam gezet en klein gespeld. Er wordt dan op het kernwoord geïndexeerd, behalve natuurlijk als het voorvoegsel aan de naam vastzit. Luc De Vos komt hier bij de V, terwijl Luc Devos bij de D komt. Het nadeel van deze methode is dat om een persoon terug te vinden, je moet weten of zijn naam uit één of meer woorden bestaat. In het voorbeeld zul je dus zowel bij de D als bij de V moeten gaan zoeken.
- Volgens de conventies die gelden voor literatuurlijsten, komen los geschreven voorzetsels en lidwoorden (van, de,..) die deel uitmaken van de familienaam, achteraan te staan."
In andere talen met van het Latijn afgeleid alfabet bestaan vaak andere conventies voor de alfabetische volgorde.
Als voorbeeld wordt hier het Hongaars genomen. Hongaars wordt geschreven met een vrijwel fonetisch alfabet van 44 grafemen ("letters").
Om de in het Latijnse alfabet ontbrekende medeklinkers van het Hongaars weer te geven zijn digrafen en trigrafen in gebruik, zoals de digrafen "cs", "dz", "sz", en de trigraaf "dzs". Lange medeklinkers worden dubbel geschreven. De di- en trigrafen krijgen elk een eigen afdeling in het woordenboek, tussen de andere letters. Verdubbelde di- en trigrafen in woorden worden bij het sorteren gerekend als twee "letters". Daarnaast worden lange klinkers onderscheiden van de korte met boven de letter geplaatste diakritische tekens (puntjes of streepjes). Bij het alfabetiseren van woorden in een woordenboek worden korte en lange klinkers bij elkaar gesorteerd.
De alfabetische volgorde (inclusief de letters uit leenwoorden) is:
- A, Á, a, á
- B, b
- C, c
- Cs, cs (bij verdubbeling: ccs)
- D, d
- Dz, dz (bij verdubbeling: ddz)
- Dzs, dzs (bij verdubbeling: dzzs)
- E, É, e, é
- F, f
- G, g
- Gy, gy (bij verdubbeling: ggy)
- H, h
- I, Í, i, í
- J, j
- K, k
- L, l
- Ly, ly (bij verdubbeling: lly)
- M, m
- N, n
- Ny, ny (bij verdubbeling: nny)
- O, Ó, o, ó
- Ö, Ő, ö, ő
- P, p
- Q, q
- R, r
- S, s
- Sz, sz (bij verdubbeling: ssz)
- T, t
- Ty, ty (bij verdubbeling: tty)
- U, Ú, u, ú
- Ü, Ű, ü, ű
- V, v
- W, w
- X, x
- Y, y
- Z, z
- Zs, zs (bij verdubbeling: zzs)
Bronnen, noten en/of referenties
Deze variant komt overeen met het denkbeeldig aanvullen met spaties van alle te sorteren teksten tot ze alle even lang zijn, en dan lexicografisch te sorteren met de spatie als eerste teken van de tekenset.