Kölner Phonetik
Kategorisierung: | Kodierungen / zahlenbasiert |
Siehe auch: | Soundex Code |
Herkunft / Verwendung: |
Die Kölner Phonetik (auch Kölner Verfahren) ist sozusagen ein phonetischer Hashwert. Ihre Codes haben die Eigenschaft, dass ähnlich ausgesprochene Wörter den gleichen Wert erzeugen. Dies kann zur Suche in Datenbanken verwendet werden, wenn man die Aussprache, aber nicht die genaue Schreibweise kennt. Kölner Phonetik ist im Gegensatz zu Soundex speziell auf die deutsche Sprache zugeschnitten und liefert einen String aus beliebig vielen Ziffern, abhängig von der Länge des Klartextes. Dadurch wird auch eine Unterscheidbarkeit bei im Deutschen vorkommenden langen Wörtern erhalten. Praktisches Beispiel: Wenn man nur die Aussprache eines Namens kennt, etwa "Meier" und nicht genau weiß, ob dieser Maier, Meier, Mayer, Meyer oder auch Mayr, dann kann man nach dem Wert nach Kölner Phonetik in der Datenbank suchen und wird unter "657" alle Schreibvarianten wiederfinden. Entwickelt wurde die Kölner Phonetik von Hans Joachim Postel Ende der 1960er Jahre. Die Veröffentlichung fand 1969 statt. Der hier verwendete Algorithmus ist leicht erweitern und an die Umlaute der deutsche Sprache angepasst, denn er ordnet die Umlaute "Ä", "Ö" und "Ü" as Vokale (0) und "ß" als "s" (8) ein. Das entspricht zwar streng genommen nicht dem orginalen Algorithmus, doch kann dieser einfach durch Weglassen von Umlauten erreicht werden. |
Spezifikation des Algorithmus
Jeder Buchstabe wird in eine der folgenden 9 Kategorien eingeordnet und von links nach rechts kodiert:A, E, I, O, U,
J, Y, Ä, Ö, Ü 0
B 1
P nicht vor H 1
D, T nicht vor C, S, Z 2
F, V, W 3
P vor H 3
G, K, Q 4
C im Anlaut vor A, H, K,
L, O, Q, R, U, X 4
C vor A, H, K, O, Q, U,
X außer nach S, Z 4
X nicht nach C, K, Q 48
L 5
M, N 6
R 7
S, Z, ß 8
C nach S, Z
C im Anlaut außer vor A,
H, K, L, O, Q, R, U, X 8
C nicht vor A, H, K, O,
Q, U, X 8
D, T vor C, S, Z 8
X nach C, K, Q 8
* Umlaute im verwendeten Algorithmus ergänzt
wenn nicht gewünscht, Umlaute nicht angeben
Ein Anlaut ist der erste Laut eines Wortes, z. B. "Au" für "Autobahn", "N" für "Name", "CH" für Chemie, "Pf" für "Pfanne", "Sch" für Schaf
Nicht aufgeführte Buchstaben werden ignoriert und gehen nicht in den Code ein.Aufeinanderfolgende, gleiche Ziffern im Code werden ausgelassen, Doppelbuchstaben führen also nur zu einmalige Nennung einer Ziffer.
Der Code ist von der Länge her nicht begrenzt. Lange Wörter führen zu langen Codes und erhalten damit die Unterscheidbarkeit.
Die Nullen gehen nicht in den Code ein, es sei denn, sie stehen am Anfang (werden dann zu einer Null gekürzt).
Beispiele
Klartext: | null eins zwei drei vier fünf sechs sieben acht neun zehn elf zwölf |
Kodiert: | 65 068 83 27 37 363 848 816 042 66 86 053 8353 |
Klartext: | Müller-Lüdenscheidt |
Kodiert: | 65752682 |
Klartext: | Erika Mustermann |
Kodiert: | 074 682766 |
Dekodierung von 074 68766:
Die Kölner Phonetik gibt Konsonanten als Ziffern wieder. Doppelkonsonanten werden gekürzt. Jede der nachfolgenden Zeilen steht für einen möglichen Buchstaben. Zwischen den Zeilen können sich beliebig viele der folgende Buchstaben befinden: AEIOU HJY ÄÖÜ, denn diese wurden bei der Kodierung ausgelassen.
aeioujyöäü
r (i)
gkqcx (a)
--------
mn (u)
szcdtx (st gekürzt) (e)
r
mn (a)
mn (nn gekürzt)
--------
Code / Chiffre online dekodieren / entschlüsseln bzw. kodieren / verschlüsseln (Decoder / Encoder / Solver-Tool)
Quellen, Literaturverweise und weiterführende Links
Wikipedia-Artikel zur Kölner PhonetikWeitere Beispiele für Anlaute auf Wikipedia