Koinzidenzindex bigrafisch (IC2)

Herkunft / Verwendung: Während der einfache Koinzidenzindex ("Kappa", engl: Index of coincidence, Abkürzung: IC) gibt die Wahrscheinlichkeit an, mit der zwei zufällig aus einem Text herausgegriffene Buchstaben übereinstimmen, gibt der Koinzidenzindex bigrafisch (IC2) diese Wahrscheinlichkeit für Buchstabenpaare an. Dazu wird ein Chiffrat in Teile zu je zwei Buchstaben zerteilt (nicht überlappend) und diese miteinander verglichen. Ergebnis ist dementsprechend die Wahrscheinlichkeit, mit der zwei zufällig aus einem Text herausgegriffene Bigramme übereinstimmen.

Der Koinzidenzindex bigrafisch dient hauptsächlich dazu, die Chiffre-Art zu klassifizieren und im Speziellen dazu, Chiffrate aus monoalphabetisch bigrafische Substitutionen (IC von ca 4% und IC2 von ca. 100%%) von Chiffrate aus polyalphabetischen Substitutionen (IC von ca 4% und IC2 von ca. 13%%) unterscheiden zu können. Je länger ein Chiffrat ist, desto deutlicher wird der Unterschied.

Der Koinzidenzindex bigrafisch (IC2) geht auf eine Idee und Implementation von Oliver Kuhlemann (Kryptografie.de) in 2025 zurück.

Der IC2 liefert ein quantitatives Maß, um zwischen Chiffren zu unterscheiden, die Einzelbuchstaben-Statistiken zerstören (polyalphabetisch) und solchen, die Bigramm-Statistiken erhalten (monoalphabetisch bigrafisch). Der klassische IC alleine kann diese Unterscheidung in den allermeisten Fällen nicht zuverlässig treffen.

Dies ist möglich, weil der Algorithmus zur Ermittelung des IC2 auf Bigramme abzielt und nicht wie der IC auf Einzelbuchstaben. So bliebt die relative Häufigkeitsverteilung der Bigramme erhalten (nur die "Namen" der Bigramme ändern sich). Wenn "EN" das häufigste Bigramm im Deutschen ist und es z.B. zu "XQ" verschlüsselt wird, dann wird "XQ" das häufigste Bigramm im Chiffrat sein. Die Form der Verteilung bleibt ähnlich der der zugrundeliegenden Sprache. Daher ist ein hoher IC2 zu erwarten, der die Struktur der Sprache widerspiegelt.

Der IC2 ist für unterschiedliche Sprachen verschieden und ist von der Häufigkeitsverteilung der Buchstaben innerhalb der Sprache abhängig. Man erhält den IC2 durch eine statistische Auswertung der Buchstaben eines Textes. Mit ihm können verschlüsselte Text auf sprachliche Eigenschaften untersucht werden.

Anhand des Koinzidenzindexes kann man darauf schließen, ob ein Chiffretext aus monoalphabetischer monografischer, monoalphabetischer bigrafischer oder polyalphabetischer Substitution stammt.

Solange keine Fraktionierung - hier also Bigramme mit Bigrammen an durch zwei teilbaren Positionen tvertauscht werden vorliegt, hat die zusätzliche Transposition zu einer monoalphabetischen bigrafischen Chiffre im Übrigen keinen Einfluss auf den Koinzidenzindex bigrafisch, da hier nur die Positionen der Bigramme vertauscht werden und diese für sich genommen erhalten bleiben.

Entspricht der IC2 eines Chiffrats aber mehr dem Koinzidenzindex eines gleichverteilten Buchstabensalates (also ca. 13%%), dann ist von einer polyalphabetischen monografischen Substitution (wie Vigenere) auszugehen, denn hier werden die Buchstabenpaare auseinander gerissen.

Beschreibung des Verfahrens

Vereinfacht gesagt pickt man sich zwei zufällige Buchstabenpaare aus einem Chiffrat heraus und schaut, ob diese übereinstimmen (koexistieren). Das macht man über alle Bigramme und erhält einen statistischen Wert, eben den Koinzidenzindex bigrafisch.

Der Koinzidenzindex wird ermittelt, indem man die jeweiligen Anzahlen ni der unterschiedlichen Buchstabenpaare in einem Chiffrat zählt. Das heißt, es wird gezählt, wie oft das 'AA', das 'AB' usw. in einem verschlüsselten Text vorkommt. Die Wahrscheinlichkeit berechnet sich nach dem Muster Anzahl der zutreffenden Fälle geteilt durch die Anzahl der möglichen Fälle. Die Anzahlen werden also mit den Anzahlen minus 1 multipliziert und für alle Buchstabenpaare aufsummiert. Anschließend wird die Summe dividiert durch die Anzahl der Bigramme N multipliziert mit der Anzahl der Bigramme minus 1.

Der Koinzidenzindex bigrafisch für einen Text mit nur einem, immer gleichen Buchstaben (z. B. "XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX") wird 1, also 10000%% sein. Weil jeder herausgepickte erste Buchstabe mit jedem herausgepickten zweiten Buchstabe übereinstimmt.

Der Koinzidenzindex für einen Text, dessen Grundlage die 26 Buchstaben des Alphabets sind und der nur unterschiedliche Buchstaben enthält (also "AA AB AC AD AE ... ZX ZY ZZ") wird 0 sein, weil kein herausgepicktes erstes Buchstabenpaar mit keinem herausgepickten zweiten Buchstabenpaar übereinstimmt.

Der Koinzidenzindex für einen Text, dessen Grundlage die 26 Buchstaben des Alphabets sind und der alle Buchstaben des Alphabets in gleicher Anzahl enthält (z. B: "AA AB AC AD AE ... ZX ZY ZZ" x-mal hintereinander) wird 1/767 oder 13.04%% sein, weil es für jedes herausgepickte erste Buchstabenpaar 676 Alternativen für das zweite herausgepickte Buchstabenpaar gibt.

Der Koinzidenzindex bigrafisch für ausgewählte Sprachen ist (jeweils ein Text mit ca. 5000 Zeichen übersetzt in die jeweilige Sprache):

SpracheIC2IC
finnisch137.2%%7.4%
irisch118.9%%
deutsch 100.7%%7.6%
norwegisch98.4%%6.9%
englisch 98.1%%6.5%
albanisch96.6%%
niederländisch96.2%%
rumänisch92%%
dänisch89.9%%7.0%
estnisch89.7%%
lettisch89%%
spanisch88.6%%7.5%
schwedisch87.1%%6.3%
französisch86.6%%7.8%
türkisch85.5%%
slowenisch83.3%%
portugiesisch83.2%%7.5%
litauisch81.6%%
ungarisch80.8%%
italienisch79.4%%7.6%
kroatisch78.7%%
isländisch76.3%%
polnisch75%%6.1%
slowakisch66.1%%
tschechisch64.8%%5.1%
gleichverteilt ("starke" Chiffre)13%%3.85%


Der Koinzidenzindex-bigrafisch (IC2) kann als weiteres Merkmal herangezogen werden, die verwendete Sprache zu bestimmen, wenn der normale Koinzidenzindex (IC) dies nicht vermag. Zum Beispiel um finnisch von deutsch zu unterscheiden. Dies liegt darin begründet, dass sich die Zusammensetzung der Buchstabenpaare in beiden Sprachen unterscheiden.

Auf der anderen Seite kann der IC2 dem IC auch unterlegen sein, zum Beispiel bei der Unterscheidung von deutsch und englisch. Für einen aussagekräftigen IC2-Wert sollte der untersuchte Text noch länger sein als schon bei der Ermittlung des IC.

Bezogen auf Chiffrate unterschiedlicher Chiffre-Arten (Ursprungstext deutsch, 676 Zeichen) ergibt sich folgendes Bild:

Chiffre-ArtChiffreIC2IC
Klartextkeine88.1%%6.86%
Transposition monografischSpaltentausch53.9%%6.86%
monoalphabetisch monografischMonoalphabetische Substitution88.5%%6.86%
monoalphabetisch bigrafisch Bigramm Chiffre88.5%%4.12%
polyalphabetisch monografischVigenere35.3%%4.17%


Während der IC bei der Unterscheidung von den Chiffrearten monoalphabetisch bigrafisch und polyalphabetisch monografisch versagt, weil er für beide sehr ähnliche Werte liefert, kann der IC2 mir einer hohen Differenz glänzen und macht damit beide Chiffrearten gut unterscheidbar.

Ursprungstext deutsch, 676 Zeichen

Als Beispiel dient uns der Anfang des Märchens Rotkäppchen der Gebrüder Grimm:

Es war einmal ein kleines süßes Mädchen, das hatte jedermann lieb, der sie nur ansah, am allerliebsten aber ihre Großmutter, die wusste gar nicht, was sie alles dem Kinde geben sollte. Einmal schenkte sie ihm ein Käppchen von rotem Samt, und weil ihm das so wohl stand, und es nichts anders mehr tragen wollte, hieß es nur das Rotkäppchen. Eines Tages sprach seine Mutter zu ihm: "Komm, Rotkäppchen, da hast du ein Stück Kuchen und eine Flasche Wein, bring das der Großmutter hinaus; sie ist krank und schwach und wird sich daran laben. Mach dich auf, bevor es heiß wird, und wenn du hinauskommst, so geh hübsch sittsam und lauf nicht vom Wege ab, sonst fällst du und zerbrichst das Glas, und die Großmutter hat nichts. Und wenn du in ihre Stube kommst, so vergiss nicht guten Morgen zu sagen und guck nicht erst in allen Ecken herum!"

Bereinigt um Leer- und Satzzeichen und mit ersetzen Umlauten ergibt dies ESWAREINMALEINKLEINESSUESSESMAEDCHENDASHATTEJEDERMANNLIEBDERSIENURANSAHAMALLERLIEBSTENABERIHREGROSSMUTTERDIEWUSSTEGARNICHTWASSIEALLESDEMKINDEGEBENSOLLTEEINMALSCHENKTESIEIHMEINKAEPPCHENVONROTEMSAMTUNDWEILIHMDASSOWOHLSTANDUNDESNICHTSANDERSMEHRTRAGENWOLLTEHIESSESNURDASROTKAEPPCHENEINESTAGESSPRACHSEINEMUTTERZUIHMKOMMROTKAEPPCHENDAHASTDUEINSTUECKKUCHENUNDEINEFLASCHEWEINBRINGDASDERGROSSMUTTERHINAUSSIEISTKRANKUNDSCHWACHUNDWIRDSICHDARANLABENMACHDICHAUFBEVORESHEISSWIRDUNDWENNDUHINAUSKOMMSTSOGEHHUEBSCHSITTSAMUNDLAUFNICHTVOMWEGEABSONSTFAELLSTDUUNDZERBRICHSTDASGLASUNDDIEGROSSMUTTERHATNICHTSUNDWENNDUINIHRESTUBEKOMMSTSOVERGISSNICHTGUTENMORGENZUSAGENUNDGUCKNICHTERSTINALLENECKENHERUM

Code / Chiffre online dekodieren / entschlüsseln bzw. kodieren / verschlüsseln (DeCoder / Encoder / Solver-Tool)

Vorher etwas mit dem Vigenere Chiffre verschlüsseln.
Vorher etwas mit der Bigramm Chiffre verschlüsseln.



Quellen, Literaturverweise und weiterführende Links