Brechen von monoalphabetischen Substitutions-Chiffren / Wortmuster-Analyse

Nachdem man die Art der Chiffre bestimmt hat und sicher ist, dass es sich um eine monoalphabetischen Substitutions-Chiffre handelt, bei der die Wortgrenzen erhalten geblieben sind, es sich also um eine Aristocrat-Chiffre handelt, kann man eine Wortmuster-Analyse durchführen. Diese funktioniert auch, wenn der Geheimtext aus Symbolen besteht, solange man noch die Wortgruppierungen eindeutig erkennen kann.

Bei der Wortmuster-Analyse geht es grob gesagt darum, ein Muster in den Buchstaben eines Wortes zu erkennen: welche Buchtaben sind die Gleichen und welche sind anders und damit Wörter zu finden, die das selbe Muster aufweisen.

Nehmen wir an, jemand hätte das Wort "Geheimnis" mittels einer Aristocrat-Verschlüsselung mit dem Schlüssel Apfelstrudel zu "LCMCNQRNE" chiffriert.

Dann können wir das Muster definieren, indem wir dem ersten gefundenen Buchstaben und allen weiteren Buchstaben, die dem ersten entsprechen, das "A" geben. Der nächste unterschiedliche Buchstabe (und dessen gleich) wird zu B und so weiter. Das sähe dann so aus (die ersetzten Buchstaben sind pro Runde die klein geschriebenen):
123456789 LCMCNQRNE aCMCNQRNE abMbNQRNE abcbNQRNE abcbdQRdE abcbdeRdE abcbdefdE abcbdefdg
So würden man übrigens auch vorgehen, wenn der Geheimtext aus Symbolen bestünde. Dann stünde das "a" für das erste Symbol, "b" für das zweite und so weiter.

Das fertige Muster lautet also "abcbdefdg" und hat als Charakteristik das "b" an 2. und 4. Stelle und das "d" an 4. und 8. Stelle. Die restlichen Buchstaben sind unterschiedlich.

Nun kann man sich durch Analyse von digital vorliegenden Wörterbüchern und Texten alle Wörter für die deutsche (oder eine andere) Sprache heraussuchen, das Muster ermitteln und in eine Datenbank speichern. Danach kann man ein beliebiges Chiffratwort eingeben und in das Muster überführen und dies mit den gespeicherten Wortmustern vergleichen und diejenigen auflisten, die dem Muster entsprechen. Das gesuchte Klartext-Wort muss dann in dieser Liste aufgeführt sein, es sei denn die Liste ist unvollständig.

Ich habe mir mal die Mühe gemacht und eine Datenbank mit Hunderttausenden Wörtern aus dem Deutschen und dem Englischen aus freien Quellen erstellt. Zwischen den beiden Datenbanken kann man umschalten, indem man "de" für deutsch (Standardeinstellung, kann auch weggelassen werden) und "en" als Schlüssel eingibt.

Für die deutschen Wörter gilt, dass alle Wörter mit Umlauten als auch mit Umlautersetzungen vorhanden sind. Dabei werden die Selbstlaute durch Selbstlaut plus "E" aufgelöst (z. B. "Ä" -> "AE") und das ß wird zu "SS". Auf eine weitere Variante mit "SZ" habe ich verzichtet, weil diese heute normalerweise nicht mehr angewendet wird. Dadurch können auch ersetzte Umlaute, wie es üblich ist, gefunden.

Da ich auch viele eigene Texte in die Wortdatenbank integriert habe, kann es sein, dass der eine oder andere Rechtschreibfehler darin gelandet ist. Seltsame Wörter dürfen gerne per e-mail (siehe Seitenende) gemeldet werden.

Für viele weitere Sprachen außer deutsch und englisch empfehle ich das Cryptool 2, dazu unten mehr.

Beispiel mit dem hier integrierten Kryptografie.de-Tool

Nehmen wir zum Beispiel den Geheimtext aus dem Artikel Brechen von monoalphabetischen Substitutions-Chiffren. Dieser enthält noch alle Satz- und Leerzeichen:
NP GKR NYCBKO NYC AONYCNP PSNPPNP BKNTVXNC, TKP XKQQN ZNTNRBKCC OYNU, TNR PYN CSR KCPKX, KB KOONROYNUPQNC KUNR YXRN WRDPPBSQQNR, TYN GSPPQN WKR CYVXQ, GKP PYN KOONP TNB AYCTN WNUNC PDOOQN. NYCBKO PVXNCAQN PYN YXB NYC AKNLLVXNC FDC RDQNB PKBQ, SCT GNYO YXB TKP PD GDXO PQKCT, SCT NP CYVXQP KCTNRP BNXR QRKWNC GDOOQN, XYNPP NP CSR TKP RDQAKNLLVXNC. NYCNP QKWNP PLRKVX PNYCN BSQQNR JS YXB: "ADBB, RDQAKNLLVXNC, TK XKPQ TS NYC PQSNVA ASVXNC SCT NYCN MOKPVXN GNYC, URYCW TKP TNR WRDPPBSQQNR XYCKSP; PYN YPQ ARKCA SCT PVXGKVX SCT GYRT PYVX TKRKC OKUNC. BKVX TYVX KSM, UNFDR NP XNYPP GYRT, SCT GNCC TS XYCKSPADBBPQ, PD WNX XSNUPVX PYQQPKB SCT OKSM CYVXQ FDB GNWN KU, PDCPQ MKNOOPQ TS SCT JNRURYVXPQ TKP WOKP, SCT TYN WRDPPBSQQNR XKQ CYVXQP. SCT GNCC TS YC YXRN PQSUN ADBBPQ, PD FNRWYPP CYVXQ WSQNC BDRWNC JS PKWNC SCT WSVA CYVXQ NRPQ YC KOONC NVANC XNRSB!
Wir wissen also, dass eine Buchstabenkolonne für ein Wort steht. Am besten picken wir uns das längste heraus, denn je länger ein Wort ist, desto seltener ist es und desto weniger Wortmuster-Entsprechungen gibt es. Nehmen wir RDQAKNLLVXNC, WRDPPBSQQNR und KOONROYNUPQNC. Hierzu gibt das Tool unten aus:
Das Wortmuster für RDQAKNLLVXNC ist ABCDEFGGHIFJ. Es wurden folgende Wörter mit demselben Wortmuster gefunden: abtruennigem abtruenniges artikellosen barfuessigem barfuessigem barfuessigen barfuessigen bordaeffchen botmaessigen botmaessigen botmaessiger botmaessiger brückennadel einflussraum fichtennadel fußbrettchen goldkettchen kabinettchef komplettsieg kostuemmaler kurmaessigen kurmaessigen kurzwelligem kurzwelligen kurzwelliges produkttanks rotfuesschen rotfuesschen rotkaeppchen schülerräten spitzennagel tonmaessiger tonmaessiger weißnussbaum zigarettchen
Das Wortmuster für WRDPPBSQQNR ist ABCDDEFGGHB. Es wurden folgende Wörter mit demselben Wortmuster gefunden: drittmänner flussmittel grasshopper grossbanner grosshammer grosskammer grosskipper grossmüller grossmutter grosszimmer knallhütten
Das Wortmuster für KOONROYNUPQNC ist ABBCDBECFGHCI. Es wurden folgende Wörter mit demselben Wortmuster gefunden: allerliebsten
Das letzte Wort ist ein Volltreffer. Es gibt nur eine Übereinstimmung: "allerliebsten". Ein eher seltenes Wort. Und auch für das zweite Wort gibt es nicht allzu viele Übereinstimmungen. Schnell kommen wir auf zu einem Märchen passende Wörter.

Wir wissen dann, dass für den Geheimtext wohl gilt:
KOONROYNUPQNC allerliebsten WRDPPBSQQNR grossmutter RDQAKNLLVXNC rotkaeppchen
Der Geheimbuchstabe "N" steht also in allen drei Fällen für den Klartextbuchstaben "e". Bei weiterer Überprüfung stellt sich heraus, dass alle Buchstaben-Paarungen übereinstimmen.

Mit dem Solver zum manuellen Brechen von monoalphabetischen Substitutions-Chiffren ist es dann ein Leichtes, die entsprechenden Ersetzungen durchzuführen, den Rest der Buchstaben zu erraten und auf den Klartext zu kommen.

Die Wortmuster-Analyse kann eine große Hilfe sein, wenn die Wörter einzeln erkennbar sind. Sie stellt eine gute Ergänzung zur Häufigkeitsanalyse der Buchstaben dar.

Code / Chiffre online dekodieren / entschlüsseln bzw. kodieren / verschlüsseln (Decoder / Encoder / Solver-Tool)

Beispiel mit CryptTool 2 (externes Tool)

CrypTool 2 (1) ist ein freies und kostenloses Tool für Windows, das auch eine Wortmuster-Analyse bietet. Und dies in etlichen Sprachen: Englisch, Deutsch, Spanisch, Französisch, Italienisch, Ungarisch, Russisch, Tschechisch, Griechisch, Lateinisch, Niederländisch, Schwedisch, Portugiesisch, Polnisch und Türkisch. Das deutsche Wörterbuch alleine umfasst über 300'000 Wörter.



Nachdem es gedownloadet und installiert ist, können wir unter "Kryptoanalyse/generisch" Wortmuster auswählen und unser Wortmuster oben links eingeben. Das funktioniert mit dem Muster, aber auch mit dem Chiffrat selbst, das Muster ermittelt das Tool dann selbst.

Kurz danach wirft uns das Tool auch schon die 17 Wörter aus, die für dieses Muster in Frage kommen. Hier nehmen wir dies, von dem wir meinen, dass es am besten zum Kontext bzw. dem zu erwartenden Klartext passt und probieren wir es aus, indem wir die Buchstabenersetzungen entsprechend einsetzen, durchführen und schauen, ob das Ergebnis hinkommen könnte. Falls nicht, versuchen wir das nächste Wort aus der Liste.

Beginnen sollten wir auch mit den häufigeren und wahrscheinlicheren Wörter. Um bei dem Beispiel zu bleiben: "pikiertes" oder "visiertem" würde man eher seltener verwenden. "Gegenwind", "Geheimnis" oder "honoriert" wären wohl bessere Kandidaten, zuerst ausprobiert zu werden.

Hat das keinen Erfolg, versuchen wir ein anderes Wort aus dem Chiffrattext. Vielleicht finden wir eines, dass weniger Muster-Entsprechungen hat.



Quellen, Literaturverweise und weiterführende Links