Häufigkeitsverteilung

Kategorisierung:Klassisch / Substitution
Herkunft / Verwendung: Die Gesamtheit der Häufigkeiten der einzelnen Buchstaben (oder Buchstabengruppen) eines Textes im Verhältnis zum Gesamttext wird Häufigkeitsverteilung genannt. Sie wird meist in pro 100 (Prozent) oder pro 1000 (Promille) angegeben.

Die Häufigkeit der Buchstaben ist für eine Sprache charakteristisch. So ist das 'E' im deutschen mit einer Häufigkeit von 17,4% der meist verwendete Buchstabe. Im englischen dagegen hat das 'E' nur einen Anteil von 12,7%. Die Häufigkeitsverteilung bleibt bei monoalphabetischen Substitutionschiffren auch nach dem Verschlüsseln erhalten, da die Buchstaben ja nur gegeneinander ausgetauscht werden. So lassen sich Rückschlüsse auf die Sprache machen und ein so chiffrierter Text dechiffrieren, indem man den meisthäufigsten Buchstaben im Chiffrat durch den meisthäufigsten Buchstaben der Sprache ('E') ersetzt, den zweithäufigsten ebenso usw. Durch Austausch von Buchstaben durch welche mit ähnlicher Verteilung kann man so Wortteile kombinieren und schlussendlich den Gesamttext entziffern.

Auch bei Dechiffrierung von polyalphabetischen Substitutionschiffren kann die Häufigkeitsverteilung von Nutzen sein, z. B. bei der Bestimmung der Schlüssellänge einer Vigenere Chiffre. Bei dieser Chiffre wird ein kurzes Schlüsselwort zum Chiffrieren ständig wiederholt. Durch Duchteten eines Intervals und Zusammenführen der verteilten Buchstaben im Interval führt man probeweise ursprünglich im Klartext zusammengehörige Buchstaben wieder zusammen, beim Interval 5 z. B. den 1., 6., 11.,16. usw. Buchstaben. Auch wenn die einzelnen Buchstaben in einem so zusammengeführten Text noch chiffriert sind, wurde durch das Zusammenführen die ursprüngliche Häufigkeitsverteilung wiederhergestellt, wenn der Interval der richtige ist. Eine elegante Abkürzung zu diesem Vorgehen stellt der Friedman-Test dar.

Man kann allerdings nicht nur die Häufigkeit von Einzelbuchstaben zählen , sondern dies auch für Zweipaare (Bigramme) und Dreierpaare (Trigramme) tun. Sind die Leerzeichen in einem Chiffrat erhalten geblieben, kann man auch auf ...
  • einzelne Wörter: Im englischen gibt es z. B. nur 2 Wörter mit einem Buchstaben: 'I' und 'a'. Die häufigsten dreistelligen Wörter im Deutschen sind 'die', 'der', 'und', 'den', und 'das'
  • Wortanfänge: Buchstabenfolgen, mit denen Wörter oft beginnen.
  • Wortenden: Buchstabenfolgen, mit denen Wörter häufig enden.
abprüfen und Erkenntnisse über deren Häufigkeitsverteilung bei der Entschlüsselung eines Textes behilflich sein.


Tabellen und Diagramme

Hinweis zu den Tabellen: Alle Werte in den Tabellen sind annähernde Werte und abhängig davon, welchen Text bzw. welche Art von Texten man der Buchstabenzählung zugrunde legt. Dabei wird es Abweichungen geben, je nachdem, ob man z. B. Zeitungen, Romane oder wissenschaftliche Abhandlungen (evtl. auch zu speziellen Gebieten) als Grundlage nimmt. Zudem ist die Sprache selbst Änderungen unterworfen, z. B. wird seit der Rechtschreibreform von 1996 'daß' nun als 'dass' geschrieben. 'Daß' war ein relativ häufiges Wort. Dies hat zur Folge, dass sich der Anteil des 'ß' vermindert und der des 's' erhöht.

Einzelbuchstaben

Die Häufigkeitsverteilung von Einzelbuchstaben (A-Z) in verschiedenen Sprachen
Buchstabedeutschenglischfranzösischspanischitalienischschwedischportugiesisch
A6,51%8,17% 7,94%12,53%11,74%9,30%13,5%
B1,89%1,49% 0,90%1,42%0,92%1,30%0,5%
C3,06%2,78% 3,26%4,68%4,50%1,30%3,5%
D5,08%4,25% 3,67%5,86%3,73%4,50%5%
E17,41%12,70%17,11%13,68%11,79%9,90%13%
F1,66%2,23% 1,07%0,69%0,95%2,00%1%
G3,01%2,02% 0,87%1,01%1,64%3,30%1%
H4,76%6,09% 0,74%0,70%1,54%2,10%1%
I7,55%6,98% 7,58%6,25%11,28%5,10%6%
J0,27%0,15% 0,55%0,44%0%0,70%0,5%
K1,21%0,77% 0,05%0%0%3,20%0%
L3,44%4,03% 5,46%4,97%6,51%5,20%3,5%
M2,53%2,41% 2,97%3,15%2,51%3,50%4,5%
N9,78%6,75% 7,10%6,71%6,88%8,80%5,5%
O2,51%7,51% 5,38%8,68%9,83%4,10%11,5%
P0,79%1,93% 3,02%2,51%3,05%1,70%3%
Q0,02%0,10% 1,36%0,88%0,51%7,00%1,5%
R7,00%5,99% 6,55%6,87%6,37%8,30%7,5%
S7,89%6,33% 7,95%7,98%4,98%6,30%7,5%
T6,15%9,06% 7,24%4,63%5,62%8,70%4,5%
U4,35%2,76% 6,37%3,93%3,01%1,80%4%
V0,67%0,98% 1,63%0,90%2,10%2,40%1,5%
W1,89%2,36% 0,11%0,02%0%0,03%0%
X0,03%0,15% 0,39%0,22%0%0,10%0,2%
Y0,04%1,97% 0,31%0,90%0%0,60%0%
Z1,13%0,07% 0,14%0,52%0,49%0,02%0,3%
*Die Umlaute ä, ö und ü, ß wurden wie ae, oe, ue bzw. ss gezählt.
*Die Sonderzeichen à, á, â, ç, è, é, ê, ë, ì, î, ï, ò, ó, ù, ú, œ, ż wurden wie a, c, e, i, o, u, oe, z gezählt.


Häufigkeitsgebirge deutsch

ABCDEFGHIJKLMNOPQRSTUVWXYZ


Häufigkeitsgebirge englisch

ABCDEFGHIJKLMNOPQRSTUVWXYZ


Häufigkeitsgebirge französisch

ABCDEFGHIJKLMNOPQRSTUVWXYZ


Häufigkeitsgebirge spanisch

ABCDEFGHIJKLMNOPQRSTUVWXYZ


Häufigkeitsgebirge italienisch

ABCDEFGHIJKLMNOPQRSTUVWXYZ


Häufigkeitsgebirge schwedisch

ABCDEFGHIJKLMNOPQRSTUVWXYZ


Häufigkeitsgebirge portugiesisch

ABCDEFGHIJKLMNOPQRSTUVWXYZ



Die häufigsten Buchstaben im Deutschen
PlatzBuchstabeRelative Häufigkeit
1.E17,41%
2.N9,78%
3.S7,89%
4.I7,55%
5.R7,00%
6.A6,51%
7.T6,15%
8.D5,08%
9.U4,35%
10.L3,44%
*Die Umlaute ä, ö und ü, ß wurden wie ae, oe, ue bzw. ss gezählt

Die häufigsten Anfangsbuchstaben im Deutschen
PlatzBuchstabeRelative Häufigkeit
1.D14,2%
2.S10,8%
3.E7,8%
4.I7,1%
5.W6,8%
*Die Umlaute ä, ö und ü, ß wurden wie ae, oe, ue bzw. ss gezählt.
*Angaben für Fließtext, für z. B. Lexika gelten andere Werte


Die häufigsten Endbuchstaben im Deutschen
PlatzBuchstabeRelative Häufigkeit
1.N21,0%
2.E15,1%
3.R13,0%
4.T10,3%
5.S9,6%
*Die Umlaute ä, ö und ü, ß wurden wie ae, oe, ue bzw. ss gezählt.
*Angaben für Fließtext, für z. B. Lexika gelten andere Werte


Bigramme

Die Häufigkeitsverteilung von Bigrammen (A.. ..B) im Deutschen in %% (Vorkommen pro 10.000 Zeichen)
 ..A..B..C..D..E..F..G..H..I..J..K..L..M..N..O..P..Q..R..S..T..U..V..W..X..Y..Z
A..8312711641530205175928102--5153467523-12
B..161-1101-3112-19-18--96414-1-11
C..2--21--2421-141--2---1-------
D..543113227342931354693-101161634--3
E..264525512326505719331963554006131409140553614232111
F..192-92512317-151291-184202411--1
G..203-12147233191393561-1418181143--3
H..7041141022432313251119181-3711471149--3
I..7776201635381211122527168202-177978351--5
J..7---95--------2-----5-----
K..281-2261117-11011241-13514911--1
L..4572146556261174234142-222271332--3
M..406185044344234233157-21081443--2
N..68235187122199417655251023431810-107459331829--25
O..381572565911331176416-50199337-16
P..16--3106-24--4--115-23134-----
Q..--------------------2-----
R..802596711218271952423182031309-155449481217--14
S..361089209971396521191272822-87611615910-27
T..5781351855101459241199153-31502326821-126
U..381657827842-3721119-5-334823132--1
V..3---37---9-----43-----------
W..34---48---361---117---1-9-----
X..--------1-----1----1------
Y..----1------11-----1-------
Z..41-128-1-11-121-2---174319--1


Die häufigsten Bigramme im Deutschen
PlatzBigrammRelative Häufigkeit
1.er4,09%
2.en4,00%
3.ch2,42%
4.de2,27%
5.ei1,93%
6.nd1,87%
7.te1,85%
8.in1,68%
9.ie1,63%
10.ge1,47%
Die häufigsten Bigramme im Englischen
PlatzBigrammRelative Häufigkeit
1.th3,15%
2.he2,51%
3.an1,72%
4.in1,69%
5.er1,54%
6.re1,48%
7.on1,45%
8.es1,45%
9.ti1,28%
10.at1,24%


Die häufigsten Doppelbuchstaben im Deutschen
PlatzBigrammRelative Häufigkeit
1.ss0,76%
2.nn0,43%
3.ll0,42%
4.ee0,23%
5.mm0,23%
6.tt0,23%
7.rr0,15%
8.dd0,13%
9.ff0,12%
10.aa0,08%
Die häufigsten Doppelbuchstaben im Englischen
PlatzBigrammRelative Häufigkeit
1.ll0,55%
2.tt0,53%
3.ss0,41%
4.ee0,39%
5.pp0,26%
6.oo0,23%
7.rr0,18%
8.ff0,14%
9.cc0,12%
10.dd0,10%


Trigramme

Die häufigsten Trigramme im Deutschen
PlatzTrigrammRelative Häufigkeit
1.ich1,15%
2.ein1,08%
3.und1,05%
4.der0,97%
5.nde0,83%
6.sch0,65%
7.die0,64%
8.den0,62%
9.end0,60%
10.cht0,60%
Die häufigsten Trigramme im Englischen
PlatzTrigrammRelative Häufigkeit
1.the3,53%
2.ing1,11%
3.and1,02%
4.ion0,75%
5.tio0,75%
6.ent0,73%
7.ere0,69%
8.her0,68%
9.ate0,66%
10.ver0,64%


Wörter

Die häufigsten Wörter im Deutschen

Die 30 häufigsten Wörter ergeben zusammen 31.8% aller Wörter:

die, der, und, in, zu, den, das, nicht, von, sie, ist, des, sich, mit, dem, dass, er, es, ein, ich, auf, so, eine, auch, als, an, nach, wie, im, für

Die nächsten 70 Wörter machen 15.3% aller Wörter aus:

man, aber, aus, durch, wenn, nur, war, noch, werden, bei, hat, wir, was, wird, sein, einen, welche, sind, oder, zur, um, haben, einer, mir, über, ihm, diese, einem, ihr, uns, da, zum, kann, doch, vor, dieser, mich, ihn, du, hatte, seine, mehr, am, denn, nun, unter, sehr, selbst, schon, hier, bis, habe, ihre, dann, ihnen, seiner, alle, wieder, meine, Zeit, gegen, vom, ganz, einzelnen, wo, muss, ohne, eines, können, sei

Die häufigsten Wörter im Englischen

the (6.42%), of (4.02%), and (3.15%), to (2.37%), a (2.09%), in (1.78%), that (1.24%), is (1.03%), I (0.95%), it (0.93%), for, as, with, was, his, he, be, not, by, but, have, you, which, are, on (0.48 %), or, her, had, at, from, this, my, they, all, their, an, she, has, were, me, been, him, one, so, if, will, there, who, no, we (0.26 %), when, what, your, more, would, them, some, than, may, upon, its, out, into, our, these, man, up, do, like, shall, great, now, such, should, other (0.13%), only, any, then, about, those, can, made, well, old, must, us, said, time, even, new, could, very, much, own, most, might, first, ater, yet, two (0.10%)

Zweibuchstabige Wörter im Deutschen

mit 'a':ab, am, an, da, ja
mit 'e':eh, er, es, je
mit 'i':im, in
mit 'o':ob, so, wo
mit 'u':du, um, zu, nu

Zweibuchstabige Wörter im Englischen

mit 'a':an, at, as, am
mit 'e':he, be, me, we
mit 'i':in, is, it, if
mit 'o':on, or, to, of, do, go, no, so
mit 'u':up, us
mit 'y':by, my


Code / Chiffre online dekodieren / entschlüsseln bzw. kodieren / verschlüsseln (DeCoder / Encoder / Solver-Tool)

Sie können beim Häufigkeitsgebirge als Parameter Periode (p, angenommene Schlüssellänge), Start (s) und Ausgabeverschiebung (v, optional), durch Kommata getrennt, angeben. Dann wird die Verteilung nur für die Untergruppe der Zeichen an Position s, s+p, s+p*2... errechnet. Ist eine Ausgabeverschiebung angegeben, so beginnt die Tabelle mit dem v. Buchstaben für einen besseren Vergleich der Balken.

Verschlüsseln Sie den obigen Klartext aus dem Eingabefeld dann mit der Vigenere Chiffre und dem Kennwort "Apfelstrudel" und kopieren Sie dann das Chiffrat in das Eingabefeld und lassen Sie erneut zählen.

Achten Sie bei Klartext und Chiffrat auf die höchste Häufigkeit. Lag diese im Klartext bei 'E' noch bei fast 19%, liegt die höchste Häufigkeit im Chiffrat nun bei 'H' bei nur noch 6,1%. Die Verteilung wurde also durch den Einsatz einer polyalphabetischen Chiffre sehr viel gleichmäßiger.

Quellen, Literaturverweise und weiterführende Links

Singh, Simon: Geheime Botschaften, Hanser Verlag 2000, S. 35
Franke, Herbert W.: Die geheime Nachricht, Umschau Verlag 1982, S. 62
Bauer, Friedrich L.: Entzifferte Geheimnisse, Springer Verlag 1995, S. 213
Gaines, Helen Fouché: Cryptanalysis, Dover Verlag New York 1956, S. 219
Kuhn, Nico: Das Buch der geheimen Verschlüsselungstechniken, Data Becker Verlag 2009, S. 19
Google NGram-Viewer: Anzeige von Anteilen von N-Grammen (mit Historie)