Claude Shannon

Informations­entropie kinder­leicht definiert!

Beitrag teilen:

Nehmen wir an, dass wir im Sommer unseren Freunden jeden Tag ein Telegramm aus Hamburg nach Sankt Peters­burg über den Wetter­zu­stand senden möchten: sonnig, leicht bewölkt, bedeckt, regne­risch. Das Wetter ist für uns ein Zufalls­er­eignis, aller­dings erwarten wir im Sommer sonniges Wetter für ca. $1/2$ der Tage, leicht bewölkt für $1/4$ der Tage, bedeckt für $1/8$ der Tage und regne­risch für $1/8$ der Tage. Es können nur Nullen ($0$) und Einsen (1) telegra­fisch gesendet werden. Ein Symbol kostet $1$ Euro. Wenn man die Nachrichten mit Symbol­paaren $00$, $01$, $10$ und $11$ kodiert, werden jeden Tag zwei Bit zu Gesamt­kosten von $2$ Euro gesendet. Die Telegramme kosten dann $184$ Euro für $92$ Sommer Tage insge­samt. Wenn man die Nachrichten “sonnig”, “leicht bewölkt”, “bedeckt”, “regne­risch” mit $0$, $10$, $110$, $111$ kodiert, werden im Durch­schnitt jeden Tag

$ (1/2)\cdot 1 + (1/4)\cdot 2 + (1/8)\cdot 3 + (1/8)\cdot 3 = 7/4 $

Bit gesendet, und für $92$ Sommer Tage werden etwa $7/4 \cdot 1 \cdot 92 = 161$ Euro ausge­geben. Man sieht den Unter­schied, manche Kodie­rungen sind teurer und manche sind billiger, und es ist offen­sicht­lich, dass es die billigste Kodie­rung gibt.
Wenn die Kodie­rung so intel­li­gent ist, dass sie über den Sommer hinweg die geringsten Kosten der Telegramme mit den Ereig­nis­be­richten verur­sacht, dann wird die Anzahl der durch­schnitt­lich pro Tag gesen­deten Bit als Infor­ma­ti­ons­en­tropie dieses Ereig­nisses bezeichnet.
Die Verall­ge­mei­ne­rung der Defini­tion auf belie­bige zufäl­lige Ereig­nisse ist nun einfach.
Wie berechnet man Infor­ma­ti­ons­en­tropie?
Diese Frage hängt mit der Frage zusammen, was eine Kodie­rung ist. Angenommen, es gibt ein Terri­to­rium von Nachrichten, das in der Abbil­dung durch das erste Rechteck darge­stellt ist. Nehmen wir an, dass die Fläche des gesamten Terri­to­riums gleich $1$ ist. Wenn das Terri­to­rium in zwei Teile unter­teilt ist, sind jedem Teil die Codenamen (Koordi­naten) $0$ und $1$ gegeben so, wie es im zweiten Rechteck gezeigt ist. Die Flächen­größen von $0$ und $1$ sind gleich $1/2$. Wenn nun jeder Nachrichten-Terri­to­rium-Bereich $0$ und $1$ ebenfalls in zwei Teile geteilt wird, dann erteilt man diesen kleinen Berei­chen des Terri­to­riums die Codes $00$, $01$, $10$, $11$ so, wie es durch das dritte Rechteck darge­stellt ist. Die Flächen­größen dieser Teile sind gleich $1/4$. Daraus erschließt sich, wie die Codes für die Bereiche mit den Flächen­größen $1/8$, $1/16$ usw. lauten. Man erkennt, dass die Flächen­größe von einem Nachrichten-Terri­to­rium-Bereich gleich $\frac{1}{2^n}$ ist, wo $n$ die Länge seines Codes ist. Mit anderen Worten: wenn $q$ die Fläche des Bereichs ist, ist seine Codelänge $\log_2 \frac{1}{q}=-\log_2 q$. Je größer ist der Bereich, desto kürzer ist der Code. Die 4. und 5. Recht­ecke zeigen Beispiele für die Platzie­rung von Nachrichten über das Nachrichten-Terri­to­rium.
Informationsentropie kinderleicht definiert
Es seien $N$ Nachrichten gegeben, so dass die Wahrschein­lich­keit der $i$-ten Nachricht gleich $p_i$ ist und die $i$-te Nachricht einen Nachrichten-Terri­to­rium-Bereich mit der Flächen­größen $q_i$ und einem Code der Länge $-\log_2 q_i$ belegt. Die durch­schnitt­liche Anzahl der täglich gesen­deten Bit bei dieser Kodie­rung ist $ -p_1\cdot \log_2 q_1 -\ldots -p_N\cdot \log_2 q_N. $
Für welche Werte von $q_i$ ist diese Summe minimal?
Wir erinnern an die Tatsache $$ p_1 +…+p_N = 1 $$ und eine Neben­be­din­gung $$ q_1 +…+q_N = 1. $$ Lösen wir das Problem mit Lagrange-Multi­pli­ka­toren. Wir vergessen nicht, dass $p_i$ Konstanten und $q_i$ Varia­blen sind. Die Lagrange-Funktion ist $$ \Lambda(q_1,\ldots,q_N,\lambda) =-p_1\cdot \log_2 q_1 -…-p_N\cdot \log_2 q_N + \lambda\cdot (q_1+…+q_N). $$ Finden wir die Ablei­tungen von $\Lambda$ nach $q_i$ und setzen sie gleich $0$: $$ -\frac{p_i}{q_i\cdot \ln 2} + \lambda = 0. $$ Zur Erinne­rung, $$ \frac{d}{dx}\log_2x = \frac{d}{dx} \frac{\ln x}{\ln 2} = \frac{1}{x \ln 2}. $$ Daraus folgt $$ p_i = \lambda\cdot q_i\cdot\ln 2. $$ Summiert man diese Gleichungen für alle $i$, erhält man $$ \lambda\cdot\ln 2 = 1. $$ Wenn man $\lambda\cdot \ln 2 = 1$ in $p_i = \lambda\cdot q_i\cdot\ln 2$ einsetzt, bekommt man $p_i = q_i$. Die optimale Kodie­rung wird also erreicht, wenn $q_i = p_i$ ist, was bedeutet, dass die Formel zur Berech­nung der Entropie $H$ nach Defini­tion lautet: $$ H = -p_1\cdot \log_2 p_1 -…-p_N\cdot \log_2 p_N. $$
Kreuz­entropie
Man muss beachten, dass $q_i$ sich wie Wahrschein­lich­keits­größen verhalten: sie sind größer als $0$ und ihre Summe ist gleich $1$. Die Größe $$ H(p,q)=-p_1\cdot \log_2 q_1 -…-p_N\cdot \log_2 q_N $$ wird als Kreuz­entropie der beiden Wahrschein­lich­keits­ver­tei­lungen $(p_i)$ und $(q_i)$ bezeichnet, aber $q_i$ hat eigent­lich keine Wahrschein­lich­keits­rolle. Der Wert $H(p,q)$ liefert die durch­schnitt­li­chen Bit-Kosten für die Übertra­gung von Nachrichten, die nach Berei­chen $q_i$ kodiert sind, aber mit Wahrschein­lich­keiten $p_i$ übertragen werden.
Kullback-Leibler-Diver­genz
Die Diffe­renz zwischen $$ -p_1\cdot \log_2 q_1 -…-p_N\cdot \log_2 q_N $$ und $$ -p_1\cdot \log_2 p_1 -…-p_N\cdot \log_2 p_N $$ ist der Wert von durch­schnitt­li­chen zusätz­li­chen Bitkosten für die Nachrich­ten­über­tra­gung aufgrund der subop­ti­malen Kodie­rung. Diese Größe wird als Kullback-Leibler-Diver­genz zwischen den Vertei­lungen $(p_i)$ und $(q_i)$ bezeichnet.
Eine Bemer­kung
Lass uns nun einfach­heits­halber annehmen, dass man im Sommer nur $2$ Wetter­zu­stände unter­scheidet: ein gutes Wetter $G$ und ein schlechtes Wetter $S$. Nehmen wir auch die Wahrschein­lich­keiten $P(G)=3/4$, $P(S)=1/4$ an. Die Infor­ma­ti­ons­en­tropie des Wetters ist dementspre­chend gleich $$ -\frac{3}{4}\cdot \log_2 \frac{3}{4} -\frac{1}{4}\cdot \log_2 \frac{1}{4} \approx 0.8113. $$ Für die optimale Kodie­rung des Erreig­nisses $S$ braucht man $\log_2 \frac{1}{4}=2$ Bit. Hier ist alles im grünen Bereich. Aller­dings für das $G$ braucht man etwa $\log_2 \frac{3}{4}\approx 0.415$ Bit. Das ist weniger als $1$ Bit und passt mit der Realität nicht zusammen, dass man in den Telegrammen nach Defini­tion nur ganze Symbole $0$ und $1$ schreibt. Es geht nicht anders und wir müssen beide Erreig­nisse mit $1$ Bit kodieren: $0$ und $1$, genau wie im Fall $P(G)=P(S)=1/2$. Also wenn wir jeden Tag ein Telegramm senden möchten, können wir nicht sparen und sind gezwungen, $92$ Bit für $92$ Tage zu telegra­fieren. Es bedeutet den Entro­pie­wert gleich $1$ und scheint als Wieder­spruch zur Theorie. Aller­dings spart man tatsäch­lich, wenn man nicht jeden Tag sondern nur am Ende der Sommer ein einziges Telegramm mit Wetter Bericht für alle Tage sendet. Man sieht es an einem Beispiel mit $2$ Tagen. Bei $P(G)=P(S)=1/2$ sind die Wahrschein­lich­keiten für alle mögliche 2-Tage-Varianten gleich $$ P(GG)=P(GS)=P(SG)=P(SS)=1/4. $$ Die Infor­ma­ti­ons­en­tropie ist hier für $2$-Tage-Wetter-Erreignis gleich $2$ und für $1$-Tag-Wetter-Erreignis gleich $1$. Die Wetter-Entropie ist also $1$. Im Fall $P(G)=3/4$, $P(S)=1/4$ gilt es $P(GG)=9/16$, $P(GS)=P(SG)=3/16$, $P(SS)=1/16$. Die optimalste Kodie­rung für das Ereignis $GG$ benötigt man etwa $\log_2 \frac{9}{16} \approx 0.83$ Bit. Ähnlich für die Ereig­nisse $GS$, $SG$, $SS$ braucht man etwa $2.415$, $2.415$ und $4$ Bit entspre­chend. Die optimalste Kodie­rung sieht so $GG\rightarrow 0$, $GS\rightarrow 10$, $SG\rightarrow 110$, $SS\rightarrow 111$ aus. Bei dieser Kodie­rung berichtet man im Durch­schnitt für beide Tage dann nur $$ \frac{9}{16}\cdot 1 + \frac{3}{16}\cdot 2 + \frac{3}{16}\cdot 3 + \frac{1}{16}\cdot 3 = 1.6875 \quad (\text{Bit}) $$ und für einen Tag: $$ \frac{1.6875}{2} = 0.84375 \quad (\text{Bit}). $$ Die Infor­ma­ti­ons­en­tropie des Wetter-Ereig­nisses ist hier gleich $0.84375$. Schon günstiger. Je längere Folge der Ereig­nissen auf einmal man kodiert, desto optimaler ist die Kodie­rung. Geht man in die Unend­lich­keit, nähert sich man an den theore­ti­schen Infor­ma­ti­ons­en­tro­pie­wert in praxi.
Picture of Alexei Kurgansky

Alexei Kurgansky

Projektanfrage

Vielen Dank für Ihr Interesse an den Leistungen von m²hycon. Wir freuen uns sehr, von Ihrem Projekt zu erfahren und legen großen Wert darauf, Sie ausführlich zu beraten.

Von Ihnen im Formular eingegebene Daten speichern und verwenden wir ausschließlich zur Bearbeitung Ihrer Anfrage. Ihre Daten werden verschlüsselt übermittelt. Wir verarbeiten Ihre personenbezogenen Daten im Einklang mit unserer Datenschutzerklärung.