📚 The CoCalc Library - books, templates and other resources
License: OTHER
\documentclass[a5paper,9pt]{scrartcl}1\usepackage{amssymb, amsmath} % needed for math2\usepackage[utf8]{inputenc} % this is needed for umlauts3\usepackage[ngerman]{babel} % this is needed for umlauts4\usepackage[T1]{fontenc} % this is needed for correct output of umlauts in pdf5% \usepackage[margin=2.5cm]{geometry} %layout6\usepackage{hyperref} % links im text7\usepackage{color}8\usepackage{framed}9\usepackage{parskip}10\usepackage{braket} % needed for \Set11\usepackage{enumerate} % for advanced numbering of lists12\usepackage{minted} % needed for the inclusion of source code13\clubpenalty = 10000 % Schusterjungen verhindern14\widowpenalty = 10000 % Hurenkinder verhindern1516\hypersetup{17pdfauthor = {Martin Thoma},18pdfkeywords = {ASR},19pdftitle = {Entropie-Distanz von Martin Thoma}20}2122%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%23% Custom definition style, by %24% http://mathoverflow.net/questions/46583/what-is-a-satisfactory-way-to-format-definitions-in-latex/58164#5816425%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%26\makeatletter27\newdimen\errorsize \errorsize=0.2pt28% Frame with a label at top29\newcommand\LabFrame[2]{%30\fboxrule=\FrameRule31\fboxsep=-\errorsize32\textcolor{FrameColor}{%33\fbox{%34\vbox{\nobreak35\advance\FrameSep\errorsize36\begingroup37\advance\baselineskip\FrameSep38\hrule height \baselineskip39\nobreak40\vskip-\baselineskip41\endgroup42\vskip 0.5\FrameSep43\hbox{\hskip\FrameSep \strut44\textcolor{TitleColor}{\textbf{#1}}}%45\nobreak \nointerlineskip46\vskip 1.3\FrameSep47\hbox{\hskip\FrameSep48{\normalcolor#2}%49\hskip\FrameSep}%50\vskip\FrameSep51}}%52}}53\definecolor{FrameColor}{rgb}{0.25,0.25,1.0}54\definecolor{TitleColor}{rgb}{1.0,1.0,1.0}5556\newenvironment{contlabelframe}[2][\Frame@Lab\ (cont.)]{%57% Optional continuation label defaults to the first label plus58\def\Frame@Lab{#2}%59\def\FrameCommand{\LabFrame{#2}}%60\def\FirstFrameCommand{\LabFrame{#2}}%61\def\MidFrameCommand{\LabFrame{#1}}%62\def\LastFrameCommand{\LabFrame{#1}}%63\MakeFramed{\advance\hsize-\width \FrameRestore}64}{\endMakeFramed}65\newcounter{definition}66\newenvironment{definition}[1]{%67\par68\refstepcounter{definition}%69\begin{contlabelframe}{Definition \thedefinition:\quad #1}70\noindent\ignorespaces}71{\end{contlabelframe}}72\makeatother73%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%74% Begin document %75%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%76\begin{document}77\section{Entropie-Distanz}7879\begin{definition}{Entropie}80Sei $\Omega := \Set{z_1, z_2, \dots, z_n}$ eine endliche Zeichenmenge und81$X: Z \rightarrow \mathbb{R}$ eine Zufallsvariable über dem Wahrscheinlichkeitsraum82$(\Omega, \mathbb{P})$. Dann heißt83\[H_1 = - \sum_{z \in \Omega} \mathbb{P}(z) \log_2 (\mathbb{P}(z))\]84\textbf{Entropie}.85\end{definition}8687Die Entropie wird maximal bei Gleichverteilung, also bei $P(z_i) = \frac{1}{|\Omega|}$.88Dann gilt: $H = \log_2 |\Omega|$. Entsprechend wird die Entropie normiert,89indem durch $\log_2 |\Omega|$ geteilt wird:90\[H_{Norm} = \frac{H}{\log_2 |\Omega|}\]91Der Wertebereich der normierten Entropie $H_{Norm}$ ist $[0, 1]$.9293\begin{definition}{Gewichtete Entropiedistanz}94Seien $d_1, d_2$ disktrete Wahrscheinlichkeitsverteilung über $(\Omega, P)$,95die mit $n_1, n_2 \in \mathbb{N}_0$ Daten geschätzt wurden.9697Dann ist die \textbf{gewichtete Entropiedistanz} von $d_1$ und $d_2$ definiert durch98\[H_{dist}(d_1, d_2) := \left |\frac{n_1}{n_1+n_2} H(d_1) - \frac{n_2}{n_1+n_2} H(d_2) \right|\]99\end{definition}100101Die folgenden Zeilen erstellen folgende Objekte:102\begin{itemize}103\item \verb+FeatureSet+: Das FeatureSet macht die Signalverarbeitung im104Janus Spracherkenner. Das FeatureSet beinhaltet Objekte vom Typ105\verb+SVector+ oder \verb+FMatrix+.106\item \verb+CodebookSet+: Eine Menge von Codebooks. Jedes Codebook stellt107eine Gauß-Verteilung dar. Ein Codebook wird vollständig durch seine108Kovarianzmatrix und den Mittelwertsvektor beschrieben.109\item \verb+DistribSet+: Eine Menge von Gauß-Mixturen. Jede Mixtur verweist110auf eine Menge von $n$ Codebooks (Gauß-Verteilungen) und gewichtet diese111mit reelen Zahlen $c_i \in \mathbb{R}$. Damit dies wiederum eine112Gauß-Verteilung ergibt, muss jedes Gewicht nicht-negativ sein und die113Summe $\sum_{i=1}^n c_i = 1$ ergeben.114\end{itemize}115\inputminted[linenos, numbersep=5pt, tabsize=4]{tcl}{step1.tcl}116117Der Befehl in Zeile~1 erzeugt das \verb+CodebookSet+ und fügt ein Codebook mit118dem Namen \verb+cb+, dem Feature-Space namen \verb+dummy+, 2~Referenzvektoren119in einem 1-dimensionalen Feature-Raum hinzu.120121Die Gauß-Mixtur \verb+ds1+ gewichtet den ersten Referenzvektor mit $c_1 = 0.3$122und den zweiten mit $c_2 = 0.7$. Für diese Gauß-Mixtur gibt es 2~Trainingsdaten123124Die Entropie der Verteilungen ist:\nobreak125\begin{align*}126H_1(ds1) &= -(0.3 \cdot \log_2 0.3 + 0.7 \cdot \log_2 0.7) \approx 0.88\\127H_1(ds2) &= -(0.4 \cdot \log_2 0.4 + 0.6 \cdot \log_2 0.6) \approx 0.97\\128H_1(ds3) &= -(0.8 \cdot \log_2 0.8 + 0.2 \cdot \log_2 0.2) \approx 0.72129\end{align*}130131Nun gilt:132133\begin{align*}134H_{dist}(ds1, ds2) &\approx |\frac{2}{5} \cdot 0.88 - \frac{3}{5} \cdot 0.97| = 0.23\\135H_{dist}(ds1, ds3) &\approx |\frac{2}{5} \cdot 0.88 - \frac{3}{5} \cdot 0.72| = 0.08\\136H_{dist}(ds2, ds3) &\approx |\frac{1}{2} \cdot 0.97 - \frac{1}{2} \cdot 0.72| = 0.125\\137\end{align*}138139Da \verb+ds1+ und \verb+ds3+ die geringste Distanz haben, sind sie sich nach140dem Entropiedistanzmaß am Ähnlichsten. Die Zusammenlegung dieser beiden141Verteilungen richtet also den geringsten Schaden an.142143\textbf{Antwort für Teilaufgabe c}: Das Modell \verb+E(S|Y)-b+ ist sich selbst144am ähnlichsten.145146\end{document}147148149