Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
Download

📚 The CoCalc Library - books, templates and other resources

132948 views
License: OTHER
1
\subsection{Vokabular}
2
\begin{frame}{Vokabular}
3
\begin{itemize}
4
\item<1-> Füllwörter: und, oder, im, in, \dots
5
\item[$\Rightarrow$]<2-> Beschränkung des Vokabulars sinnvoll
6
\end{itemize}
7
8
\uncover<3->{
9
\textbf{Idee}:
10
\begin{itemize}
11
\item<4-> Zufällige Beispielmenge von Texten für Vokabularbildung betrachten
12
\item<5-> Gini-Koeffizient nutzen
13
\end{itemize}
14
}
15
\end{frame}
16
17
\begin{frame}{Gini-Koeffizient}
18
\begin{itemize}
19
\item<1-> statistisches Maß für Ungleichverteilung
20
\item<2-> $g = \sum_i p_i^2$ mit $p_i$ als relative Häufigkeit
21
\item<3-> Hier: $g \in (0, 1]$
22
\item<4-> $g$ nahe bei $1$ $\Rightarrow$ Wort ist stark ungleich verteilt
23
\item[$\Rightarrow$]<5-> Nehme Top-$m$ Wörter mit höchstem
24
Gini-Koeffizient
25
\end{itemize}
26
\end{frame}
27
28
\begin{frame}{Gini-Koeffizient}
29
\begin{center}
30
\includegraphics[width=\textwidth,height=0.4\textheight,keepaspectratio]{../images/gini-example.pdf}
31
\end{center}
32
33
\uncover<2->{Beispiel: \enquote{in}}
34
\begin{itemize}
35
\item<3-> Vorkommen insgesamt: $5 \times$
36
\item<4-> Vorkommen in \enquote{Informatik} $2\times \Rightarrow p_1 = \frac{2}{5}$
37
\item<5-> Vorkommen in \enquote{Mathematik} $1\times \Rightarrow p_2 = \frac{1}{5}$
38
\item<6-> Vorkommen in \enquote{Geschichte} $2\times \Rightarrow p_3 = \frac{2}{5}$
39
\item<7-> Gini-Koeffizient: $\left (\frac{2}{5} \right )^2 + \left (\frac{1}{5} \right )^2 + \left (\frac{2}{5} \right )^2 = \frac{9}{25}$
40
\end{itemize}
41
\end{frame}
42
43