📚 The CoCalc Library - books, templates and other resources
cocalc-examples / martinthoma-latex-examples / publications / Proseminar-Netzwerkanalyse / SchwaechenVerbesserungen.tex
132928 viewsLicense: OTHER
Bei der Anwendung des in \cite{aggarwal2011} vorgestellten Algorithmus auf1reale Datensätze könnten zwei Probleme auftreten, die im Folgenden erläutert2werden. Außerdem werden Verbesserungen vorgeschlagen, die es allerdings noch zu3untersuchen gilt.45\subsection{Anzahl der Knotenbeschriftungen}6So, wie der DYCOS-Algorithmus vorgestellt wurde, können nur Graphen bearbeitet7werden, deren Knoten jeweils höchstens eine Beschriftung haben. In vielen8Fällen, wie z.~B. Wikipedia mit Kategorien als Knotenbeschriftungen haben9Knoten jedoch viele Beschriftungen.1011Auf einen ersten Blick ist diese Schwäche einfach zu beheben, indem man beim12zählen der Knotenbeschriftungen für jeden Knoten jedes Beschriftung zählt. Dann13wäre noch die Frage zu klären, mit wie vielen Beschriftungen der betrachtete14Knoten beschriftet werden soll.1516Jedoch ist z.~B. bei Wikipedia-Artikeln auf den Knoten eine Hierarchie17definiert. So ist die Kategorie \enquote{Klassifikationsverfahren} eine18Unterkategorie von \enquote{Klassifikation}. Bei dem Kategorisieren von19Artikeln sind möglichst spezifische Kategorien vorzuziehen, also kann man nicht20einfach bei dem Auftreten der Kategorie \enquote{Klassifikationsverfahren}21sowohl für diese Kategorie als auch für die Kategorie \enquote{Klassifikation}22zählen.232425\subsection{Überanpassung und Reklassifizierung}26Aggarwal und Li beschreiben in \cite{aggarwal2011} nicht, auf welche Knoten der27Klassifizierungsalgorithmus angewendet werden soll. Jedoch ist die Reihenfolge28der Klassifizierung relevant. Dazu folgendes Minimalbeispiel:2930Gegeben sei ein dynamischer Graph ohne textuelle Inhalte. Zum Zeitpunkt $t=1$31habe dieser Graph genau einen Knoten $v_1$ und $v_1$ sei mit dem $A$32beschriftet. Zum Zeitpunkt $t=2$ komme ein nicht beschrifteter Knoten $v_2$33sowie die Kante $(v_2, v_1)$ hinzu.\\34Nun wird der DYCOS-Algorithmus auf diesen Knoten angewendet und $v_2$ mit $A$35beschriftet.\\36Zum Zeitpunkt $t=3$ komme ein Knoten $v_3$, der mit $B$ beschriftet ist, und37die Kante $(v_2, v_3)$ hinzu. \Cref{fig:Formen} visualisiert diesen Vorgang.3839\begin{figure}[ht]40\centering41\subfloat[$t=1$]{42\input{figures/graph-t1.tex}43\label{fig:graph-t1}44}%45\subfloat[$t=2$]{46\input{figures/graph-t2.tex}47\label{fig:graph-t2}48}4950\subfloat[$t=3$]{51\input{figures/graph-t3.tex}52\label{fig:graph-t3}53}%54\subfloat[$t=4$]{55\input{figures/graph-t4.tex}56\label{fig:graph-t4}57}%58\caption{Minimalbeispiel für den Einfluss früherer DYCOS-Anwendungen}59\label{fig:Formen}60\end{figure}6162Würde man nun den DYCOS-Algorithmus erst jetzt, also anstelle von Zeitpunkt63$t=2$ zum Zeitpunkt $t=3$ auf den Knoten $v_2$ anwenden, so würde eine64\SI{50}{\percent}-Wahrscheinlichkeit bestehen, dass dieser mit $B$ beschriftet65wird. Aber in diesem Beispiel wurde der Knoten schon zum Zeitpunkt $t=2$66beschriftet. Obwohl es in diesem kleinem Beispiel noch keine Rolle spielt, wird67das Problem klar, wenn man weitere Knoten einfügt:6869Wird zum Zeitpunkt $t=4$ ein unbeschrifteter Knoten $v_4$ und die Kanten70$(v_1, v_4)$, $(v_2, v_4)$, $(v_3, v_4)$ hinzugefügt, so ist die71Wahrscheinlichkeit, dass $v_4$ mit $A$ beschriftet wird bei $\frac{2}{3}$.72Werden die unbeschrifteten Knoten jedoch erst jetzt und alle gemeinsam73beschriftet, so ist die Wahrscheinlichkeit für $A$ als Beschriftung bei nur $50\%$.74Bei dem DYCOS-Algorithmus findet also eine Überanpassung an vergangene75Beschriftungen statt.7677Das Reklassifizieren von Knoten könnte eine mögliche Lösung für dieses78Problem sein. Knoten, die durch den DYCOS-Algorithmus beschriftet wurden79könnten eine Lebenszeit bekommen (TTL, Time to Live). Ist diese80abgelaufen, wird der DYCOS-Algorithmus erneut auf den Knoten angewendet.818283