📚 The CoCalc Library - books, templates and other resources
cocalc-examples / martinthoma-latex-examples / publications / Proseminar-Netzwerkanalyse / Analyse.tex
132935 viewsLicense: OTHER
Für den DYCOS-Algorithmus wurde in \cite{aggarwal2011} bewiesen, dass sich nach1Ausführung von DYCOS für einen unbeschrifteten Knoten mit einer2Wahrscheinlichkeit von höchstens $(|\L_t|-1)\cdot e^{-l \cdot b^2 / 2}$ eine3Knotenbeschriftung ergibt, deren relative Häufigkeit weniger als $b$ der4häufigsten Beschriftung ist. Dabei ist $|\L_t|$ die Anzahl der Beschriftungen5und $l$ die Länge der Random-Walks.67Außerdem wurde experimentell anhand des DBLP-Datensatzes\footnote{http://dblp.uni-trier.de/}8und des CORA-Datensatzes\footnote{http://people.cs.umass.edu/~mccallum/data/cora-classify.tar.gz}9gezeigt (vgl. \cref{tab:datasets}), dass die Klassifikationsgüte nicht wesentlich von der Anzahl der Wörter mit10höchstem Gini-Koeffizient $m$ abhängt. Des Weiteren betrug die Ausführungszeit11auf einem Kern eines Intel Xeon $\SI{2.5}{\GHz}$ Servers mit12$\SI{32}{\giga\byte}$~RAM für den DBLP-Datensatz unter $\SI{25}{\second}$,13für den CORA-Datensatz sogar unter $\SI{5}{\second}$. Dabei wurde eine14für CORA eine Klassifikationsgüte von \SIrange{82}{84}{\percent} und15auf den DBLP-Daten von \SIrange{61}{66}{\percent} erreicht.1617\begin{table}[htp]18\centering19\begin{tabular}{|l||r|r|r|r|}\hline20\textbf{Name} & \textbf{Knoten} & \textbf{davon beschriftet} & \textbf{Kanten} & \textbf{Beschriftungen} \\ \hline\hline21\textbf{CORA} & \num{19396} & \num{14814} & \num{75021} & 5 \\22\textbf{DBLP} & \num{806635} & \num{18999 } & \num{4414135} & 5 \\\hline23\end{tabular}24\caption{Datensätze, die für die experimentelle Analyse benutzt wurden}25\label{tab:datasets}26\end{table}2728Obwohl es sich nicht sagen lässt, wie genau die Ergebnisse aus29\cite{aggarwal2011} zustande gekommen sind, eignet sich das30Kreuzvalidierungsverfahren zur Bestimmung der Klassifikationsgüte wie es in31\cite{Lavesson,Stone1974} vorgestellt wird:32\begin{enumerate}33\item Betrachte nur $V_{L,T}$.34\item Unterteile $V_{L,T}$ zufällig in $k$ disjunkte Mengen $M_1, \dots, M_k$.35\item \label{schritt3} Teste die Klassifikationsgüte, wenn die Knotenbeschriftungen36aller Knoten in $M_i$ für DYCOS verborgen werden für $i=1,\dots, k$.37\item Bilde den Durchschnitt der Klassifikationsgüten aus \cref{schritt3}.38\end{enumerate}3940Es wird $k=10$ vorgeschlagen.414243