Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
Download

📚 The CoCalc Library - books, templates and other resources

132935 views
License: OTHER
1
Für den DYCOS-Algorithmus wurde in \cite{aggarwal2011} bewiesen, dass sich nach
2
Ausführung von DYCOS für einen unbeschrifteten Knoten mit einer
3
Wahrscheinlichkeit von höchstens $(|\L_t|-1)\cdot e^{-l \cdot b^2 / 2}$ eine
4
Knotenbeschriftung ergibt, deren relative Häufigkeit weniger als $b$ der
5
häufigsten Beschriftung ist. Dabei ist $|\L_t|$ die Anzahl der Beschriftungen
6
und $l$ die Länge der Random-Walks.
7
8
Außerdem wurde experimentell anhand des DBLP-Datensatzes\footnote{http://dblp.uni-trier.de/}
9
und des CORA-Datensatzes\footnote{http://people.cs.umass.edu/~mccallum/data/cora-classify.tar.gz}
10
gezeigt (vgl. \cref{tab:datasets}), dass die Klassifikationsgüte nicht wesentlich von der Anzahl der Wörter mit
11
höchstem Gini-Koeffizient $m$ abhängt. Des Weiteren betrug die Ausführungszeit
12
auf einem Kern eines Intel Xeon $\SI{2.5}{\GHz}$ Servers mit
13
$\SI{32}{\giga\byte}$~RAM für den DBLP-Datensatz unter $\SI{25}{\second}$,
14
für den CORA-Datensatz sogar unter $\SI{5}{\second}$. Dabei wurde eine
15
für CORA eine Klassifikationsgüte von \SIrange{82}{84}{\percent} und
16
auf den DBLP-Daten von \SIrange{61}{66}{\percent} erreicht.
17
18
\begin{table}[htp]
19
\centering
20
\begin{tabular}{|l||r|r|r|r|}\hline
21
\textbf{Name} & \textbf{Knoten} & \textbf{davon beschriftet} & \textbf{Kanten} & \textbf{Beschriftungen} \\ \hline\hline
22
\textbf{CORA} & \num{19396} & \num{14814} & \num{75021} & 5 \\
23
\textbf{DBLP} & \num{806635} & \num{18999 } & \num{4414135} & 5 \\\hline
24
\end{tabular}
25
\caption{Datensätze, die für die experimentelle Analyse benutzt wurden}
26
\label{tab:datasets}
27
\end{table}
28
29
Obwohl es sich nicht sagen lässt, wie genau die Ergebnisse aus
30
\cite{aggarwal2011} zustande gekommen sind, eignet sich das
31
Kreuzvalidierungsverfahren zur Bestimmung der Klassifikationsgüte wie es in
32
\cite{Lavesson,Stone1974} vorgestellt wird:
33
\begin{enumerate}
34
\item Betrachte nur $V_{L,T}$.
35
\item Unterteile $V_{L,T}$ zufällig in $k$ disjunkte Mengen $M_1, \dots, M_k$.
36
\item \label{schritt3} Teste die Klassifikationsgüte, wenn die Knotenbeschriftungen
37
aller Knoten in $M_i$ für DYCOS verborgen werden für $i=1,\dots, k$.
38
\item Bilde den Durchschnitt der Klassifikationsgüten aus \cref{schritt3}.
39
\end{enumerate}
40
41
Es wird $k=10$ vorgeschlagen.
42
43