namefixes
This commit is contained in:
parent
1779073ba5
commit
ca55dcf6c7
@ -1,21 +1,21 @@
|
||||
\relax
|
||||
\catcode`"\active
|
||||
\providecommand\HyperFirstAtBeginDocument{\AtBeginDocument}
|
||||
\HyperFirstAtBeginDocument{\ifx\hyper@anchor\@undefined
|
||||
\global\let\oldcontentsline\contentsline
|
||||
\gdef\contentsline#1#2#3#4{\oldcontentsline{#1}{#2}{#3}}
|
||||
\global\let\oldnewlabel\newlabel
|
||||
\gdef\newlabel#1#2{\newlabelxx{#1}#2}
|
||||
\gdef\newlabelxx#1#2#3#4#5#6{\oldnewlabel{#1}{{#2}{#3}}}
|
||||
\AtEndDocument{\ifx\hyper@anchor\@undefined
|
||||
\let\contentsline\oldcontentsline
|
||||
\let\newlabel\oldnewlabel
|
||||
\fi}
|
||||
\fi}
|
||||
\global\let\hyper@last\relax
|
||||
\gdef\HyperFirstAtBeginDocument#1{#1}
|
||||
\providecommand\HyField@AuxAddToFields[1]{}
|
||||
\select@language{ngerman}
|
||||
\@writefile{toc}{\select@language{ngerman}}
|
||||
\@writefile{lof}{\select@language{ngerman}}
|
||||
\@writefile{lot}{\select@language{ngerman}}
|
||||
\relax
|
||||
\catcode`"\active
|
||||
\providecommand\HyperFirstAtBeginDocument{\AtBeginDocument}
|
||||
\HyperFirstAtBeginDocument{\ifx\hyper@anchor\@undefined
|
||||
\global\let\oldcontentsline\contentsline
|
||||
\gdef\contentsline#1#2#3#4{\oldcontentsline{#1}{#2}{#3}}
|
||||
\global\let\oldnewlabel\newlabel
|
||||
\gdef\newlabel#1#2{\newlabelxx{#1}#2}
|
||||
\gdef\newlabelxx#1#2#3#4#5#6{\oldnewlabel{#1}{{#2}{#3}}}
|
||||
\AtEndDocument{\ifx\hyper@anchor\@undefined
|
||||
\let\contentsline\oldcontentsline
|
||||
\let\newlabel\oldnewlabel
|
||||
\fi}
|
||||
\fi}
|
||||
\global\let\hyper@last\relax
|
||||
\gdef\HyperFirstAtBeginDocument#1{#1}
|
||||
\providecommand\HyField@AuxAddToFields[1]{}
|
||||
\select@language{ngerman}
|
||||
\@writefile{toc}{\select@language{ngerman}}
|
||||
\@writefile{lof}{\select@language{ngerman}}
|
||||
\@writefile{lot}{\select@language{ngerman}}
|
||||
File diff suppressed because it is too large
Load Diff
@ -1,177 +1,177 @@
|
||||
\documentclass[article,colorback,longdoc,oneside,accentcolor=tud1a]{tudreport}
|
||||
\usepackage[utf8]{inputenc}
|
||||
\usepackage[ngerman]{babel}
|
||||
\usepackage{enumitem}
|
||||
\usepackage[
|
||||
colorlinks,
|
||||
pdfproducer={},
|
||||
pdfauthor={David Kaufmann, Dennis Werner},
|
||||
pdfsubject={Web Mining Klausur SS06 Lösungsvorschlag},
|
||||
pdftitle={Web Mining Klausur SS06 Lösungsvorschlag},
|
||||
pdfkeywords={Web, Data, Mining, Web Mining, TU Darmstadt, TUD, SS06, Klausur, Sommersemester},
|
||||
pdfpagelabels,
|
||||
pdfstartview = FitH,
|
||||
bookmarksopen = true,
|
||||
bookmarksnumbered = true,
|
||||
linkcolor = black,
|
||||
plainpages = false,
|
||||
hypertexnames = false,
|
||||
citecolor = black]
|
||||
{hyperref}
|
||||
\markright{TU Darmstadt - Web Mining - Lösungsvorschlag Klausur SS06}
|
||||
\setcounter{secnumdepth}{0}
|
||||
|
||||
\title{Web Mining \newline Klausur SS06 \newline Lösungsvorschlag}
|
||||
\author{David Kaufmann, Dennis Werner}
|
||||
\begin{document}
|
||||
\maketitle
|
||||
%\newpage
|
||||
|
||||
\begin{Large}
|
||||
\textbf{Aufgabe 1}
|
||||
\end{Large} 22 Punkte (5/3/4/3/4/3)\\
|
||||
\begin{description}[style=multiline,leftmargin=0.8cm]
|
||||
\item[1a] folien nachlesen.\vspace{0.5cm}
|
||||
\item[1b] Der Memory-based learner ist ein sogenannter lazy-learner, da es kein Modell besitzt. Hierbei werden User gegeneinander verglichen und gerankt. Es entstehen große Matrizen und ist somit rechenintensiv. Die Idee beim Model-based learner ist das lernen eines Modells das auf mehrere User passt. Somit ist die Rechendauer deutlich niedriger\vspace{0.5cm}
|
||||
\item[1c]Der Versuch würde den Authority Score erhöhen. Allerdings kann das Rankingverfahren diesen Versuch verhindern indem Relevance Weights benutzt werden. Ist die Seite also nur auf zufälligen Seiten verlinkt und nicht mit der Seite relevant, so bringt dieser Versuch nichts.\vspace{0.5cm}
|
||||
\item[1d]
|
||||
\end{description}
|
||||
|
||||
|
||||
\newpage
|
||||
\begin{Large}
|
||||
\textbf{Aufgabe 2}
|
||||
\end{Large} 24 Punkte (4/4/4/4/4/4)\\
|
||||
\begin{description}[style=multiline,leftmargin=0.8cm]
|
||||
\item[2a]
|
||||
\begin{itemize}
|
||||
\item{Das Herunterladen der Seiten von den Servern (Last verteilen)}
|
||||
\item{Speichern der Seiten (Kompression, durch Verfahren wie z.b. Stoppwortfilterung)}
|
||||
\item{Veränderung der Seite (Eine exakte Kopie muss nicht wieder heruntergeladen werden)}
|
||||
\end{itemize}\vspace{0.5cm}
|
||||
\item[2b]Ein HLRT-Wrapper wäre hier sinnvoll. Im HEAD teil wäre alles vor dem Titel (bspw. Navigationsleiste). L und R würden die Separatoren zwischen Titel und Nachrichtentext, sowie zwischen 2 Nachrichtentextteilen (bspw. Bilder, Werbung) definieren. Im TAIL wäre folglich alles was nach dem Nachrichtentext (bspw. Impressum) steht.\vspace{0.5cm}
|
||||
\item[2c]Man fängt damit an Seiten zu wählen, deren Ressorts durch die Zuordnung der URLs offensichtlich ist. Mit diesen Trainingsdaten nun kann man den Klassifizierer auf die restlichen (Test-)Daten anwenden, um sie in verschiedene Ressorts einzuteilen.\vspace{0.5cm}
|
||||
\item[2d]Durch die Erhöhung der Features indem mach das Dokument zusammenfügt und vorher Verfahren wie Stoppwortfilterung auf die beiden anwendet, sollte die inhaltliche Relevanz verstärkt worden sein. Da es sich um das selbe Thema handelt, sind wichtige Schlagwörter, wie z.b. der Name eines Politikers häufiger vorhanden.\vspace{0.5cm}
|
||||
\item[2e]Durch das Verwenden des k-means Clustering Verfahren kann man die Ressorts in Cluster einteilen. Die Nachricht die im entsprechenden Cluster dem Zentrum am nächsten ist, kann als repräsentatives Ergebnis dienen.\vspace{0.5cm}
|
||||
\item[2f] Z.B. durch Cross-Validation. Ändert man die Trainingsbeispiele und erhält noch dieselben Ergebnisse, so hat man aller Wahrscheinlichkeit nach korrekt klassifiziert.
|
||||
\end{description}
|
||||
|
||||
\newpage
|
||||
\begin{Large}
|
||||
\textbf{Aufgabe 3}
|
||||
\end{Large} 18 Punkte (4/3/4/3/4)\\
|
||||
\begin{description}[style=multiline,leftmargin=0.8cm]
|
||||
\item[3a]Die Qualität der Reihung ist nicht optimal gewählt, da sie durch Recallwerte im Bereich von 75-85\% näher am Breakeven Point hätten gewählt werden können.\vspace{0.5cm}
|
||||
\item[3b]Der Breakeven Point errechnet sich durch die beiden Wertepaare, deren Recall- und Precisionwerte nicht zu sehr voneinander abweichen. Für Diese Werte ergibt sich:\vspace{0.3cm}\\
|
||||
$D_1 = \{Precision = 0.90, Recall = 0.75\}$\\
|
||||
$D_2 = \{Precision = 0.70, Recall = 0.85\}$\vspace{0.3cm}\\
|
||||
$Breakeven = \frac{R_2 \times P_1 - R_1 \times P_2}{R_2 - R_1 \times P_1 - P_2} = \frac{0.85 \times 0.90 - 0.75 \times 0.70}{0.85 - 0.75 \times 0.90 - 0.70} = 0.80$\vspace{0.5cm}
|
||||
\item[3c] Folgende Tabelle beinhaltet die interpolierten Precisionwerte:\vspace{0.3cm}\\
|
||||
\begin{tabular}{l|c|c|c|c|c|c|c|c|c|c|c}
|
||||
\textbf{Precision} & 0\% & 10\% & 20\% & 30\% & 40\% & 50\% & 60\% & 70\% & 80\% & 90\% & 100\% \\\hline
|
||||
\textbf{Recall} & 90\% & 90\% & 90\% & 90\% & 90\% & 90\% & 90\% & 90\% & 70\% & 45\% & 45\% \\
|
||||
\end{tabular}\vspace{0.5cm}
|
||||
\item[3d] Die 11-point Average Precision errechnet sich aus dem Durchschnitt der interpolierten Precisionwerte.\\Somit erhalten wir:\\
|
||||
\begin{center}
|
||||
\LARGE{$\frac{8 \times 90\% + 70\% + 2 \times 45\%}{11} = 80\%$}
|
||||
\end{center}\vspace{0.5cm}
|
||||
\item[3e] Die Formeln für Recall und Precision lauten wie folgt:\vspace{0.3cm}\\
|
||||
$Precison = \frac{a}{a+b}$\vspace{0.3cm}\\
|
||||
$Recall = \frac{a}{a+c}$\\
|
||||
|
||||
Bei einer Precision von $25\%$ und einem Recall von $25\%$ bei 1000 zurückgegeben Dokumenten können wir die Formeln ergänzen.\vspace{0.3cm}\\
|
||||
$Precison = \frac{a}{1000} = 0.8$\vspace{0.3cm}\\
|
||||
Daraus erhalten wir $a=800$ und $b=200$\\
|
||||
Weiter setzen wir $a$ in den Recall ein um $c$ zu erhalten.\vspace{0.3cm}\\
|
||||
\parbox{4cm}{$\frac{800}{800+c} = 0.25$}|$\times 4$\vspace{0.15cm}\\
|
||||
\parbox{4cm}{$\frac{3200}{800+c} = 1$}|$\times (800+c)$\vspace{0.15cm}\\
|
||||
\parbox{4cm}{$3200 = 800+c$}|$- 800$\vspace{0.15cm}\\
|
||||
\parbox{4cm}{$2400 = c$}\vspace{0.15cm}
|
||||
|
||||
Alle Relevanten Dokumente sind $a+c = 3200$.
|
||||
\end{description}
|
||||
|
||||
\newpage
|
||||
\begin{Large}
|
||||
\textbf{Aufgabe 4}
|
||||
\end{Large} 20 Punkte (7/5/4/4)\\
|
||||
\begin{description}[style=multiline,leftmargin=0.8cm]
|
||||
\item[4a] Folgende Tabellen geben Auskunft über die Wahrscheinlichkeiten:\\
|
||||
\begin{center}
|
||||
\begin{tabular}{|l|c|}
|
||||
\hline
|
||||
\textbf{Farbe/Klasse} & \textbf{Wahrscheinlichkeit}\\\hline
|
||||
p(+) & 1/2 \\
|
||||
p(braun|+) & 5/18 \\
|
||||
p(schwarz|+) & 4/18 \\
|
||||
p(gelb|+) & 4/18 \\
|
||||
p(blau|+) & 2/18 \\
|
||||
p(orange|+) & 2/18 \\
|
||||
p(grün|+) & 1/18 \\
|
||||
\hline
|
||||
\end{tabular}\hspace{1cm}
|
||||
\begin{tabular}{|l|c|}
|
||||
\hline
|
||||
\textbf{Farbe/Klasse} & \textbf{Wahrscheinlichkeit}\\\hline
|
||||
p(-) & 1/2 \\
|
||||
p(braun|-) & 1/18 \\
|
||||
p(schwarz|-) & 2/18 \\
|
||||
p(gelb|-) & 4/18 \\
|
||||
p(blau|-) & 3/18 \\
|
||||
p(orange|-) & 3/18 \\
|
||||
p(grün|-) & 5/18 \\
|
||||
\hline
|
||||
\end{tabular}
|
||||
\end{center}\vspace{0.5cm}
|
||||
\item[4b] Die Klasse von w := grün,braun,orange,blau ist $argmax_c$ = p(grün|c)p(braun|c)p(orange|c)p(blau|c) $\times$ p(c).\\
|
||||
|
||||
Wahrscheinlichkeit für $+$: $\frac{1 \times 5 \times 2 \times 2}{18^4}\times\frac{1}{2} = \frac{20}{18^4 \times 2}$\vspace{0.3cm}\\
|
||||
Wahrscheinlichkeit für $-$: $\frac{5 \times 1 \times 3 \times 3}{18^4}\times\frac{1}{2} = \frac{45}{18^4 \times 2}$\\
|
||||
|
||||
Somit gehört dieses Dokument der Klasse $-$ an.\vspace{0.5cm}
|
||||
\item[4c] Angenommen wir hätten mit relativen Wahrscheinlichkeiten gerechnet, so wäre die Wahrscheinlichkeit für p(grün|+) = 0. Hätten wir also damit versucht bei Aufgabe \textbf{4b} zu rechnen, so wäre das Ergebnis 0 gewesen. Gleiches gilt in diesem Fall für p(braun|-). Somit wären wir auf kein Ergebnis gekommen, da bei beiden Berechnungen jeweils eine Farbe nicht vorkommt und das Dokument nicht klassifizierbar wäre.\vspace{0.5cm}
|
||||
\item[4d] Wichtige Worte wären in diesem Beispiel \textit{Braun} sowie \textit{Grün}. Beide kommen entweder in der + oder - Menge häufig vor und in der anderen einmal (Laplace-Korrektur). Sie sind gute Indikator um auf die + oder - Klasse zu zeigen. Ein schlechtes Beispiel dagegen wäre \textit{Gelb}. In beiden Klassen kommt es jeweils gleich häufig vor. Daraus kann der supervised Filtering-Ansatz keinen Schluss ziehen.
|
||||
\end{description}
|
||||
|
||||
\newpage
|
||||
\begin{Large}
|
||||
\textbf{Aufgabe 5}
|
||||
\end{Large} 16 Punkte (3/8/5)\\
|
||||
\begin{description}[style=multiline,leftmargin=0.8cm]
|
||||
\item[5a]Aus der Tabelle lassen sich folgende Distanzen von Cluster 1 zu Cluster 2 ablesen.\\\\
|
||||
$\{d_1,d_8\} = 0.38$\\
|
||||
$\{d_1,d_9\} = 0.27$\\
|
||||
$\{d_2,d_8\} = 0.22$\\
|
||||
$\{d_2,d_9\} = 0.33$\\
|
||||
|
||||
Die Average-Link-Distance lässt sich aus dem Durchschnitt dieser Distanzen berechnen.\vspace{0.3cm}\\Somit ergibt sich $\frac{0.38+0.27+0.22+0.33}{4} = 0.3$\vspace{0.5cm}
|
||||
\item[5b]Die Single-Link Methode nimmt den kürzesten Weg zwischen zwei beliebigen Elementen und macht daraus einen Cluster. Somit kann man Anhand der Tabelle ablesen welche Cluster sich bilden:\vspace{0.3cm}
|
||||
|
||||
\begin{tabular}{|c|l|l|}
|
||||
\hline
|
||||
\textbf{\#} & \textbf{Cluster} & \textbf{Grund}\\\hline
|
||||
1 & $\{d_4,d_5\}$ & Entfernung $0.95$\\
|
||||
2 & $\{d_1,d_2\}$ & Entfernung $0.90$\\
|
||||
3 & $\{d_4,d_5, d_6\}$ & Entfernung $\{d_4,d_6\} = 0.88$\\
|
||||
4 & $\{d_7,d_8\}$ & Entfernung $0.86$\\
|
||||
5 & $\{d_1,d_2,d_3\}$ & Entfernung $\{d_2,d_3\} = 0.85$\\
|
||||
6 & $\{d_7,d_8,d_9\}$ & Entfernung $\{d_8,d_9\} = 0.80$\\
|
||||
6 & $\{d_1,d_2,d_3,d_4,d_5,d_6\}$ & Entfernung $\{d_1,d_6\} = 0.67$\\
|
||||
8 & $\{d_1,d_2,d_3,d_4,d_5,d_6,d_7,d_8,d_9\}$ & Entfernung $\{d_5,d_8\} = 0.45$\\
|
||||
\hline
|
||||
\end{tabular}\vspace{0.3cm}\\
|
||||
Daraus ergibt sich dann das Clustering:\vspace{0.1cm}\\
|
||||
$\{\{\{\{d1, d2\}, \{d3\}\}, \{\{d4, d5\}, \{d6\}\}\}, \{\{d7, d8\}, \{d9\}\}\}$
|
||||
\vspace{0.5cm}
|
||||
\item[5c]
|
||||
\begin{itemize}
|
||||
\item{Das k-NN Verfahren eignet sich hier nicht. Laut der Tabelle ist $\{d_4,d_5\} = 0.95$, allerdings ist $d_4$ der $-$ Klasse, während $d_5$ der $+$ Klasse zugeordnet ist. Mit dem Nearest Neighbour Verfahren, würden sie allerdings zu einer Gruppe zusammengefügt werden, da sie so nah aneinander sind. Daher ist es nicht empfehlenswert den k-NN Algorithmus anzuwenden.}
|
||||
\item{Nein, denn hierbei sind immer die Dokumente unterschiedlich zueinander die sich am Ähnlichsten sind. Sowohl $d_4$ und $d_5$, als auch $d_1$ und $d_2$ die hier die ähnlichsten Werte aufweisen sind unterschiedlichen Klassen zugeordnet.}
|
||||
\end{itemize}
|
||||
\end{description}
|
||||
%fügt elemenmte dem toc hinzu
|
||||
%\addcontentsline{toc}{section}{Abbildungsverzeichnis}
|
||||
%\listoffigures
|
||||
|
||||
|
||||
\documentclass[article,colorback,longdoc,oneside,accentcolor=tud1a]{tudreport}
|
||||
\usepackage[utf8]{inputenc}
|
||||
\usepackage[ngerman]{babel}
|
||||
\usepackage{enumitem}
|
||||
\usepackage[
|
||||
colorlinks,
|
||||
pdfproducer={},
|
||||
pdfauthor={David Kaufmann, Dennis Werner},
|
||||
pdfsubject={Web Mining Klausur SS06 Lösungsvorschlag},
|
||||
pdftitle={Web Mining Klausur SS06 Lösungsvorschlag},
|
||||
pdfkeywords={Web, Data, Mining, Web Mining, TU Darmstadt, TUD, SS06, Klausur, Sommersemester},
|
||||
pdfpagelabels,
|
||||
pdfstartview = FitH,
|
||||
bookmarksopen = true,
|
||||
bookmarksnumbered = true,
|
||||
linkcolor = black,
|
||||
plainpages = false,
|
||||
hypertexnames = false,
|
||||
citecolor = black]
|
||||
{hyperref}
|
||||
\markright{TU Darmstadt - Web Mining - Lösungsvorschlag Klausur SS06}
|
||||
\setcounter{secnumdepth}{0}
|
||||
|
||||
\title{Web Mining \newline Klausur SS06 \newline Lösungsvorschlag}
|
||||
\author{David Kaufmann, Dennis Werner}
|
||||
\begin{document}
|
||||
\maketitle
|
||||
%\newpage
|
||||
|
||||
\begin{Large}
|
||||
\textbf{Aufgabe 1}
|
||||
\end{Large} 22 Punkte (5/3/4/3/4/3)\\
|
||||
\begin{description}[style=multiline,leftmargin=0.8cm]
|
||||
\item[1a] folien nachlesen.\vspace{0.5cm}
|
||||
\item[1b] Der Memory-based learner ist ein sogenannter lazy-learner, da es kein Modell besitzt. Hierbei werden User gegeneinander verglichen und gerankt. Es entstehen große Matrizen und ist somit rechenintensiv. Die Idee beim Model-based learner ist das lernen eines Modells das auf mehrere User passt. Somit ist die Rechendauer deutlich niedriger\vspace{0.5cm}
|
||||
\item[1c]Der Versuch würde den Authority Score erhöhen. Allerdings kann das Rankingverfahren diesen Versuch verhindern indem Relevance Weights benutzt werden. Ist die Seite also nur auf zufälligen Seiten verlinkt und nicht mit der Seite relevant, so bringt dieser Versuch nichts.\vspace{0.5cm}
|
||||
\item[1d]
|
||||
\end{description}
|
||||
|
||||
|
||||
\newpage
|
||||
\begin{Large}
|
||||
\textbf{Aufgabe 2}
|
||||
\end{Large} 24 Punkte (4/4/4/4/4/4)\\
|
||||
\begin{description}[style=multiline,leftmargin=0.8cm]
|
||||
\item[2a]
|
||||
\begin{itemize}
|
||||
\item{Das Herunterladen der Seiten von den Servern (Last verteilen)}
|
||||
\item{Speichern der Seiten (Kompression, durch Verfahren wie z.b. Stoppwortfilterung)}
|
||||
\item{Veränderung der Seite (Eine exakte Kopie muss nicht wieder heruntergeladen werden)}
|
||||
\end{itemize}\vspace{0.5cm}
|
||||
\item[2b]Ein HLRT-Wrapper wäre hier sinnvoll. Im HEAD teil wäre alles vor dem Titel (bspw. Navigationsleiste). L und R würden die Separatoren zwischen Titel und Nachrichtentext, sowie zwischen 2 Nachrichtentextteilen (bspw. Bilder, Werbung) definieren. Im TAIL wäre folglich alles was nach dem Nachrichtentext (bspw. Impressum) steht.\vspace{0.5cm}
|
||||
\item[2c]Man fängt damit an Seiten zu wählen, deren Ressorts durch die Zuordnung der URLs offensichtlich ist. Mit diesen Trainingsdaten nun kann man den Klassifizierer auf die restlichen (Test-)Daten anwenden, um sie in verschiedene Ressorts einzuteilen.\vspace{0.5cm}
|
||||
\item[2d]Durch die Erhöhung der Features indem mach das Dokument zusammenfügt und vorher Verfahren wie Stoppwortfilterung auf die beiden anwendet, sollte die inhaltliche Relevanz verstärkt worden sein. Da es sich um das selbe Thema handelt, sind wichtige Schlagwörter, wie z.b. der Name eines Politikers häufiger vorhanden.\vspace{0.5cm}
|
||||
\item[2e]Durch das Verwenden des k-means Clustering Verfahren kann man die Ressorts in Cluster einteilen. Die Nachricht die im entsprechenden Cluster dem Zentrum am nächsten ist, kann als repräsentatives Ergebnis dienen.\vspace{0.5cm}
|
||||
\item[2f] Z.B. durch Cross-Validation. Ändert man die Trainingsbeispiele und erhält noch dieselben Ergebnisse, so hat man aller Wahrscheinlichkeit nach korrekt klassifiziert.
|
||||
\end{description}
|
||||
|
||||
\newpage
|
||||
\begin{Large}
|
||||
\textbf{Aufgabe 3}
|
||||
\end{Large} 18 Punkte (4/3/4/3/4)\\
|
||||
\begin{description}[style=multiline,leftmargin=0.8cm]
|
||||
\item[3a]Die Qualität der Reihung ist nicht optimal gewählt, da sie durch Recallwerte im Bereich von 75-85\% näher am Breakeven Point hätten gewählt werden können.\vspace{0.5cm}
|
||||
\item[3b]Der Breakeven Point errechnet sich durch die beiden Wertepaare, deren Recall- und Precisionwerte nicht zu sehr voneinander abweichen. Für Diese Werte ergibt sich:\vspace{0.3cm}\\
|
||||
$D_1 = \{Precision = 0.90, Recall = 0.75\}$\\
|
||||
$D_2 = \{Precision = 0.70, Recall = 0.85\}$\vspace{0.3cm}\\
|
||||
$Breakeven = \frac{R_2 \times P_1 - R_1 \times P_2}{R_2 - R_1 \times P_1 - P_2} = \frac{0.85 \times 0.90 - 0.75 \times 0.70}{0.85 - 0.75 \times 0.90 - 0.70} = 0.80$\vspace{0.5cm}
|
||||
\item[3c] Folgende Tabelle beinhaltet die interpolierten Precisionwerte:\vspace{0.3cm}\\
|
||||
\begin{tabular}{l|c|c|c|c|c|c|c|c|c|c|c}
|
||||
\textbf{Precision} & 0\% & 10\% & 20\% & 30\% & 40\% & 50\% & 60\% & 70\% & 80\% & 90\% & 100\% \\\hline
|
||||
\textbf{Recall} & 90\% & 90\% & 90\% & 90\% & 90\% & 90\% & 90\% & 90\% & 70\% & 45\% & 45\% \\
|
||||
\end{tabular}\vspace{0.5cm}
|
||||
\item[3d] Die 11-point Average Precision errechnet sich aus dem Durchschnitt der interpolierten Precisionwerte.\\Somit erhalten wir:\\
|
||||
\begin{center}
|
||||
\LARGE{$\frac{8 \times 90\% + 70\% + 2 \times 45\%}{11} = 80\%$}
|
||||
\end{center}\vspace{0.5cm}
|
||||
\item[3e] Die Formeln für Recall und Precision lauten wie folgt:\vspace{0.3cm}\\
|
||||
$Precison = \frac{a}{a+b}$\vspace{0.3cm}\\
|
||||
$Recall = \frac{a}{a+c}$\\
|
||||
|
||||
Bei einer Precision von $25\%$ und einem Recall von $25\%$ bei 1000 zurückgegeben Dokumenten können wir die Formeln ergänzen.\vspace{0.3cm}\\
|
||||
$Precison = \frac{a}{1000} = 0.8$\vspace{0.3cm}\\
|
||||
Daraus erhalten wir $a=800$ und $b=200$\\
|
||||
Weiter setzen wir $a$ in den Recall ein um $c$ zu erhalten.\vspace{0.3cm}\\
|
||||
\parbox{4cm}{$\frac{800}{800+c} = 0.25$}|$\times 4$\vspace{0.15cm}\\
|
||||
\parbox{4cm}{$\frac{3200}{800+c} = 1$}|$\times (800+c)$\vspace{0.15cm}\\
|
||||
\parbox{4cm}{$3200 = 800+c$}|$- 800$\vspace{0.15cm}\\
|
||||
\parbox{4cm}{$2400 = c$}\vspace{0.15cm}
|
||||
|
||||
Alle Relevanten Dokumente sind $a+c = 3200$.
|
||||
\end{description}
|
||||
|
||||
\newpage
|
||||
\begin{Large}
|
||||
\textbf{Aufgabe 4}
|
||||
\end{Large} 20 Punkte (7/5/4/4)\\
|
||||
\begin{description}[style=multiline,leftmargin=0.8cm]
|
||||
\item[4a] Folgende Tabellen geben Auskunft über die Wahrscheinlichkeiten:\\
|
||||
\begin{center}
|
||||
\begin{tabular}{|l|c|}
|
||||
\hline
|
||||
\textbf{Farbe/Klasse} & \textbf{Wahrscheinlichkeit}\\\hline
|
||||
p(+) & 1/2 \\
|
||||
p(braun|+) & 5/18 \\
|
||||
p(schwarz|+) & 4/18 \\
|
||||
p(gelb|+) & 4/18 \\
|
||||
p(blau|+) & 2/18 \\
|
||||
p(orange|+) & 2/18 \\
|
||||
p(grün|+) & 1/18 \\
|
||||
\hline
|
||||
\end{tabular}\hspace{1cm}
|
||||
\begin{tabular}{|l|c|}
|
||||
\hline
|
||||
\textbf{Farbe/Klasse} & \textbf{Wahrscheinlichkeit}\\\hline
|
||||
p(-) & 1/2 \\
|
||||
p(braun|-) & 1/18 \\
|
||||
p(schwarz|-) & 2/18 \\
|
||||
p(gelb|-) & 4/18 \\
|
||||
p(blau|-) & 3/18 \\
|
||||
p(orange|-) & 3/18 \\
|
||||
p(grün|-) & 5/18 \\
|
||||
\hline
|
||||
\end{tabular}
|
||||
\end{center}\vspace{0.5cm}
|
||||
\item[4b] Die Klasse von w := grün,braun,orange,blau ist $argmax_c$ = p(grün|c)p(braun|c)p(orange|c)p(blau|c) $\times$ p(c).\\
|
||||
|
||||
Wahrscheinlichkeit für $+$: $\frac{1 \times 5 \times 2 \times 2}{18^4}\times\frac{1}{2} = \frac{20}{18^4 \times 2}$\vspace{0.3cm}\\
|
||||
Wahrscheinlichkeit für $-$: $\frac{5 \times 1 \times 3 \times 3}{18^4}\times\frac{1}{2} = \frac{45}{18^4 \times 2}$\\
|
||||
|
||||
Somit gehört dieses Dokument der Klasse $-$ an.\vspace{0.5cm}
|
||||
\item[4c] Angenommen wir hätten mit relativen Wahrscheinlichkeiten gerechnet, so wäre die Wahrscheinlichkeit für p(grün|+) = 0. Hätten wir also damit versucht bei Aufgabe \textbf{4b} zu rechnen, so wäre das Ergebnis 0 gewesen. Gleiches gilt in diesem Fall für p(braun|-). Somit wären wir auf kein Ergebnis gekommen, da bei beiden Berechnungen jeweils eine Farbe nicht vorkommt und das Dokument nicht klassifizierbar wäre.\vspace{0.5cm}
|
||||
\item[4d] Wichtige Worte wären in diesem Beispiel \textit{Braun} sowie \textit{Grün}. Beide kommen entweder in der + oder - Menge häufig vor und in der anderen einmal (Laplace-Korrektur). Sie sind gute Indikator um auf die + oder - Klasse zu zeigen. Ein schlechtes Beispiel dagegen wäre \textit{Gelb}. In beiden Klassen kommt es jeweils gleich häufig vor. Daraus kann der supervised Filtering-Ansatz keinen Schluss ziehen.
|
||||
\end{description}
|
||||
|
||||
\newpage
|
||||
\begin{Large}
|
||||
\textbf{Aufgabe 5}
|
||||
\end{Large} 16 Punkte (3/8/5)\\
|
||||
\begin{description}[style=multiline,leftmargin=0.8cm]
|
||||
\item[5a]Aus der Tabelle lassen sich folgende Distanzen von Cluster 1 zu Cluster 2 ablesen.\\\\
|
||||
$\{d_1,d_8\} = 0.38$\\
|
||||
$\{d_1,d_9\} = 0.27$\\
|
||||
$\{d_2,d_8\} = 0.22$\\
|
||||
$\{d_2,d_9\} = 0.33$\\
|
||||
|
||||
Die Average-Link-Distance lässt sich aus dem Durchschnitt dieser Distanzen berechnen.\vspace{0.3cm}\\Somit ergibt sich $\frac{0.38+0.27+0.22+0.33}{4} = 0.3$\vspace{0.5cm}
|
||||
\item[5b]Die Single-Link Methode nimmt den kürzesten Weg zwischen zwei beliebigen Elementen und macht daraus einen Cluster. Somit kann man Anhand der Tabelle ablesen welche Cluster sich bilden:\vspace{0.3cm}
|
||||
|
||||
\begin{tabular}{|c|l|l|}
|
||||
\hline
|
||||
\textbf{\#} & \textbf{Cluster} & \textbf{Grund}\\\hline
|
||||
1 & $\{d_4,d_5\}$ & Entfernung $0.95$\\
|
||||
2 & $\{d_1,d_2\}$ & Entfernung $0.90$\\
|
||||
3 & $\{d_4,d_5, d_6\}$ & Entfernung $\{d_4,d_6\} = 0.88$\\
|
||||
4 & $\{d_7,d_8\}$ & Entfernung $0.86$\\
|
||||
5 & $\{d_1,d_2,d_3\}$ & Entfernung $\{d_2,d_3\} = 0.85$\\
|
||||
6 & $\{d_7,d_8,d_9\}$ & Entfernung $\{d_8,d_9\} = 0.80$\\
|
||||
6 & $\{d_1,d_2,d_3,d_4,d_5,d_6\}$ & Entfernung $\{d_1,d_6\} = 0.67$\\
|
||||
8 & $\{d_1,d_2,d_3,d_4,d_5,d_6,d_7,d_8,d_9\}$ & Entfernung $\{d_5,d_8\} = 0.45$\\
|
||||
\hline
|
||||
\end{tabular}\vspace{0.3cm}\\
|
||||
Daraus ergibt sich dann das Clustering:\vspace{0.1cm}\\
|
||||
$\{\{\{\{d1, d2\}, \{d3\}\}, \{\{d4, d5\}, \{d6\}\}\}, \{\{d7, d8\}, \{d9\}\}\}$
|
||||
\vspace{0.5cm}
|
||||
\item[5c]
|
||||
\begin{itemize}
|
||||
\item{Das k-NN Verfahren eignet sich hier nicht. Laut der Tabelle ist $\{d_4,d_5\} = 0.95$, allerdings ist $d_4$ der $-$ Klasse, während $d_5$ der $+$ Klasse zugeordnet ist. Mit dem Nearest Neighbour Verfahren, würden sie allerdings zu einer Gruppe zusammengefügt werden, da sie so nah aneinander sind. Daher ist es nicht empfehlenswert den k-NN Algorithmus anzuwenden.}
|
||||
\item{Nein, denn hierbei sind immer die Dokumente unterschiedlich zueinander die sich am Ähnlichsten sind. Sowohl $d_4$ und $d_5$, als auch $d_1$ und $d_2$ die hier die ähnlichsten Werte aufweisen sind unterschiedlichen Klassen zugeordnet.}
|
||||
\end{itemize}
|
||||
\end{description}
|
||||
%fügt elemenmte dem toc hinzu
|
||||
%\addcontentsline{toc}{section}{Abbildungsverzeichnis}
|
||||
%\listoffigures
|
||||
|
||||
|
||||
\end{document}
|
||||
0
ws2012/CE/uebungen/12/andere gruppe/Lösung-Jan.pdf → ws2012/CE/uebungen/12/andere gruppe/Loesung-Jan.pdf
Executable file → Normal file
0
ws2012/CE/uebungen/12/andere gruppe/Lösung-Jan.pdf → ws2012/CE/uebungen/12/andere gruppe/Loesung-Jan.pdf
Executable file → Normal file
Loading…
x
Reference in New Issue
Block a user