ripeti AA

This commit is contained in:
Francesco Mecca 2020-07-08 17:48:22 +02:00
parent 24b9c948c7
commit 7921456d7d
4 changed files with 76 additions and 8 deletions

Binary file not shown.

After

Width:  |  Height:  |  Size: 790 B

Binary file not shown.

After

Width:  |  Height:  |  Size: 1.2 KiB

View file

@ -6,8 +6,8 @@ nuove istanze di problemi in base ai dati gia` consumati
*** Probabilistic classifier *** Probabilistic classifier
Stima probabilita` dai dati e fornisce predizioni usando la seguente Stima probabilita` dai dati e fornisce predizioni usando la seguente
regola: regola:
- Yₘₐₚ = $arg max_{Y}P(Y|X)$ = $argmax_Y\frac{(P(X|Y)(PY)}{P(X))}$ = - Yₘₐₚ = $arg max_{Y}P(Y|X) = argmax_Y\frac{(P(X|Y)(PY)}{P(X))} =
$argmax_Y\frac{(P(X|Y)(PY)}{P(Y))}$ argmax_Y\frac{(P(X|Y)(PY)}{P(Y))}$
- Yₘₗ = $argmax_YP(X|Y)$ (se priori non importanti) - Yₘₗ = $argmax_YP(X|Y)$ (se priori non importanti)
*** Features *** Features
Se vogliamo approssimare la funzione coseno e` inutile considerare Se vogliamo approssimare la funzione coseno e` inutile considerare
@ -335,7 +335,7 @@ mai viste.
algorithm L dopo il training su D_c algorithm L dopo il training su D_c
Permette di trasformare un sistema induttivo in deduttivo Permette di trasformare un sistema induttivo in deduttivo
** TODO Path Through hyp. space ** TODO Path Through hyp. space
Vedi che vuole sapere Vedi che vuole sapere.
** TODO Trees (manca ranking e regression trees) ** TODO Trees (manca ranking e regression trees)
I decision tree sono molto espressivi e corrispondono a proposizioni I decision tree sono molto espressivi e corrispondono a proposizioni
logiche in DNF. logiche in DNF.
@ -412,7 +412,66 @@ Il best split minimizza l'impurita` dei subset D₁, ..., Dₗ.
- Gli alberi possono diventare rankers se imparano un ordinamento per - Gli alberi possono diventare rankers se imparano un ordinamento per
i segmenti i segmenti
- Le foglie devono essere ordinate - Le foglie devono essere ordinate
Sfruttando la distribuzione delle classi nelle foglie possiamo
trasformare il feature tree in:
1. ranking tree: se ordiniamo le foglie in base alle probabilita`
empiriche
2. probability estimator
3. classifier: scegliendo le condizioni operative come conseguenza
della proporzione della frequenza sulle classi:
+ clr = Pos/Neg
+ c = Cfn / Cfp
+ slope: 1/(c·clr)
TODO: Esercizi su Ranking trees e costi: 193
*** Prune Tree
- PruneTree(T,D)
#+BEGIN_SRC
inputs: decision tree T; labelled data D
for every INTERNAL node N ∈T, partendo dal basso:
Tₙ ← subtree of T with N as root
Dₙ ← {x∈D | x is covered by N}
se l'accuracy di Tₙ su Dₙ e` peggiore della majority class in Dₙ :
sostituisci Tₙ in T con una foglia marcata con la maj. class di Dₙ
ritorna versione pruned di T
#+END_SRC
Invece di fare pruning si puo` introdurre un'errore di
generalizzazione (penalita` k su foglie) calcolato sul training set.
Non viene generata una foglia se non decrementa l'errore del padre di
almeno k+1.
TODO: Vedi come vengono stimati gli errori di generalizzazione sul
libro
TODO: vedi conseguenze inflation
*** Regression Trees
Possiamo inquadrare il problema del tree learning come un problema di
minimizzazione della varianza (o standard deviation nel caso di sqrt
GINI) sulle foglie:
| Var(Y) = 1/|Y| ∑(y-y̱)² y̱ e` y_predict
l'average della varianza e` la varianza moltiplicata per la
frequenza |Yⱼ|/|Y|.
- Nei problemi di regressione i valori del dominio di Y sono continui
- in BestSplit possiamo sostituire l'impurezza con la varianza
+ Label(Y) = mean value dei valori di Y raccolte dalla foglia
+ Homogeneous(Y) = true se la varianza e` sotto la soglia
- i regression tree son suscettibili all'overfitting in caso di pochi
esempi
*** Clustering Trees
- usiamo Dis: X×X ↦ R
- BestSplit usa l'average di Dis su ∀x₁,x₂
- nel caso di vettori di features X⊆Rᵈ la somma della varianza sulle
features e` la distanza euclidea
- Complessita`:
+ average squared distance = 2 volte la varianza
+ Var(x)
+ average vector delle distanze e Varᵢ(X)
+ O(|D|)
Note:
- Cluster piccoli: overfitting
- outliers possono essere rimossi
- si possono rimuovere degli splits nei livelli piu` bassi
dell'albero: ~pruning~
- label attraverso most representative instance: medoid (lowest total
dissimilarity)
** Rules ** Rules
Ordered rules are a chain of /if-then-else/. Ordered rules are a chain of /if-then-else/.
#+BEGIN_SRC #+BEGIN_SRC
@ -474,6 +533,14 @@ coverage non convessa.
I sottogruppi sono un subset dell'instance space la cui class I sottogruppi sono un subset dell'instance space la cui class
distribution e` differente da quella di D. distribution e` differente da quella di D.
Mapping ĝ: X → C; D = (xᵢ, l(xᵢ))ⁱ Mapping ĝ: X → C; D = (xᵢ, l(xᵢ))ⁱ
Precisione e average recall non sono sempre coincidono sulla
classificazione dei sottogruppi:
- Precision: focalizzato sui positivi
- avg recall: no fuoco
Nella subgroup discovery siamo interessati a imparare piu` di una
regola per individuare un gruppo omogeneo: weighted covering.
Si da un peso ad ogni esempio e lo si riduce ogni volta che si trova
una regola che lo copre.
** Distance models ** Distance models
La distanza e` una misura di similarita`: minore la distanza, maggiore La distanza e` una misura di similarita`: minore la distanza, maggiore
la similarita`. la similarita`.
@ -539,7 +606,7 @@ Dato Sum of Squared Error
- Between cluster Sum of Squares: $BSS = \sum_i |C_i|(m-m_i)^2$ - Between cluster Sum of Squares: $BSS = \sum_i |C_i|(m-m_i)^2$
BSS + WSS e` costante. Il problema dei K-Means consiste nel trovare BSS + WSS e` costante. Il problema dei K-Means consiste nel trovare
una soluzione che minimizza WSS (o massimizza BSS): cluster coesi. una soluzione che minimizza WSS (o massimizza BSS): cluster coesi.
*** Algoritmo di LLoyd *** Algoritmo di Lloyd
- Itera partizionando in base al centroide e ricalcola il centroide. - Itera partizionando in base al centroide e ricalcola il centroide.
- Converge ad un punto stazionario ma non garantisce che la soluzione - Converge ad un punto stazionario ma non garantisce che la soluzione
sia il minimo globale. sia il minimo globale.
@ -603,7 +670,7 @@ repeat
until no change in D₁,...,Dₖ until no change in D₁,...,Dₖ
return D₁, ..., Dₖ return D₁, ..., Dₖ
#+END_SRC #+END_SRC
- Cosine similarity: $cos θ = \frac{x\cdot y}{\Vert{x}\Vert \cdot - Cosine similarity: $cos \theta = \frac{x\cdot y}{\Vert{x}\Vert \cdot
\Vert{y} \Vert} = \frac{K(x,y)}{\sqrt{K(x,x)\times K(y,y)}}$ \Vert{y} \Vert} = \frac{K(x,y)}{\sqrt{K(x,x)\times K(y,y)}}$
** 5-cross validation ** 5-cross validation
dividi il dataset in 5 partizioni, 4 per il training set 1 per il test dividi il dataset in 5 partizioni, 4 per il training set 1 per il test

View file

@ -22,14 +22,15 @@
+ [ ] Sum of squared error + [ ] Sum of squared error
+ [ ] Silhouttes + [ ] Silhouttes
+ [ ] Rivedi kernelization + [ ] Rivedi kernelization
- [ ] Esposito [0/3] - [ ] Esposito [0/4]
+ [ ] (w_0,w_1) ortogonale all'iperpiano + [ ] (w_0,w_1) ortogonale all'iperpiano
+ [ ] dimostrazione dualita` grangiana + [ ] dimostrazione dualita` grangiana
+ [ ] Mercer condition + [ ] Mercer condition
+ [ ] kernel semidefinito + [ ] kernel semidefinito
- [ ] Meo [0/3] - [-] Meo [1/5]
+ [ ] Vedi bene gini index + [ ] Vedi bene gini index
+ [ ] Ranking e regression trees + [X] Ranking e regression trees
+ [ ] errori di generalizzazione e TODO ranking tree
+ [ ] subgroup discovery and ongoing + [ ] subgroup discovery and ongoing
+ [ ] Voronoi + [ ] Voronoi
+ [ ] Proximity graph for measuring clusters + [ ] Proximity graph for measuring clusters