teoria aa
After Width: | Height: | Size: 650 B |
After Width: | Height: | Size: 832 B |
After Width: | Height: | Size: 931 B |
After Width: | Height: | Size: 899 B |
After Width: | Height: | Size: 697 B |
After Width: | Height: | Size: 697 B |
After Width: | Height: | Size: 930 B |
After Width: | Height: | Size: 667 B |
|
@ -474,4 +474,84 @@ coverage non convessa.
|
||||||
I sottogruppi sono un subset dell'instance space la cui class
|
I sottogruppi sono un subset dell'instance space la cui class
|
||||||
distribution e` differente da quella di D.
|
distribution e` differente da quella di D.
|
||||||
Mapping ĝ: X → C; D = (xᵢ, l(xᵢ))ⁱ
|
Mapping ĝ: X → C; D = (xᵢ, l(xᵢ))ⁱ
|
||||||
|
** Distance models
|
||||||
|
La distanza e` una misura di similarita`: minore la distanza, maggiore
|
||||||
|
la similarita`.
|
||||||
|
Se X∈Rᵈ definiamo la Minkowsi distance: $Dis_p(x,y) =
|
||||||
|
(\sum_{j=1}^{d}{|x_j-y_j|^p})^{\frac{1}{p}} = \Vert{x-y}\Vert_p$ (‖z‖
|
||||||
|
e` la p-norm).
|
||||||
|
- Se p = 2 -> distanza euclidea.
|
||||||
|
| Dis₂(x,y) = sqrt ((x-y)ᵀ(x-y))
|
||||||
|
- Manhattan:
|
||||||
|
| Dis₁(x,y) = ∑|xⱼ-yⱼ|
|
||||||
|
- Chebyshev: $Dis_{\infty}(x,y) = max_j|x_j-y_j|$
|
||||||
|
- 0-norm:
|
||||||
|
| ∑ I[xⱼ≠yⱼ]
|
||||||
|
- Jaccard distance for aysmmetric problems
|
||||||
|
- Mahalanobis (elliptical?): $Dis_M(x,y|\sum) = \sqrt{
|
||||||
|
(x-y)^T\sum^-1(x-y) }$
|
||||||
|
Dis₂ = Disₘ quando ∑ e` l'identity matrix. Normalmente ∑ e`
|
||||||
|
l'inverso della matrice di covarianza: M = ∑⁻¹.
|
||||||
|
La distanza di Mahal. tiene conto della distanza fra le features e
|
||||||
|
grazie a ∑ riduce le distanze nella direzione di spread.
|
||||||
|
Generalizzando:
|
||||||
|
Dato un'instance space X una metrica della distanza Dis: X×X→R e` tale
|
||||||
|
che ∀x,y,z∈X:
|
||||||
|
- Dis(x,x) = 0
|
||||||
|
- Dis(x,y) > 0 if x≠y
|
||||||
|
- Dis(x,y) = Dis(y,x)
|
||||||
|
- Dis(x,z) ≤ Dis(x,y) + Dis(y,z) (no detours)
|
||||||
|
*** Distanze e medie
|
||||||
|
Si dimostra (slide 343) che μ e` il punto nello spazio Euclideo che ha
|
||||||
|
∑distanza minimo.
|
||||||
|
Il centroide rispetto al medioide puo` anche essere un punto fittizio.
|
||||||
|
Un classificatore lineare molto basico si puo` costruire classificando
|
||||||
|
ogni istanza.
|
||||||
|
*** KNN
|
||||||
|
A KNN cls takes a vote for each of the k nearest exemplars and
|
||||||
|
predicts the class.
|
||||||
|
In pratica il cls prendere k voti dai piu` vicini. All'aumentare di K
|
||||||
|
aumenta il bias e diminuisce la varianza. Con basso k sono simili ad aggregatori.
|
||||||
|
Non efficienti negli spazi con molte dimensioni.
|
||||||
|
I voti possono anche essere pesati in base alle distanze.
|
||||||
|
*** DBScan
|
||||||
|
Usare NN non per la predizione ma per la classificazione.
|
||||||
|
- Density: numero di punti nel raggio ~Eps~
|
||||||
|
- Core point: ha minimo ~MinPts~ nel raggio (interior del cluster)
|
||||||
|
- Border point: meno di MinPts punti in Eps, ma vicino di CorePoint
|
||||||
|
- Noise point: ne` border point ne core point.
|
||||||
|
#+BEGIN_SRC
|
||||||
|
Label all point as Core, Border, Noise
|
||||||
|
Elimina i Noise points
|
||||||
|
Metti un arco fra i core-points nel raggio Eps l'uno dall'altro
|
||||||
|
- ogni gruppo di punti connessi e` un cluster
|
||||||
|
Assegna ogni Border point ad un cluster
|
||||||
|
#+END_SRC
|
||||||
|
Buono per classificare cluster di differente grandezza e forma.
|
||||||
|
Non funziona bene sulle densita` variabili e sui punti ad alta
|
||||||
|
dimensionalita`.
|
||||||
|
*** Misure
|
||||||
|
- Coesione: quanto gli oggetti son closely related nel cluster
|
||||||
|
- Separazione: quanto distinto o ben separato il cluster dagli altri
|
||||||
|
Dato Sum of Squared Error
|
||||||
|
- Within cluster Sum of Squares: $WSS = \sum_i \sum_{x\in
|
||||||
|
C_i}(x-m_i)^2$
|
||||||
|
- Between cluster Sum of Squares: $BSS = \sum_i |C_i|(m-m_i)^2$
|
||||||
|
BSS + WSS e` costante. Il problema dei K-Means consiste nel trovare
|
||||||
|
una soluzione che minimizza WSS (o massimizza BSS): cluster coesi.
|
||||||
|
*** Algoritmo di LLoyd
|
||||||
|
- Itera partizionando in base al centroide e ricalcola il centroide.
|
||||||
|
- Converge ad un punto stazionario ma non garantisce che la soluzione
|
||||||
|
sia il minimo globale.
|
||||||
|
- KMeans(K,D) usando Dis₂
|
||||||
|
#+BEGIN_SRC
|
||||||
|
Input data D⊆Rᵈ; numero di cluster k.
|
||||||
|
Inizializza casualmente K vettori μ₁, ..., μₖ ∈Rᵈ
|
||||||
|
do:
|
||||||
|
assegna ogni x∈D a argminⱼ Dis₂(x,μⱼ)
|
||||||
|
for j = 1 to k:
|
||||||
|
Dⱼ ← {x∈D| x assigned to cluster j}
|
||||||
|
μⱼ = 1/|Dⱼ| ∑x (x∈Dⱼ)
|
||||||
|
until (no change in μ₁, ..., μₖ
|
||||||
|
ritorna μ₁, ..., μₖ
|
||||||
|
#+END_SRC
|
||||||
|
|
1
todo.org
|
@ -30,6 +30,7 @@
|
||||||
+ [ ] Vedi bene gini index
|
+ [ ] Vedi bene gini index
|
||||||
+ [ ] Ranking e regression trees
|
+ [ ] Ranking e regression trees
|
||||||
+ [ ] subgroup discovery and ongoing
|
+ [ ] subgroup discovery and ongoing
|
||||||
|
+ [ ] Voronoi
|
||||||
- [X] Esercizi [3/3]
|
- [X] Esercizi [3/3]
|
||||||
- [X] es1: perche` min_impurity decrease
|
- [X] es1: perche` min_impurity decrease
|
||||||
- [X] chiedi a Galla`, Marco e Naz quali sono tutti gli es
|
- [X] chiedi a Galla`, Marco e Naz quali sono tutti gli es
|
||||||
|
|