teoria aa
After Width: | Height: | Size: 650 B |
After Width: | Height: | Size: 832 B |
After Width: | Height: | Size: 931 B |
After Width: | Height: | Size: 899 B |
After Width: | Height: | Size: 697 B |
After Width: | Height: | Size: 697 B |
After Width: | Height: | Size: 930 B |
After Width: | Height: | Size: 667 B |
|
@ -474,4 +474,84 @@ coverage non convessa.
|
|||
I sottogruppi sono un subset dell'instance space la cui class
|
||||
distribution e` differente da quella di D.
|
||||
Mapping ĝ: X → C; D = (xᵢ, l(xᵢ))ⁱ
|
||||
|
||||
** Distance models
|
||||
La distanza e` una misura di similarita`: minore la distanza, maggiore
|
||||
la similarita`.
|
||||
Se X∈Rᵈ definiamo la Minkowsi distance: $Dis_p(x,y) =
|
||||
(\sum_{j=1}^{d}{|x_j-y_j|^p})^{\frac{1}{p}} = \Vert{x-y}\Vert_p$ (‖z‖
|
||||
e` la p-norm).
|
||||
- Se p = 2 -> distanza euclidea.
|
||||
| Dis₂(x,y) = sqrt ((x-y)ᵀ(x-y))
|
||||
- Manhattan:
|
||||
| Dis₁(x,y) = ∑|xⱼ-yⱼ|
|
||||
- Chebyshev: $Dis_{\infty}(x,y) = max_j|x_j-y_j|$
|
||||
- 0-norm:
|
||||
| ∑ I[xⱼ≠yⱼ]
|
||||
- Jaccard distance for aysmmetric problems
|
||||
- Mahalanobis (elliptical?): $Dis_M(x,y|\sum) = \sqrt{
|
||||
(x-y)^T\sum^-1(x-y) }$
|
||||
Dis₂ = Disₘ quando ∑ e` l'identity matrix. Normalmente ∑ e`
|
||||
l'inverso della matrice di covarianza: M = ∑⁻¹.
|
||||
La distanza di Mahal. tiene conto della distanza fra le features e
|
||||
grazie a ∑ riduce le distanze nella direzione di spread.
|
||||
Generalizzando:
|
||||
Dato un'instance space X una metrica della distanza Dis: X×X→R e` tale
|
||||
che ∀x,y,z∈X:
|
||||
- Dis(x,x) = 0
|
||||
- Dis(x,y) > 0 if x≠y
|
||||
- Dis(x,y) = Dis(y,x)
|
||||
- Dis(x,z) ≤ Dis(x,y) + Dis(y,z) (no detours)
|
||||
*** Distanze e medie
|
||||
Si dimostra (slide 343) che μ e` il punto nello spazio Euclideo che ha
|
||||
∑distanza minimo.
|
||||
Il centroide rispetto al medioide puo` anche essere un punto fittizio.
|
||||
Un classificatore lineare molto basico si puo` costruire classificando
|
||||
ogni istanza.
|
||||
*** KNN
|
||||
A KNN cls takes a vote for each of the k nearest exemplars and
|
||||
predicts the class.
|
||||
In pratica il cls prendere k voti dai piu` vicini. All'aumentare di K
|
||||
aumenta il bias e diminuisce la varianza. Con basso k sono simili ad aggregatori.
|
||||
Non efficienti negli spazi con molte dimensioni.
|
||||
I voti possono anche essere pesati in base alle distanze.
|
||||
*** DBScan
|
||||
Usare NN non per la predizione ma per la classificazione.
|
||||
- Density: numero di punti nel raggio ~Eps~
|
||||
- Core point: ha minimo ~MinPts~ nel raggio (interior del cluster)
|
||||
- Border point: meno di MinPts punti in Eps, ma vicino di CorePoint
|
||||
- Noise point: ne` border point ne core point.
|
||||
#+BEGIN_SRC
|
||||
Label all point as Core, Border, Noise
|
||||
Elimina i Noise points
|
||||
Metti un arco fra i core-points nel raggio Eps l'uno dall'altro
|
||||
- ogni gruppo di punti connessi e` un cluster
|
||||
Assegna ogni Border point ad un cluster
|
||||
#+END_SRC
|
||||
Buono per classificare cluster di differente grandezza e forma.
|
||||
Non funziona bene sulle densita` variabili e sui punti ad alta
|
||||
dimensionalita`.
|
||||
*** Misure
|
||||
- Coesione: quanto gli oggetti son closely related nel cluster
|
||||
- Separazione: quanto distinto o ben separato il cluster dagli altri
|
||||
Dato Sum of Squared Error
|
||||
- Within cluster Sum of Squares: $WSS = \sum_i \sum_{x\in
|
||||
C_i}(x-m_i)^2$
|
||||
- Between cluster Sum of Squares: $BSS = \sum_i |C_i|(m-m_i)^2$
|
||||
BSS + WSS e` costante. Il problema dei K-Means consiste nel trovare
|
||||
una soluzione che minimizza WSS (o massimizza BSS): cluster coesi.
|
||||
*** Algoritmo di LLoyd
|
||||
- Itera partizionando in base al centroide e ricalcola il centroide.
|
||||
- Converge ad un punto stazionario ma non garantisce che la soluzione
|
||||
sia il minimo globale.
|
||||
- KMeans(K,D) usando Dis₂
|
||||
#+BEGIN_SRC
|
||||
Input data D⊆Rᵈ; numero di cluster k.
|
||||
Inizializza casualmente K vettori μ₁, ..., μₖ ∈Rᵈ
|
||||
do:
|
||||
assegna ogni x∈D a argminⱼ Dis₂(x,μⱼ)
|
||||
for j = 1 to k:
|
||||
Dⱼ ← {x∈D| x assigned to cluster j}
|
||||
μⱼ = 1/|Dⱼ| ∑x (x∈Dⱼ)
|
||||
until (no change in μ₁, ..., μₖ
|
||||
ritorna μ₁, ..., μₖ
|
||||
#+END_SRC
|
||||
|
|
1
todo.org
|
@ -30,6 +30,7 @@
|
|||
+ [ ] Vedi bene gini index
|
||||
+ [ ] Ranking e regression trees
|
||||
+ [ ] subgroup discovery and ongoing
|
||||
+ [ ] Voronoi
|
||||
- [X] Esercizi [3/3]
|
||||
- [X] es1: perche` min_impurity decrease
|
||||
- [X] chiedi a Galla`, Marco e Naz quali sono tutti gli es
|
||||
|
|