teoria aa

This commit is contained in:
Francesco Mecca 2020-07-04 19:00:26 +02:00
parent 8a0df09bcb
commit 5ef80769a2
10 changed files with 82 additions and 1 deletions

Binary file not shown.

After

Width:  |  Height:  |  Size: 650 B

Binary file not shown.

After

Width:  |  Height:  |  Size: 832 B

Binary file not shown.

After

Width:  |  Height:  |  Size: 931 B

Binary file not shown.

After

Width:  |  Height:  |  Size: 899 B

Binary file not shown.

After

Width:  |  Height:  |  Size: 697 B

Binary file not shown.

After

Width:  |  Height:  |  Size: 697 B

Binary file not shown.

After

Width:  |  Height:  |  Size: 930 B

Binary file not shown.

After

Width:  |  Height:  |  Size: 667 B

View file

@ -474,4 +474,84 @@ coverage non convessa.
I sottogruppi sono un subset dell'instance space la cui class I sottogruppi sono un subset dell'instance space la cui class
distribution e` differente da quella di D. distribution e` differente da quella di D.
Mapping ĝ: X → C; D = (xᵢ, l(xᵢ))ⁱ Mapping ĝ: X → C; D = (xᵢ, l(xᵢ))ⁱ
** Distance models
La distanza e` una misura di similarita`: minore la distanza, maggiore
la similarita`.
Se X∈Rᵈ definiamo la Minkowsi distance: $Dis_p(x,y) =
(\sum_{j=1}^{d}{|x_j-y_j|^p})^{\frac{1}{p}} = \Vert{x-y}\Vert_p$ (‖z‖
e` la p-norm).
- Se p = 2 -> distanza euclidea.
| Dis₂(x,y) = sqrt ((x-y)ᵀ(x-y))
- Manhattan:
| Dis₁(x,y) = ∑|xⱼ-yⱼ|
- Chebyshev: $Dis_{\infty}(x,y) = max_j|x_j-y_j|$
- 0-norm:
| ∑ I[xⱼ≠yⱼ]
- Jaccard distance for aysmmetric problems
- Mahalanobis (elliptical?): $Dis_M(x,y|\sum) = \sqrt{
(x-y)^T\sum^-1(x-y) }$
Dis₂ = Disₘ quando ∑ e` l'identity matrix. Normalmente ∑ e`
l'inverso della matrice di covarianza: M = ∑⁻¹.
La distanza di Mahal. tiene conto della distanza fra le features e
grazie a ∑ riduce le distanze nella direzione di spread.
Generalizzando:
Dato un'instance space X una metrica della distanza Dis: X×X→R e` tale
che ∀x,y,z∈X:
- Dis(x,x) = 0
- Dis(x,y) > 0 if x≠y
- Dis(x,y) = Dis(y,x)
- Dis(x,z) ≤ Dis(x,y) + Dis(y,z) (no detours)
*** Distanze e medie
Si dimostra (slide 343) che μ e` il punto nello spazio Euclideo che ha
∑distanza minimo.
Il centroide rispetto al medioide puo` anche essere un punto fittizio.
Un classificatore lineare molto basico si puo` costruire classificando
ogni istanza.
*** KNN
A KNN cls takes a vote for each of the k nearest exemplars and
predicts the class.
In pratica il cls prendere k voti dai piu` vicini. All'aumentare di K
aumenta il bias e diminuisce la varianza. Con basso k sono simili ad aggregatori.
Non efficienti negli spazi con molte dimensioni.
I voti possono anche essere pesati in base alle distanze.
*** DBScan
Usare NN non per la predizione ma per la classificazione.
- Density: numero di punti nel raggio ~Eps~
- Core point: ha minimo ~MinPts~ nel raggio (interior del cluster)
- Border point: meno di MinPts punti in Eps, ma vicino di CorePoint
- Noise point: ne` border point ne core point.
#+BEGIN_SRC
Label all point as Core, Border, Noise
Elimina i Noise points
Metti un arco fra i core-points nel raggio Eps l'uno dall'altro
- ogni gruppo di punti connessi e` un cluster
Assegna ogni Border point ad un cluster
#+END_SRC
Buono per classificare cluster di differente grandezza e forma.
Non funziona bene sulle densita` variabili e sui punti ad alta
dimensionalita`.
*** Misure
- Coesione: quanto gli oggetti son closely related nel cluster
- Separazione: quanto distinto o ben separato il cluster dagli altri
Dato Sum of Squared Error
- Within cluster Sum of Squares: $WSS = \sum_i \sum_{x\in
C_i}(x-m_i)^2$
- Between cluster Sum of Squares: $BSS = \sum_i |C_i|(m-m_i)^2$
BSS + WSS e` costante. Il problema dei K-Means consiste nel trovare
una soluzione che minimizza WSS (o massimizza BSS): cluster coesi.
*** Algoritmo di LLoyd
- Itera partizionando in base al centroide e ricalcola il centroide.
- Converge ad un punto stazionario ma non garantisce che la soluzione
sia il minimo globale.
- KMeans(K,D) usando Dis₂
#+BEGIN_SRC
Input data D⊆Rᵈ; numero di cluster k.
Inizializza casualmente K vettori μ₁, ..., μₖ ∈Rᵈ
do:
assegna ogni x∈D a argminⱼ Dis₂(x,μⱼ)
for j = 1 to k:
Dⱼ ← {x∈D| x assigned to cluster j}
μⱼ = 1/|Dⱼ| ∑x (x∈Dⱼ)
until (no change in μ₁, ..., μₖ
ritorna μ₁, ..., μₖ
#+END_SRC

View file

@ -30,6 +30,7 @@
+ [ ] Vedi bene gini index + [ ] Vedi bene gini index
+ [ ] Ranking e regression trees + [ ] Ranking e regression trees
+ [ ] subgroup discovery and ongoing + [ ] subgroup discovery and ongoing
+ [ ] Voronoi
- [X] Esercizi [3/3] - [X] Esercizi [3/3]
- [X] es1: perche` min_impurity decrease - [X] es1: perche` min_impurity decrease
- [X] chiedi a Galla`, Marco e Naz quali sono tutti gli es - [X] chiedi a Galla`, Marco e Naz quali sono tutti gli es