teoria aa

2020-07-04 19:00:26 +02:00 · 2020-07-04 19:00:26 +02:00 · 5ef80769a2
commit 5ef80769a2
parent 8a0df09bcb
10 changed files with 82 additions and 1 deletions
--- a/anno3/apprendimento_automatico/ltximg/org-ltximg_0e1c9440e783e646e4729cf61b345e7f974649f2.png
+++ b/anno3/apprendimento_automatico/ltximg/org-ltximg_0e1c9440e783e646e4729cf61b345e7f974649f2.png
--- a/anno3/apprendimento_automatico/ltximg/org-ltximg_0f268a181a712051fcdc6bf9e6a510e617b40b56.png
+++ b/anno3/apprendimento_automatico/ltximg/org-ltximg_0f268a181a712051fcdc6bf9e6a510e617b40b56.png
--- a/anno3/apprendimento_automatico/ltximg/org-ltximg_0f991a07962fd44296c8355baa217513b26c4534.png
+++ b/anno3/apprendimento_automatico/ltximg/org-ltximg_0f991a07962fd44296c8355baa217513b26c4534.png
--- a/anno3/apprendimento_automatico/ltximg/org-ltximg_4af2879ef34019d2bbdcd34bcff642f8417cd926.png
+++ b/anno3/apprendimento_automatico/ltximg/org-ltximg_4af2879ef34019d2bbdcd34bcff642f8417cd926.png
--- a/anno3/apprendimento_automatico/ltximg/org-ltximg_7790703110c7dcaaaf53ea0dec29263c293b3f45.png
+++ b/anno3/apprendimento_automatico/ltximg/org-ltximg_7790703110c7dcaaaf53ea0dec29263c293b3f45.png
--- a/anno3/apprendimento_automatico/ltximg/org-ltximg_b8068bf01d527bbf50f8daac611ebdf04ca254e1.png
+++ b/anno3/apprendimento_automatico/ltximg/org-ltximg_b8068bf01d527bbf50f8daac611ebdf04ca254e1.png
--- a/anno3/apprendimento_automatico/ltximg/org-ltximg_ba92cafc4a603694479ae4deee97c53a6f0f0bff.png
+++ b/anno3/apprendimento_automatico/ltximg/org-ltximg_ba92cafc4a603694479ae4deee97c53a6f0f0bff.png
--- a/anno3/apprendimento_automatico/ltximg/org-ltximg_cc6dffb840116a0fe33d0f6972c95ea2f02bcbcf.png
+++ b/anno3/apprendimento_automatico/ltximg/org-ltximg_cc6dffb840116a0fe33d0f6972c95ea2f02bcbcf.png
--- a/anno3/apprendimento_automatico/preparazione.org
+++ b/anno3/apprendimento_automatico/preparazione.org
@ -474,4 +474,84 @@ coverage non convessa.
 I sottogruppi sono un subset dell'instance space la cui class
 distribution e` differente da quella di D.
 Mapping ĝ: X → C; D = (xᵢ, l(xᵢ))ⁱ
-
+** Distance models
 La distanza e` una misura di similarita`: minore la distanza, maggiore
 la similarita`.
 Se X∈Rᵈ definiamo la Minkowsi distance: $Dis_p(x,y) =
 (\sum_{j=1}^{d}{|x_j-y_j|^p})^{\frac{1}{p}} = \Vert{x-y}\Vert_p$ (‖z‖
 e` la p-norm).
 - Se p = 2 -> distanza euclidea.
  | Dis₂(x,y) = sqrt ((x-y)ᵀ(x-y))
 - Manhattan:
  | Dis₁(x,y) = ∑|xⱼ-yⱼ|
 - Chebyshev: $Dis_{\infty}(x,y) = max_j|x_j-y_j|$
 - 0-norm:
  | ∑ I[xⱼ≠yⱼ]
 - Jaccard distance for aysmmetric problems
 - Mahalanobis (elliptical?): $Dis_M(x,y|\sum) = \sqrt{
  (x-y)^T\sum^-1(x-y) }$
  Dis₂ = Disₘ quando ∑ e` l'identity matrix. Normalmente ∑ e`
  l'inverso della matrice di covarianza: M = ∑⁻¹.
  La distanza di Mahal. tiene conto della distanza fra le features e
  grazie a ∑ riduce le distanze nella direzione di spread.
 Generalizzando:
 Dato un'instance space X una metrica della distanza Dis: X×X→R e` tale
 che ∀x,y,z∈X:
 - Dis(x,x) = 0
 - Dis(x,y) > 0 if x≠y
 - Dis(x,y) = Dis(y,x)
 - Dis(x,z) ≤ Dis(x,y) + Dis(y,z) (no detours)
 *** Distanze e medie
 Si dimostra (slide 343) che μ e` il punto nello spazio Euclideo che ha
 ∑distanza minimo.
 Il centroide rispetto al medioide puo` anche essere un punto fittizio.
 Un classificatore lineare molto basico si puo` costruire classificando
 ogni istanza.
 *** KNN
 A KNN cls takes a vote for each of the k nearest exemplars and
 predicts the class.
 In pratica il cls prendere k voti dai piu` vicini. All'aumentare di K
 aumenta il bias e diminuisce la varianza. Con basso k sono simili ad aggregatori.
 Non efficienti negli spazi con molte dimensioni.
 I voti possono anche essere pesati in base alle distanze.
 *** DBScan
 Usare NN non per la predizione ma per la classificazione.
 - Density: numero di punti nel raggio ~Eps~
 - Core point: ha minimo ~MinPts~ nel raggio (interior del cluster)
 - Border point: meno di MinPts punti in Eps, ma vicino di CorePoint
 - Noise point: ne` border point ne core point.
 #+BEGIN_SRC
 Label all point as Core, Border, Noise
 Elimina i Noise points
 Metti un arco fra i core-points nel raggio Eps l'uno dall'altro
 - ogni gruppo di punti connessi e` un cluster
 Assegna ogni Border point ad un cluster
 #+END_SRC
 Buono per classificare cluster di differente grandezza e forma.
 Non funziona bene sulle densita` variabili e sui punti ad alta
 dimensionalita`.
 *** Misure
 - Coesione: quanto gli oggetti son closely related nel cluster
 - Separazione: quanto distinto o ben separato il cluster dagli altri
 Dato Sum of Squared Error
 - Within cluster Sum of Squares: $WSS = \sum_i \sum_{x\in
  C_i}(x-m_i)^2$
 - Between cluster Sum of Squares: $BSS = \sum_i |C_i|(m-m_i)^2$
 BSS + WSS e` costante. Il problema dei K-Means consiste nel trovare
 una soluzione che minimizza WSS (o massimizza BSS): cluster coesi.
 *** Algoritmo di LLoyd
 - Itera partizionando in base al centroide e ricalcola il centroide.
 - Converge ad un punto stazionario ma non garantisce che la soluzione
  sia il minimo globale.
 - KMeans(K,D) usando Dis₂
 #+BEGIN_SRC
 Input data D⊆Rᵈ; numero di cluster k.
 Inizializza casualmente K vettori μ₁, ..., μₖ ∈Rᵈ
 do:
    assegna ogni x∈D a argminⱼ Dis₂(x,μⱼ)
    for j = 1 to k:
        Dⱼ ← {x∈D| x assigned to cluster j}
        μⱼ = 1/|Dⱼ| ∑x    (x∈Dⱼ)
 until (no change in μ₁, ..., μₖ
 ritorna μ₁, ..., μₖ
 #+END_SRC
--- a/todo.org
+++ b/todo.org
@ -30,6 +30,7 @@
  + [ ] Vedi bene gini index
  + [ ] Ranking e regression trees
  + [ ] subgroup discovery and ongoing
  + [ ] Voronoi
 - [X] Esercizi [3/3]
  - [X] es1: perche` min_impurity decrease
  - [X] chiedi a Galla`, Marco e Naz quali sono tutti gli es