diff --git a/anno3/apprendimento_automatico/ltximg/org-ltximg_0e1c9440e783e646e4729cf61b345e7f974649f2.png b/anno3/apprendimento_automatico/ltximg/org-ltximg_0e1c9440e783e646e4729cf61b345e7f974649f2.png new file mode 100644 index 0000000..3e22b1a Binary files /dev/null and b/anno3/apprendimento_automatico/ltximg/org-ltximg_0e1c9440e783e646e4729cf61b345e7f974649f2.png differ diff --git a/anno3/apprendimento_automatico/ltximg/org-ltximg_0f268a181a712051fcdc6bf9e6a510e617b40b56.png b/anno3/apprendimento_automatico/ltximg/org-ltximg_0f268a181a712051fcdc6bf9e6a510e617b40b56.png new file mode 100644 index 0000000..5b15eb1 Binary files /dev/null and b/anno3/apprendimento_automatico/ltximg/org-ltximg_0f268a181a712051fcdc6bf9e6a510e617b40b56.png differ diff --git a/anno3/apprendimento_automatico/ltximg/org-ltximg_0f991a07962fd44296c8355baa217513b26c4534.png b/anno3/apprendimento_automatico/ltximg/org-ltximg_0f991a07962fd44296c8355baa217513b26c4534.png new file mode 100644 index 0000000..c6337da Binary files /dev/null and b/anno3/apprendimento_automatico/ltximg/org-ltximg_0f991a07962fd44296c8355baa217513b26c4534.png differ diff --git a/anno3/apprendimento_automatico/ltximg/org-ltximg_4af2879ef34019d2bbdcd34bcff642f8417cd926.png b/anno3/apprendimento_automatico/ltximg/org-ltximg_4af2879ef34019d2bbdcd34bcff642f8417cd926.png new file mode 100644 index 0000000..0a3343b Binary files /dev/null and b/anno3/apprendimento_automatico/ltximg/org-ltximg_4af2879ef34019d2bbdcd34bcff642f8417cd926.png differ diff --git a/anno3/apprendimento_automatico/ltximg/org-ltximg_7790703110c7dcaaaf53ea0dec29263c293b3f45.png b/anno3/apprendimento_automatico/ltximg/org-ltximg_7790703110c7dcaaaf53ea0dec29263c293b3f45.png new file mode 100644 index 0000000..89bcbdf Binary files /dev/null and b/anno3/apprendimento_automatico/ltximg/org-ltximg_7790703110c7dcaaaf53ea0dec29263c293b3f45.png differ diff --git a/anno3/apprendimento_automatico/ltximg/org-ltximg_b8068bf01d527bbf50f8daac611ebdf04ca254e1.png b/anno3/apprendimento_automatico/ltximg/org-ltximg_b8068bf01d527bbf50f8daac611ebdf04ca254e1.png new file mode 100644 index 0000000..89bcbdf Binary files /dev/null and b/anno3/apprendimento_automatico/ltximg/org-ltximg_b8068bf01d527bbf50f8daac611ebdf04ca254e1.png differ diff --git a/anno3/apprendimento_automatico/ltximg/org-ltximg_ba92cafc4a603694479ae4deee97c53a6f0f0bff.png b/anno3/apprendimento_automatico/ltximg/org-ltximg_ba92cafc4a603694479ae4deee97c53a6f0f0bff.png new file mode 100644 index 0000000..8cee3c0 Binary files /dev/null and b/anno3/apprendimento_automatico/ltximg/org-ltximg_ba92cafc4a603694479ae4deee97c53a6f0f0bff.png differ diff --git a/anno3/apprendimento_automatico/ltximg/org-ltximg_cc6dffb840116a0fe33d0f6972c95ea2f02bcbcf.png b/anno3/apprendimento_automatico/ltximg/org-ltximg_cc6dffb840116a0fe33d0f6972c95ea2f02bcbcf.png new file mode 100644 index 0000000..e3c3f2d Binary files /dev/null and b/anno3/apprendimento_automatico/ltximg/org-ltximg_cc6dffb840116a0fe33d0f6972c95ea2f02bcbcf.png differ diff --git a/anno3/apprendimento_automatico/preparazione.org b/anno3/apprendimento_automatico/preparazione.org index 3a33a81..526a8eb 100644 --- a/anno3/apprendimento_automatico/preparazione.org +++ b/anno3/apprendimento_automatico/preparazione.org @@ -474,4 +474,84 @@ coverage non convessa. I sottogruppi sono un subset dell'instance space la cui class distribution e` differente da quella di D. Mapping ĝ: X → C; D = (xᵢ, l(xᵢ))ⁱ - +** Distance models +La distanza e` una misura di similarita`: minore la distanza, maggiore +la similarita`. +Se X∈Rᵈ definiamo la Minkowsi distance: $Dis_p(x,y) = +(\sum_{j=1}^{d}{|x_j-y_j|^p})^{\frac{1}{p}} = \Vert{x-y}\Vert_p$ (‖z‖ +e` la p-norm). +- Se p = 2 -> distanza euclidea. + | Dis₂(x,y) = sqrt ((x-y)ᵀ(x-y)) +- Manhattan: + | Dis₁(x,y) = ∑|xⱼ-yⱼ| +- Chebyshev: $Dis_{\infty}(x,y) = max_j|x_j-y_j|$ +- 0-norm: + | ∑ I[xⱼ≠yⱼ] +- Jaccard distance for aysmmetric problems +- Mahalanobis (elliptical?): $Dis_M(x,y|\sum) = \sqrt{ + (x-y)^T\sum^-1(x-y) }$ + Dis₂ = Disₘ quando ∑ e` l'identity matrix. Normalmente ∑ e` + l'inverso della matrice di covarianza: M = ∑⁻¹. + La distanza di Mahal. tiene conto della distanza fra le features e + grazie a ∑ riduce le distanze nella direzione di spread. +Generalizzando: +Dato un'instance space X una metrica della distanza Dis: X×X→R e` tale +che ∀x,y,z∈X: +- Dis(x,x) = 0 +- Dis(x,y) > 0 if x≠y +- Dis(x,y) = Dis(y,x) +- Dis(x,z) ≤ Dis(x,y) + Dis(y,z) (no detours) +*** Distanze e medie +Si dimostra (slide 343) che μ e` il punto nello spazio Euclideo che ha +∑distanza minimo. +Il centroide rispetto al medioide puo` anche essere un punto fittizio. +Un classificatore lineare molto basico si puo` costruire classificando +ogni istanza. +*** KNN +A KNN cls takes a vote for each of the k nearest exemplars and +predicts the class. +In pratica il cls prendere k voti dai piu` vicini. All'aumentare di K +aumenta il bias e diminuisce la varianza. Con basso k sono simili ad aggregatori. +Non efficienti negli spazi con molte dimensioni. +I voti possono anche essere pesati in base alle distanze. +*** DBScan +Usare NN non per la predizione ma per la classificazione. +- Density: numero di punti nel raggio ~Eps~ +- Core point: ha minimo ~MinPts~ nel raggio (interior del cluster) +- Border point: meno di MinPts punti in Eps, ma vicino di CorePoint +- Noise point: ne` border point ne core point. +#+BEGIN_SRC +Label all point as Core, Border, Noise +Elimina i Noise points +Metti un arco fra i core-points nel raggio Eps l'uno dall'altro +- ogni gruppo di punti connessi e` un cluster +Assegna ogni Border point ad un cluster +#+END_SRC +Buono per classificare cluster di differente grandezza e forma. +Non funziona bene sulle densita` variabili e sui punti ad alta +dimensionalita`. +*** Misure +- Coesione: quanto gli oggetti son closely related nel cluster +- Separazione: quanto distinto o ben separato il cluster dagli altri +Dato Sum of Squared Error +- Within cluster Sum of Squares: $WSS = \sum_i \sum_{x\in + C_i}(x-m_i)^2$ +- Between cluster Sum of Squares: $BSS = \sum_i |C_i|(m-m_i)^2$ +BSS + WSS e` costante. Il problema dei K-Means consiste nel trovare +una soluzione che minimizza WSS (o massimizza BSS): cluster coesi. +*** Algoritmo di LLoyd +- Itera partizionando in base al centroide e ricalcola il centroide. +- Converge ad un punto stazionario ma non garantisce che la soluzione + sia il minimo globale. +- KMeans(K,D) usando Dis₂ +#+BEGIN_SRC +Input data D⊆Rᵈ; numero di cluster k. +Inizializza casualmente K vettori μ₁, ..., μₖ ∈Rᵈ +do: + assegna ogni x∈D a argminⱼ Dis₂(x,μⱼ) + for j = 1 to k: + Dⱼ ← {x∈D| x assigned to cluster j} + μⱼ = 1/|Dⱼ| ∑x (x∈Dⱼ) +until (no change in μ₁, ..., μₖ +ritorna μ₁, ..., μₖ +#+END_SRC diff --git a/todo.org b/todo.org index 78bf9eb..f0258c7 100644 --- a/todo.org +++ b/todo.org @@ -30,6 +30,7 @@ + [ ] Vedi bene gini index + [ ] Ranking e regression trees + [ ] subgroup discovery and ongoing + + [ ] Voronoi - [X] Esercizi [3/3] - [X] es1: perche` min_impurity decrease - [X] chiedi a Galla`, Marco e Naz quali sono tutti gli es