From 5ef80769a20af4472426d6a563c3135cde587123 Mon Sep 17 00:00:00 2001 From: Francesco Mecca Date: Sat, 4 Jul 2020 19:00:26 +0200 Subject: [PATCH] teoria aa --- ...1c9440e783e646e4729cf61b345e7f974649f2.png | Bin 0 -> 650 bytes ...268a181a712051fcdc6bf9e6a510e617b40b56.png | Bin 0 -> 832 bytes ...991a07962fd44296c8355baa217513b26c4534.png | Bin 0 -> 931 bytes ...f2879ef34019d2bbdcd34bcff642f8417cd926.png | Bin 0 -> 899 bytes ...90703110c7dcaaaf53ea0dec29263c293b3f45.png | Bin 0 -> 697 bytes ...068bf01d527bbf50f8daac611ebdf04ca254e1.png | Bin 0 -> 697 bytes ...92cafc4a603694479ae4deee97c53a6f0f0bff.png | Bin 0 -> 930 bytes ...6dffb840116a0fe33d0f6972c95ea2f02bcbcf.png | Bin 0 -> 667 bytes .../apprendimento_automatico/preparazione.org | 82 +++++++++++++++++- todo.org | 1 + 10 files changed, 82 insertions(+), 1 deletion(-) create mode 100644 anno3/apprendimento_automatico/ltximg/org-ltximg_0e1c9440e783e646e4729cf61b345e7f974649f2.png create mode 100644 anno3/apprendimento_automatico/ltximg/org-ltximg_0f268a181a712051fcdc6bf9e6a510e617b40b56.png create mode 100644 anno3/apprendimento_automatico/ltximg/org-ltximg_0f991a07962fd44296c8355baa217513b26c4534.png create mode 100644 anno3/apprendimento_automatico/ltximg/org-ltximg_4af2879ef34019d2bbdcd34bcff642f8417cd926.png create mode 100644 anno3/apprendimento_automatico/ltximg/org-ltximg_7790703110c7dcaaaf53ea0dec29263c293b3f45.png create mode 100644 anno3/apprendimento_automatico/ltximg/org-ltximg_b8068bf01d527bbf50f8daac611ebdf04ca254e1.png create mode 100644 anno3/apprendimento_automatico/ltximg/org-ltximg_ba92cafc4a603694479ae4deee97c53a6f0f0bff.png create mode 100644 anno3/apprendimento_automatico/ltximg/org-ltximg_cc6dffb840116a0fe33d0f6972c95ea2f02bcbcf.png diff --git a/anno3/apprendimento_automatico/ltximg/org-ltximg_0e1c9440e783e646e4729cf61b345e7f974649f2.png b/anno3/apprendimento_automatico/ltximg/org-ltximg_0e1c9440e783e646e4729cf61b345e7f974649f2.png new file mode 100644 index 0000000000000000000000000000000000000000..3e22b1af2b0299219c381fc6981d9041f855d21a GIT binary patch literal 650 zcmV;50(Jd~P)QaxxCK@|SnoxM$NZx#(HBMgZs5`-g5 znlzchBZ3Iax+0|Uu(1-h3qp!31Z_fMo9Y@1e~Kk4DPpk@PzWcikQ7Nk7qQdgtZjU= zw{v%f-7XJy-uu4y=G!-K1~?zP_AWgiAz;tRs-(W|d*1ICkxB?hQ*=pF-AFn50;1wF#1Xqi~54-yquV;0eB=mhudbM`fQ>DAf|6egKvz zskXu;<^p$!Hk-JGMOZL>P?OrO$2tn|U7#*Wic8I%@lNEVR6o(3U%-PM!1^o3D(uS| z1b7MYmg&q8@$A)e30zovAHn>S0LwE}Gv|5UlB!)+i?V=E<=zr*>P)5| zM`IYFB(GS9K@IS20>|B)87vKb+Q8nTt{^Q@6L?Fr=+g=4hY|&1Kquehk(32|p+Pm$ zv94&80}J>?;DojdSKuZ#c%m~SG@zcrZBKx%uS54ZW|hmJWCcG? kyEFt*5C(Z27u0|5ACK5^po;k6{Qv*}07*qoM6N<$f|%hOkpKVy literal 0 HcmV?d00001 diff --git a/anno3/apprendimento_automatico/ltximg/org-ltximg_0f268a181a712051fcdc6bf9e6a510e617b40b56.png b/anno3/apprendimento_automatico/ltximg/org-ltximg_0f268a181a712051fcdc6bf9e6a510e617b40b56.png new file mode 100644 index 0000000000000000000000000000000000000000..5b15eb1fbe9d3753732de8c87d517131ee18b283 GIT binary patch literal 832 zcmV-G1Hb%R55SUKp1^oVmpaTyz~bcC=5j)Xo?sr zQA-4MC`077EC|)=5)~FN3^Xn3#)ySbg$je!1+iHTB#0~#42(ql02Fm$U?2i9pjLwK zd_Mc!N}YPc-S^)2zW4dgX9FiU*pC~X(aG5z?_^@e3XYc?$(nXXxoBh{7pbZ^p@CtC zWt!bA6cKkiH@?_};bp1)EQAXcr3vyp!dnrrnJCr)4)cRo7@H^sDm_$y3td5JSoNW* z1n5ia|5WRVi|C!f(QMIBxo%=3UFci3Y1|fuM%_@nv)1F0nep2UAa>wg6?&I z?ju1LeeAEcDK1M%vN3kI zVl(d{HUiuZ^Z?GyNvew8RDBod(`&8OYO?@IbpNscq=PzA6$$CND#3S*#bG>AvsDy} zQ=z1|7k63%&IH?F-+XLEVkrYSi|ccUUy ze5Pi5IIGjSY4n_q@ZwH2U>ete^Iy?*j6LW!FyL2MbGCW2e!4S~+`$)(&SsFQNJwL` z93I-)3UC^BoTQ0+ai`bxaDa+(-lng^P}#g>og_tGpK|aDWYRiv49;e0R96at)}StoR|9m0000< KMNUMnLSTZ1Y-$Ps literal 0 HcmV?d00001 diff --git a/anno3/apprendimento_automatico/ltximg/org-ltximg_0f991a07962fd44296c8355baa217513b26c4534.png b/anno3/apprendimento_automatico/ltximg/org-ltximg_0f991a07962fd44296c8355baa217513b26c4534.png new file mode 100644 index 0000000000000000000000000000000000000000..c6337da37bd1666a45b0a3ec539f61ad9838bdc9 GIT binary patch literal 931 zcmV;U16=%xP)l+SAuK@`WoZhmZ%jSWJj2p%F<4;4%4 z)*n#N1uF^_4NdDs#HE+ukHd=eph1a$f$OD6@eq1ZZ;RDN?7?6WL83;liYy-V;K86? zqy>F%W+$6%dg!6=@aDZYpZUJo*PP*F_D0Vc@4O`Y?@a-IL6qRB^Pv&EV;XPvIO0h1pAdR!~}4X)6p)hkFv&dC?Nbkse|c^t`(YCG(4z_U@ak@LCoj-AC0s5Q|| zvSiFga)?G{X-h>kQg`i>$PK5Xtilu`v@F+Lnv*eaMvga~+ z&7Q$c7pL5$3+vbbt?(Z8INUu}AqUjyikPN(l%(vLq;pG8mF+RKX~7s7_dBv8BzIT^ zqI;BNahALR>~iOzeQ_}Br7xo=ujNa;POGN)1+CNP2nz@Cq&S^8Hb^FWg>GyT0e+1;k3^VRv#rsY8h&460;W1+==Ubb}g;lVpGI)HqOb_mv%ZFaP?;74+JYhh^kO?}+Ya!~#9M z!Gy*Z>b&!k8_=rH?`JK#chcf5RRykXZ$(KK?~o)?b6y+tt9-G@peL)s-3@LV69*?I zq>EcY;s>J~@+r_6N?YP#C`f4V!;pHBxI9!<-D?fsw}1;G*Rh%?aQ8oyYTwYWC^^!N zl_u#R$T0{{R3{V=}k0000mP)t-s0002& z@AM824}O1wZEta2Utx`pl0QE|%+J#wA0WNI!%k07tgo`&-{hU2qb@Hn#TCnU00009 za7bBm000ie000ie0hKEb8vp1oofP-i~~4abTG!H0RTo_zjh|z(7 z%6q?GuPs<^XeIuJckg}Q=lgs2`?Uu^+SRl>(@HxQm`-oa<~*6rp59$fZ_VT^R5IDq zn^iNtHO#&ChH1lU*;S@N6WD+etG-nQ& zza>G{#oFjB<%XmCG+6m0^nxSXLCkyTM`><4{K`xd^PBsDMWQq~kwlY;*2^uX;@rT5 zhjX6h!9I0}O#YLiOM`J;K8Qtn9W2Z0C8a?31dKveyQ)-*#WWT%B#OWyavGdSVhq^p zO+oqM;=W(FilV8QBWzKs&Gd57j7hFg6;Xs9F?bpKG`{~q%j%Xis>UOeiNL}sUv&}* zSU@+90|!20-qx3)nZO5y9C>?648|Mw(`o7_F1-L=0#|@GnB3yUG&6EZi^yqkGWnPu zCLa3h)SjuWRFPXz`>TKO9XWSU4t970rN&XNHjiFv^rCO9v{KiYju@vdixVf3o$VLT z0wdnxaTorp)f!3_eSX2mYm`ph6@&Q-=vU`QdlhXS{1fBj3!%t#$ViLm>Boi}k%Cd& zw?+l1iNb(_Niq0>sAGGDmUuxV6V;D!Oa_Ot?>)@Kh{5Z ZW*aEcxStf;_qzZ9002ovPDHLkV1kZTp8fy; literal 0 HcmV?d00001 diff --git a/anno3/apprendimento_automatico/ltximg/org-ltximg_7790703110c7dcaaaf53ea0dec29263c293b3f45.png b/anno3/apprendimento_automatico/ltximg/org-ltximg_7790703110c7dcaaaf53ea0dec29263c293b3f45.png new file mode 100644 index 0000000000000000000000000000000000000000..89bcbdf55b509f23e43f2745f8f126ab99e11904 GIT binary patch literal 697 zcmV;q0!ICbP)tK-QVPGZ*iTUqh4QO%+J#q5ed=x}700009 za7bBm000ie000ie0hKEb8vplTB#UP!Pxe&2Dy0HqWizi=loT{37($ zqF4_edRv4NSQQrWD&(@%R)qEB#X|~8sZp4(2L-uvLFZ| zvd(*(Nm91egPp^h-~4BG-ej@?_SsIZ#rxb5Xj{(SJ>UNd!wVM!D#$2TZP~dXMGw$D z9KEF7sFm+QxK|^5Y_`+1-Xhc+@<@pSwgrYAp42K}jN=&$AL}T^!okg~zqkOG5@Lu;K_fY|bJ8ZoLJ{_iav+H-|XL zh!yAo7S6A6sNJ4le(q2toCn|Nwjpz1H~=blJHXNr(ocn9xGbxeT9d zuh+NcRe?NyqNUHAX+mo#=_TY8bIm4IsQVg+U< zrMWz)zyIQAx~4}~eVP`g9?<|A`O<{1+j1p;F+tK-QVPGZ*iTUqh4QO%+J#q5ed=x}700009 za7bBm000ie000ie0hKEb8vplTB#UP!Pxe&2Dy0HqWizi=loT{37($ zqF4_edRv4NSQQrWD&(@%R)qEB#X|~8sZp4(2L-uvLFZ| zvd(*(Nm91egPp^h-~4BG-ej@?_SsIZ#rxb5Xj{(SJ>UNd!wVM!D#$2TZP~dXMGw$D z9KEF7sFm+QxK|^5Y_`+1-Xhc+@<@pSwgrYAp42K}jN=&$AL}T^!okg~zqkOG5@Lu;K_fY|bJ8ZoLJ{_iav+H-|XL zh!yAo7S6A6sNJ4le(q2toCn|Nwjpz1H~=blJHXNr(ocn9xGbxeT9d zuh+NcRe?NyqNUHAX+mo#=_TY8bIm4IsQVg+U< zrMWz)zyIQAx~4}~eVP`g9?<|A`O<{1+j1p;F+NFg3%&{95!Ni5R)ir0%9W(#a5BULfb9!(_u>XB3XZL4&48J%Imj1rHWN*YAyjwo_4a4&hQ-PTZE6RETc46Bc8=4}i#pO$Np7K^YamnE05tFgxOJiVqX&JjSRm$qn)>$!imu_QB7>n{SQ!&O*c zs1|u)i3Ld+!ZLEw<40c5;|+U;l@&JtrhR_|u-+ctjJrh)^A6JNrg}FD)YvWw(wE$t)M1ugokp#w^oLQ17>kYim*hBPCh3zP z26|_&0t?~!T9xLeP|9v@HSikv`Lao0ptb^?<#iqK$`?|W+`&Y@aNz+4WBs&LR*}9W z%Yep_n555xY8cN=Bx4T{beHpKGJ^c?*~qS06B84m)R$=<4P_R6GEPK;Th>I5VCV8YU zV+ZfzopZlVUhccVKlVY0cmf}x{)o?A3SXF9?m-KxyqQ)MI1=~>9j~Zuq7e(#ErCN7 zojM<{Cy#_4q;%Ie; zqCUr}ppU2s-rplCC8bi$P6|i=ZX$6 zi#cHWGuENS=mKY9QHA1eL%5^tHsja0i%-A-qcpV^NVK%&iG&D+-_gMEHa$jHTI*ha zfi`Y#n3-uo3YWmXmDO|_Spy3X9)UPr_j=>!N7Ao3e~~f#r;8wOSZ3-SQQ+8%-FO1jwkj8w><@XA5$=zi)x*u zYfKKyR+&$qk`|4>^QbaT{bANS}* zbAF1+TV*R@Wdjel+*1|vhy0&OUa<}!6pdEK`U`)=c|&wQT;Biy002ovPDHLkV1l%O BE~)?k literal 0 HcmV?d00001 diff --git a/anno3/apprendimento_automatico/preparazione.org b/anno3/apprendimento_automatico/preparazione.org index 3a33a81..526a8eb 100644 --- a/anno3/apprendimento_automatico/preparazione.org +++ b/anno3/apprendimento_automatico/preparazione.org @@ -474,4 +474,84 @@ coverage non convessa. I sottogruppi sono un subset dell'instance space la cui class distribution e` differente da quella di D. Mapping ĝ: X → C; D = (xᵢ, l(xᵢ))ⁱ - +** Distance models +La distanza e` una misura di similarita`: minore la distanza, maggiore +la similarita`. +Se X∈Rᵈ definiamo la Minkowsi distance: $Dis_p(x,y) = +(\sum_{j=1}^{d}{|x_j-y_j|^p})^{\frac{1}{p}} = \Vert{x-y}\Vert_p$ (‖z‖ +e` la p-norm). +- Se p = 2 -> distanza euclidea. + | Dis₂(x,y) = sqrt ((x-y)ᵀ(x-y)) +- Manhattan: + | Dis₁(x,y) = ∑|xⱼ-yⱼ| +- Chebyshev: $Dis_{\infty}(x,y) = max_j|x_j-y_j|$ +- 0-norm: + | ∑ I[xⱼ≠yⱼ] +- Jaccard distance for aysmmetric problems +- Mahalanobis (elliptical?): $Dis_M(x,y|\sum) = \sqrt{ + (x-y)^T\sum^-1(x-y) }$ + Dis₂ = Disₘ quando ∑ e` l'identity matrix. Normalmente ∑ e` + l'inverso della matrice di covarianza: M = ∑⁻¹. + La distanza di Mahal. tiene conto della distanza fra le features e + grazie a ∑ riduce le distanze nella direzione di spread. +Generalizzando: +Dato un'instance space X una metrica della distanza Dis: X×X→R e` tale +che ∀x,y,z∈X: +- Dis(x,x) = 0 +- Dis(x,y) > 0 if x≠y +- Dis(x,y) = Dis(y,x) +- Dis(x,z) ≤ Dis(x,y) + Dis(y,z) (no detours) +*** Distanze e medie +Si dimostra (slide 343) che μ e` il punto nello spazio Euclideo che ha +∑distanza minimo. +Il centroide rispetto al medioide puo` anche essere un punto fittizio. +Un classificatore lineare molto basico si puo` costruire classificando +ogni istanza. +*** KNN +A KNN cls takes a vote for each of the k nearest exemplars and +predicts the class. +In pratica il cls prendere k voti dai piu` vicini. All'aumentare di K +aumenta il bias e diminuisce la varianza. Con basso k sono simili ad aggregatori. +Non efficienti negli spazi con molte dimensioni. +I voti possono anche essere pesati in base alle distanze. +*** DBScan +Usare NN non per la predizione ma per la classificazione. +- Density: numero di punti nel raggio ~Eps~ +- Core point: ha minimo ~MinPts~ nel raggio (interior del cluster) +- Border point: meno di MinPts punti in Eps, ma vicino di CorePoint +- Noise point: ne` border point ne core point. +#+BEGIN_SRC +Label all point as Core, Border, Noise +Elimina i Noise points +Metti un arco fra i core-points nel raggio Eps l'uno dall'altro +- ogni gruppo di punti connessi e` un cluster +Assegna ogni Border point ad un cluster +#+END_SRC +Buono per classificare cluster di differente grandezza e forma. +Non funziona bene sulle densita` variabili e sui punti ad alta +dimensionalita`. +*** Misure +- Coesione: quanto gli oggetti son closely related nel cluster +- Separazione: quanto distinto o ben separato il cluster dagli altri +Dato Sum of Squared Error +- Within cluster Sum of Squares: $WSS = \sum_i \sum_{x\in + C_i}(x-m_i)^2$ +- Between cluster Sum of Squares: $BSS = \sum_i |C_i|(m-m_i)^2$ +BSS + WSS e` costante. Il problema dei K-Means consiste nel trovare +una soluzione che minimizza WSS (o massimizza BSS): cluster coesi. +*** Algoritmo di LLoyd +- Itera partizionando in base al centroide e ricalcola il centroide. +- Converge ad un punto stazionario ma non garantisce che la soluzione + sia il minimo globale. +- KMeans(K,D) usando Dis₂ +#+BEGIN_SRC +Input data D⊆Rᵈ; numero di cluster k. +Inizializza casualmente K vettori μ₁, ..., μₖ ∈Rᵈ +do: + assegna ogni x∈D a argminⱼ Dis₂(x,μⱼ) + for j = 1 to k: + Dⱼ ← {x∈D| x assigned to cluster j} + μⱼ = 1/|Dⱼ| ∑x (x∈Dⱼ) +until (no change in μ₁, ..., μₖ +ritorna μ₁, ..., μₖ +#+END_SRC diff --git a/todo.org b/todo.org index 78bf9eb..f0258c7 100644 --- a/todo.org +++ b/todo.org @@ -30,6 +30,7 @@ + [ ] Vedi bene gini index + [ ] Ranking e regression trees + [ ] subgroup discovery and ongoing + + [ ] Voronoi - [X] Esercizi [3/3] - [X] es1: perche` min_impurity decrease - [X] chiedi a Galla`, Marco e Naz quali sono tutti gli es