Commit 0c309193 authored by Carsten Eie Frigaard's avatar Carsten Eie Frigaard
Browse files

update

parent 3ebe91a7
......@@ -5,4 +5,4 @@
__pycache__
Old
Html
Etc/CourseBuilder/Demos
......@@ -882,9 +882,6 @@ Project}, og samler op på dette brede kapitel.}
CV), for derefter at bruge "\link{The Map, [HOME]/Etc/ml_supervised_map.pdf}"
til at komme igennem alle grundliggende koncepter i \i{§ 2}.}
\p{Da alle kerne-koncepter i supervised ML nu kendes, kan det hele konkret
sammensættes i en samlet processerings-\i{pipeline}. Programmerings-teknisk
ser vi derfor til sidst på Scikit-learns Pipelines.}
\itemize*{
\item{
......@@ -899,7 +896,6 @@ ser vi derfor til sidst på Scikit-learns Pipelines.}
\itemize{
\item{Generel genlæsning og repetition af \i{§ 2}}
\item{K-fold Cross-validation}
\item{Pipelines}
}
\sub{Litteratur}
......@@ -946,10 +942,13 @@ CONTENT L04
\sub{Formål} %\header{Regression og SGD}
\p{Vi analysere \i{supervised regressions} modeller i ML i forhold til den nu
kendte supervised klassifikation metode.}
kendte supervised klassifikation metode.}
\p{Modellen \i{lineær} regression gennemanalyseres og der angives både
analytiske og numeriske løsninger til træning af en lineær model.}
analytiske og numeriske løsninger til træning af en lineær model. (Den lineære
regressionsmodel er relativ simple, men yderst vigtig, idet den men danner
grundlag for en hel del advancerede modeller, f.eks. SVN's og NN's.)}
\p{For den numeriske løsning går vi i dybden med træningsmetoden \i{Stochastic
Gradient Decent metoden} (SGD).}
......@@ -961,7 +960,9 @@ grundlag for neuroner i neurale net.}
\itemize{
\item{Lineær regression}
\item{Cost function i closed-form løsning vs. numerisk løsning}
\item{Stochastic Gradient Decent (SGD)}
\item{Learning rates}
\item{Logistisk regression}
}
......@@ -992,43 +993,85 @@ grundlag for neuroner i neurale net.}
}
END
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
Formål :
CONTENT L05
Vi skal se på lineær og logistisk regression, som er to helt basale metoder til
regression og klassifikation. De danner byggestenene for mange andre metoder,
så det er en god start at få en grundig forståelse af begge metoder. Metoder
såsom SVM, neural netværk, generaliserede lineær modeller, .. er udvidelser
til disse to metoder.
\sub{Formål} %\header{Dataanalyse}
Emner :
\p{En vigtig forudsætning for at kunne vælge den rette machine learning metode
til at løse et problem er data analyse, dvs. at få en forståelse af data ved
at se på statistikker såsom middelværdi, median, varians, og plotte data og
histogrammer.}
Lineær (til regression) og logistisk regression (til klassifikation)
\p{Der kan også være støjflyldte/korrupte data som skal fjernes eller data
værdier, som mangler; det skal håndteres på fornuftig vis, ellers vil man få
forkerte/dårlige modeller efterfølgende.}
Cost function, closed-form vs. iterative solutions, gradient descent, learning
rate
\p{\i{The Curse of Dimensionallity} diskuteres og en simple unsupervised
algoritme til dimensionalitetsreduktion, PCA, undersøges.}
\p{Da alle kerne-koncepter i supervised ML nu kendes, kan det hele konkret
sammensættes i en samlet processerings-\i{pipeline}. Programmerings-teknisk
ser vi derfor til sidst på Scikit-learns Pipelines.}
Litteratur :
\p{Lektionen giver endelig også et oplæg til valg af data til brug for O4
afleveringen.}
Kap. 4 s. 111 - 123 + s. 142 - 148
\sub{Indhold}
\itemize{
\item{Basale termer fra statistik}
\subitem{middelværdi, median, varians, histogram}
\item{The Curse of Dimensionallity}
\subitem{dimensionalitets reduktion vha. PCA modellen}
%\item{Korrelationskoefficienter}
\item{Pipelines}
\subitem{Data cleaning, standardization / normalisation (feature scaling)}
\item{Indledende analyse af data med plots}
}
\sub{Litteratur}
Dataanalyse
\itemize*{
\item{\i{§ 8 Dimensionality Reduction} (pp.213-225) [HOML], kaptitel skimmes kun, men læs grundigt:}
\subitem*{\i{Intro} (pp. 213-214)}
\subitem*{\i{The Curse of Dimensionality} (pp. 214-215)}
\subitem*{\i{PCA} (pp. 219-223)}
\item{\i{§ 2 End-to-End ML} (p.38), genlæs \i{Pipelines} tekstboksen }
\subitem*{(herudover der der en hel del genbrug af andet materiale fra \i{§ 2})}
}
Formål
\sub{Forberedelse inden lektionen}
En vigtig forudsætning for at kunne vælge den rette machine learning metode til at løse et problem er data analyse, dvs. at få en forståelse af data ved at se på statistikker såsom middelværdi, median, varians, .. og plotte data og histogrammer. Der kan også være korrupte data som skal fjernes eller data værdier, som mangler - det skal håndteres på fornuftig vis, ellers vil man få forkerte/dårlige modeller efterfølgende.
Emner
\itemize{
\item{Læs litteraturen.}
}
Basale termer fra statistik (middelværdi, median, varians, histogram, korrelationskoefficient, percentiler), indledende analyse af data med plots
\sub{På klassen}
\enumerate{
\item{Almindelig forelæsning}
\item{\b{Opgave} (dataanalyse): \link**{[HOME]/L054/dataanalyse.ipynb}}
}
\sub{Slides}
\itemize*{
\item{\link**{[HOME]/L05/lesson05.pdf}}
}
END
Dataanalyse
Formål
Data cleaning, standardization / normalisation (feature scaling)
Test-, trænings- og validerings-sæt
Litteratur
Kap. 2 s. 47 - 70 (især de emner der forelæses omkring)
......@@ -1036,7 +1079,6 @@ Kap. 2 s. 47 - 70 (især de emner der forelæses omkring)
L07: Generalisering
Modelkapacitet, under- og overfitting og generalisering
......
......@@ -17,7 +17,7 @@ sync: build
@ echo "SYNC.."
@ #nmap -T5 -p 22 si | grep -v "Note: Host seems down" >/dev/null
@ ssh si "cd ITMAL_E21 && rm -f Html/*.html && git pull"
@ cd ../../ && scp -q -C -r Html si:ITMAL_E21/
@ # cd ../../ && scp -q -C -r Html si:ITMAL_E21/
@ echo "SYNC..DONE"
......
......@@ -44,6 +44,7 @@
<span style="font-family: 'courier new', courier, sans-serif">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<a href='https://itundervisning.ase.au.dk/ITMAL_E21/Etc/CourseBuilder/Html/L02.html'>L02.html</a><br></span>
<span style="font-family: 'courier new', courier, sans-serif">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<a href='https://itundervisning.ase.au.dk/ITMAL_E21/Etc/CourseBuilder/Html/L03.html'>L03.html</a><br></span>
<span style="font-family: 'courier new', courier, sans-serif">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<a href='https://itundervisning.ase.au.dk/ITMAL_E21/Etc/CourseBuilder/Html/L04.html'>L04.html</a><br></span>
<span style="font-family: 'courier new', courier, sans-serif">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<a href='https://itundervisning.ase.au.dk/ITMAL_E21/Etc/CourseBuilder/Html/L05.html'>L05.html</a><br></span>
<span style="font-family: 'courier new', courier, sans-serif">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<a href='https://itundervisning.ase.au.dk/ITMAL_E21/Etc/CourseBuilder/Html/Litteratur.html'>Litteratur.html</a><br></span>
<span style="font-family: 'courier new', courier, sans-serif">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<a href='https://itundervisning.ase.au.dk/ITMAL_E21/Etc/CourseBuilder/Html/filetree.html'>filetree.html</a><br></span>
<span style="font-family: 'courier new', courier, sans-serif">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<a href='https://itundervisning.ase.au.dk/ITMAL_E21/Etc/CourseBuilder/Html/plan.html'>plan.html</a><br></span>
......@@ -93,6 +94,7 @@
<span style="font-family: 'courier new', courier, sans-serif">&nbsp;&nbsp;&nbsp;&nbsp;<a href='https://itundervisning.ase.au.dk/ITMAL_E21/Html/L02.html'>L02.html</a><br></span>
<span style="font-family: 'courier new', courier, sans-serif">&nbsp;&nbsp;&nbsp;&nbsp;<a href='https://itundervisning.ase.au.dk/ITMAL_E21/Html/L03.html'>L03.html</a><br></span>
<span style="font-family: 'courier new', courier, sans-serif">&nbsp;&nbsp;&nbsp;&nbsp;<a href='https://itundervisning.ase.au.dk/ITMAL_E21/Html/L04.html'>L04.html</a><br></span>
<span style="font-family: 'courier new', courier, sans-serif">&nbsp;&nbsp;&nbsp;&nbsp;<a href='https://itundervisning.ase.au.dk/ITMAL_E21/Html/L05.html'>L05.html</a><br></span>
<span style="font-family: 'courier new', courier, sans-serif">&nbsp;&nbsp;&nbsp;&nbsp;<a href='https://itundervisning.ase.au.dk/ITMAL_E21/Html/Litteratur.html'>Litteratur.html</a><br></span>
<span style="font-family: 'courier new', courier, sans-serif">&nbsp;&nbsp;&nbsp;&nbsp;<a href='https://itundervisning.ase.au.dk/ITMAL_E21/Html/filetree.html'>filetree.html</a><br></span>
<span style="font-family: 'courier new', courier, sans-serif">&nbsp;&nbsp;&nbsp;&nbsp;<a href='https://itundervisning.ase.au.dk/ITMAL_E21/Html/plan.html'>plan.html</a><br></span>
......
%% Cell type:markdown id: tags:
# ITMAL Opgave
## Dataanalyse
### Qa) Beskrivelse af datasæt til O4 projekt
I kurset er slutprojektet et bærende element, som I forventes at arbejde på igennem hele kurset
sideløbende med de forskellige undervisningsemner.
I skal selv vælge et O4 projekt–det anbefales at I vælger en problemstilling, hvor der allerede er data til rådighed og en god beskrivelse af data, dataopsamlingsmetode og problemstilling.
I denne opgave skal I:
* a) Give en kort konceptmæssig projektbeskrivelse af Jeres ide til O4 projekt.
* b) Beskrive jeres valgte datasæt med en kort forklaring af baggrund og hvor I har fået data fra.
* c) Beskrive data–dvs. hvilke features, antal samples, target værdier, evt. fejl/usikkerheder, etc.
* d) Forklare hvordan I ønsker at anvende datasættet – vil I fx. bruge det til at prædiktere noget
bestemt, lave en regression eller klassifikation, el.lign.
I vil nok komme til at anvende data også på andre måder i løbet af undervisningen – men det behøver I ikke nævne. Og det er også ok, hvis I ender med at bruge data på en anden måde end planlagt her.
Omfang af beskrivelsen forventes at være 1-2 sider.
### Qb) Dataanalyse af eget datasæt
Lav data analyse på jeres egne data og projekt.
Det indebærer de sædvanlige elementer såsom plotte histogrammer, middelværdi/median/spredning, analysere for outliers/korrupte data, forslag til skalering af data og lignende former for analyse af data.
For nogle typer data (fx billed-data), hvor features ikke har en specifik betydning, er det mest
histogrammer og lignende, som giver mening – det er helt o.k.
### NOTE vdr. valg af datasæt til O4
I har frie hænder til at vælge O4 projekt og tilhørende datasæt og valg af datasæt og ide til O4 her er ikke endelig.
Dvs. at i løbende kan modificere projektbeskrivelse og, evt. om nødvendigt, vælge et andet datasæt senere, hvis jeres nuværende valg viser sig umuligt (men er en dyr proces).
Scope af O4 projekt bør også begrænses, så det passer til kurset og til den '_time-box_'ede aflevering.
%% Cell type:markdown id: tags:
REVISIONS | |
--------- | |
2021-08-17 |CEF, initial version.
Supports Markdown
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment