ZUT - Krajowe Ramy Kwalifikacji / Rok 2015/2016 / Wydział Informatyki / Informatyka (N3) / Sylabus przedmiotu - Metody ekstrakcji wiedzy z danych

Wydział Informatyki - Informatyka (N3)

Sylabus przedmiotu Metody ekstrakcji wiedzy z danych - Przedmiot obieralny III:

Informacje podstawowe

Kierunek studiów	Informatyka
Forma studiów	studia niestacjonarne	Poziom	trzeciego stopnia
Stopnień naukowy absolwenta	doktor
Obszary studiów	—
Profil
Moduł	—
Przedmiot	Metody ekstrakcji wiedzy z danych - Przedmiot obieralny III
Specjalność	przedmiot wspólny
Jednostka prowadząca	Katedra Metod Sztucznej Inteligencji i Matematyki Stosowanej
Nauczyciel odpowiedzialny	Przemysław Klęsk <pklesk@wi.zut.edu.pl>
Inni nauczyciele
ECTS (planowane)	2,0	ECTS (formy)	2,0
Forma zaliczenia	zaliczenie	Język	polski
Blok obieralny	3	Grupa obieralna	1

Formy dydaktyczne

Forma dydaktyczna	KOD	Semestr	Godziny	ECTS	Waga	Zaliczenie
laboratoria	L	5	5	1,0	0,50	zaliczenie
wykłady	W	5	15	1,0	0,50	zaliczenie

Wymagania wstępne

KOD	Wymaganie wstępne
W-1	matematyka
W-2	rachunek prawdopodobieństwa i statystyka
W-3	metody optymalizacji
W-4	podstawy oprogramowania

Cele przedmiotu

KOD	Cel modułu/przedmiotu
C-1	Przedstawienie wybranych znanych algorytmów klasyfikacji i indukcji reguł do celów ektrakcji wiedzy.
C-2	Nauczenie technik testowania i badania dokładności algorytmów.
C-3	Ukształtowanie świadomości możliwych praktycznych zastosowań przedstawionych algorytmów.

Treści programowe z podziałem na formy zajęć

KOD	Treść programowa	Godziny
laboratoria
T-L-1	Samodzielna implementacja naiwnego klasyfikatora Bayesa lub drzewa decyzyjnego CART (do wyboru). Zastosowanie implementacji na wybranym zbiorze danych z repozytorium UCI.	3
T-L-2	Samodzielna implementacja klasyfikatora liniowego z regularyzacjami L2 i L1 lub AdaBoost (do wyboru). Zastosowanie implementacji na wybranym zbiorze danych z repozytorium UCI.	2
		5
wykłady
T-W-1	Przypomnienie niezbędnych elementów z rachunku prawdopodobieństwa. Podstawowe klasyfikatory probabilistyczne: naiwny klasyfikator Bayesa, drzewa decyzyjne CART. Poprawka LaPlace'a. Przycinanie drzew decyzyjnych.	3
T-W-2	Testowanie dokładności klasyfikatorów, czułość i specyficzność, krzyżowa walidacja, bootstrap. Nierówność Chernoffa i przedziały ufności na szacowane parametry.	2
T-W-3	Klasyfikatory liniowe i wielomianowe uczone metodą najmniejszych kwadratów. Zastosowanie technik regularyzacji L2 (ridge) i L1 (lasso) . Własności regularyzacji dla grupowania i selekcji atrybutów. Algorytm forward-Stagewise-lasso. Związki metody najmniejszych kwadratów i regularyzacji z metodą największej wiarygodności.	4
T-W-4	Meta-klasyfikatory: techniki baggingu i boostingu. Algorytm AdaBoost. Nowe techniki ekstrakcji cech obrazów na rzecz detekcji obiektów – cechy Haara i obraz całkowy. Algorytm Viola-Jones AdaBoost.	2
T-W-5	Ekstrakcja reguł z danych. Algorytm A-priori dla danych zakupowych. Techniki indukcji reguł decyzyjnych. Mierniki oceny reguł. Klasyfikatory regułowe.	4
		15

Obciążenie pracą studenta - formy aktywności

KOD	Forma aktywności	Godziny
laboratoria
A-L-1	Uczestnictwo w zajęciach.	5
A-L-2	Przygotowanie się do zajęć i wejściówek.	2
A-L-3	Praca domowa nad przygotowaniem zbiorów danych z repozytorium UCI (wstępne przetworzenie, normalizacja, dyskretyzacja, itp.) do pracy z wykonanymi implementacjami.	6
A-L-4	Samodzielna praca nad dwoma zadaniami programistycznymi.	18
		31
wykłady
A-W-1	Udział w wykładach.	15
A-W-2	Samodzielne prześledzenie wyprowadzeń matematycznych dla związku pomiędzy regulryzacjami w ramach metody najmniejszych kwadratów z metodą największej wiarygodności.	10
A-W-3	Studia literaturowe (i internetowe) przykładów zastosowań algorytmów z wykładu, m.in. reguły w danych zakupowych oraz detekcji obiektów na obrazach.	8
A-W-4	Przygotowanie się do kolokwium egzaminacyjnego.	24
A-W-5	Kolokwium zaliczeniowe.	2
		59

Metody nauczania / narzędzia dydaktyczne

KOD	Metoda nauczania / narzędzie dydaktyczne
M-1	Wykład informacyjny
M-2	Wykład problemowy
M-3	Metody programowane z użyciem komputera

Sposoby oceny

KOD	Sposób oceny
S-1	Ocena formująca: Dwie wejściówki (10 minutowe) na zakończenie każdego bloku tematycznego laboratoriów.
S-2	Ocena formująca: Dwie oceny zaliczeniowe z napisanych programów.
S-3	Ocena podsumowująca: Ocena końcowa za laboratoria jako średnia z ocen formujących.
S-4	Ocena podsumowująca: Ocena końcowa za wykłady z kolokwium egzaminacyjnego.

Zamierzone efekty kształcenia - wiedza

Zamierzone efekty kształcenia	Odniesienie do efektów kształcenia dla dyscypliny	Odniesienie do efektów zdefiniowanych dla obszaru kształcenia	Cel przedmiotu	Treści programowe	Metody nauczania	Sposób oceny
I_3A_B/03/02_W01 Ma znajomość ważnych algorytmów i technik stosowanych do eksploracji wiedzy z danych, w szczególności do klasyfikacji oraz indukcji reguł.	I_3A_W02	—	C-1, C-2, C-3	T-W-1, T-W-2, T-W-4, T-W-5, T-W-3	M-1, M-2	S-4

Zamierzone efekty kształcenia - umiejętności

Zamierzone efekty kształcenia	Odniesienie do efektów kształcenia dla dyscypliny	Odniesienie do efektów zdefiniowanych dla obszaru kształcenia	Cel przedmiotu	Treści programowe	Metody nauczania	Sposób oceny
I_3A_B/03/02_U01 Potrafi samodzielnie zaprogramować wybrane algorytmy i zastosować je do praktycznego problemu (zbioru danych).	I_3A_U01, I_3A_U04	—	C-1, C-2, C-3	T-L-1, T-L-2	M-3	S-1, S-2, S-3

Kryterium oceny - wiedza

Efekt kształcenia	Ocena	Kryterium oceny
I_3A_B/03/02_W01 Ma znajomość ważnych algorytmów i technik stosowanych do eksploracji wiedzy z danych, w szczególności do klasyfikacji oraz indukcji reguł.	2,0	Nie potrafi wyjaśnić podstawowego sensu zadań klasyfikacji i indukcji reguł.
	3,0	Potrafi wyjaśnić podstawowy sens zadań klasyfikacji i indukcji reguł.
	3,5	Potrafi wyjaśnić sposób działania naiwnego klasyfikatora Bayesa.
	4,0	Potrafi wyjaśnić sposób działania naiwnego klasyfikatora CART.
	4,5	Zna sens i własności technik regularyzacji L1 i L2.
	5,0	Zna techniki dla meta-klasyfikatorów: bagging i boosting.

Kryterium oceny - umiejętności

Efekt kształcenia	Ocena	Kryterium oceny
I_3A_B/03/02_U01 Potrafi samodzielnie zaprogramować wybrane algorytmy i zastosować je do praktycznego problemu (zbioru danych).	2,0	Nie potrafi wykonać podstawowej implementacji w dowolnie wybranym języku/środowisku prostego klasyfikatora (naiwny Bayes lub CART)
	3,0	Potrafi wykonać podstawową implementację w dowolnie wybranym języku/środowisku prostego klasyfikatora (naiwny Bayes lub CART)
	3,5	Potrafi przygotować zbiór danych do analizy.
	4,0	Potrafi przetestować klasyfikator.
	4,5	Potrafi zmierzyć czułość i specyficzność opracowanego klasyfikatora, a także podać przedziały ufności na te parametry.
	5,0	Potrafi wykonać zaawansowaną implementację w dowolnie wybranym języku/środowisku klasyfikatora (regularzyacje L1, L2 lub AdaBoost)

Literatura podstawowa

J. Koronacki, J. Ćwik, Statystyczne systemy uczące się, WNT, Warszawa, 2005
P. Cichosz, Systemy uczące się, WNT, Warszawa, 2000
D. Hand, H. Manilla, P. Smyth, Eksploracja danych, WNT, Warszawa, 2005

Literatura dodatkowa

V. Cherskassky, F. Mullier, Learning from data, Wiley and Sons, 2007

Treści programowe - laboratoria

KOD	Treść programowa	Godziny
T-L-1	Samodzielna implementacja naiwnego klasyfikatora Bayesa lub drzewa decyzyjnego CART (do wyboru). Zastosowanie implementacji na wybranym zbiorze danych z repozytorium UCI.	3
T-L-2	Samodzielna implementacja klasyfikatora liniowego z regularyzacjami L2 i L1 lub AdaBoost (do wyboru). Zastosowanie implementacji na wybranym zbiorze danych z repozytorium UCI.	2
		5

Treści programowe - wykłady

KOD	Treść programowa	Godziny
T-W-1	Przypomnienie niezbędnych elementów z rachunku prawdopodobieństwa. Podstawowe klasyfikatory probabilistyczne: naiwny klasyfikator Bayesa, drzewa decyzyjne CART. Poprawka LaPlace'a. Przycinanie drzew decyzyjnych.	3
T-W-2	Testowanie dokładności klasyfikatorów, czułość i specyficzność, krzyżowa walidacja, bootstrap. Nierówność Chernoffa i przedziały ufności na szacowane parametry.	2
T-W-3	Klasyfikatory liniowe i wielomianowe uczone metodą najmniejszych kwadratów. Zastosowanie technik regularyzacji L2 (ridge) i L1 (lasso) . Własności regularyzacji dla grupowania i selekcji atrybutów. Algorytm forward-Stagewise-lasso. Związki metody najmniejszych kwadratów i regularyzacji z metodą największej wiarygodności.	4
T-W-4	Meta-klasyfikatory: techniki baggingu i boostingu. Algorytm AdaBoost. Nowe techniki ekstrakcji cech obrazów na rzecz detekcji obiektów – cechy Haara i obraz całkowy. Algorytm Viola-Jones AdaBoost.	2
T-W-5	Ekstrakcja reguł z danych. Algorytm A-priori dla danych zakupowych. Techniki indukcji reguł decyzyjnych. Mierniki oceny reguł. Klasyfikatory regułowe.	4
		15

Formy aktywności - laboratoria

KOD	Forma aktywności	Godziny
A-L-1	Uczestnictwo w zajęciach.	5
A-L-2	Przygotowanie się do zajęć i wejściówek.	2
A-L-3	Praca domowa nad przygotowaniem zbiorów danych z repozytorium UCI (wstępne przetworzenie, normalizacja, dyskretyzacja, itp.) do pracy z wykonanymi implementacjami.	6
A-L-4	Samodzielna praca nad dwoma zadaniami programistycznymi.	18
		31

(*) 1 punkt ECTS, odpowiada około 30 godzinom aktywności studenta

Formy aktywności - wykłady

KOD	Forma aktywności	Godziny
A-W-1	Udział w wykładach.	15
A-W-2	Samodzielne prześledzenie wyprowadzeń matematycznych dla związku pomiędzy regulryzacjami w ramach metody najmniejszych kwadratów z metodą największej wiarygodności.	10
A-W-3	Studia literaturowe (i internetowe) przykładów zastosowań algorytmów z wykładu, m.in. reguły w danych zakupowych oraz detekcji obiektów na obrazach.	8
A-W-4	Przygotowanie się do kolokwium egzaminacyjnego.	24
A-W-5	Kolokwium zaliczeniowe.	2
		59

(*) 1 punkt ECTS, odpowiada około 30 godzinom aktywności studenta

Pole	KOD	Znaczenie kodu
Zamierzone efekty kształcenia	I_3A_B/03/02_W01	Ma znajomość ważnych algorytmów i technik stosowanych do eksploracji wiedzy z danych, w szczególności do klasyfikacji oraz indukcji reguł.
Odniesienie do efektów kształcenia dla dyscypliny	I_3A_W02	Absolwent posiada zaawansowaną wiedzę o charakterze szczegółowym odpowiadającą obszarowi Informatyka, obejmującą najnowsze osiągnięcia.
Cel przedmiotu	C-1	Przedstawienie wybranych znanych algorytmów klasyfikacji i indukcji reguł do celów ektrakcji wiedzy.
	C-2	Nauczenie technik testowania i badania dokładności algorytmów.
	C-3	Ukształtowanie świadomości możliwych praktycznych zastosowań przedstawionych algorytmów.
Treści programowe	T-W-1	Przypomnienie niezbędnych elementów z rachunku prawdopodobieństwa. Podstawowe klasyfikatory probabilistyczne: naiwny klasyfikator Bayesa, drzewa decyzyjne CART. Poprawka LaPlace'a. Przycinanie drzew decyzyjnych.
	T-W-2	Testowanie dokładności klasyfikatorów, czułość i specyficzność, krzyżowa walidacja, bootstrap. Nierówność Chernoffa i przedziały ufności na szacowane parametry.
	T-W-4	Meta-klasyfikatory: techniki baggingu i boostingu. Algorytm AdaBoost. Nowe techniki ekstrakcji cech obrazów na rzecz detekcji obiektów – cechy Haara i obraz całkowy. Algorytm Viola-Jones AdaBoost.
	T-W-5	Ekstrakcja reguł z danych. Algorytm A-priori dla danych zakupowych. Techniki indukcji reguł decyzyjnych. Mierniki oceny reguł. Klasyfikatory regułowe.
	T-W-3	Klasyfikatory liniowe i wielomianowe uczone metodą najmniejszych kwadratów. Zastosowanie technik regularyzacji L2 (ridge) i L1 (lasso) . Własności regularyzacji dla grupowania i selekcji atrybutów. Algorytm forward-Stagewise-lasso. Związki metody najmniejszych kwadratów i regularyzacji z metodą największej wiarygodności.
Metody nauczania	M-1	Wykład informacyjny
Metody nauczania	M-2	Wykład problemowy
Sposób oceny	S-4	Ocena podsumowująca: Ocena końcowa za wykłady z kolokwium egzaminacyjnego.
Kryteria oceny	Ocena	Kryterium oceny
	2,0	Nie potrafi wyjaśnić podstawowego sensu zadań klasyfikacji i indukcji reguł.
	3,0	Potrafi wyjaśnić podstawowy sens zadań klasyfikacji i indukcji reguł.
	3,5	Potrafi wyjaśnić sposób działania naiwnego klasyfikatora Bayesa.
	4,0	Potrafi wyjaśnić sposób działania naiwnego klasyfikatora CART.
	4,5	Zna sens i własności technik regularyzacji L1 i L2.
	5,0	Zna techniki dla meta-klasyfikatorów: bagging i boosting.

Pole	KOD	Znaczenie kodu
Zamierzone efekty kształcenia	I_3A_B/03/02_U01	Potrafi samodzielnie zaprogramować wybrane algorytmy i zastosować je do praktycznego problemu (zbioru danych).
Odniesienie do efektów kształcenia dla dyscypliny	I_3A_U01	Absolwent posiada umiejętność prowadzenia badań naukowych w zakresie Informatyka z wykorzystaniem najnowszej wiedzy.
Odniesienie do efektów kształcenia dla dyscypliny	I_3A_U04	Absolwent posiada umiejętność wykorzystywania nowych narzędzi informatycznych do realizacji badań naukowych.
Cel przedmiotu	C-1	Przedstawienie wybranych znanych algorytmów klasyfikacji i indukcji reguł do celów ektrakcji wiedzy.
	C-2	Nauczenie technik testowania i badania dokładności algorytmów.
	C-3	Ukształtowanie świadomości możliwych praktycznych zastosowań przedstawionych algorytmów.
Treści programowe	T-L-1	Samodzielna implementacja naiwnego klasyfikatora Bayesa lub drzewa decyzyjnego CART (do wyboru). Zastosowanie implementacji na wybranym zbiorze danych z repozytorium UCI.
Treści programowe	T-L-2	Samodzielna implementacja klasyfikatora liniowego z regularyzacjami L2 i L1 lub AdaBoost (do wyboru). Zastosowanie implementacji na wybranym zbiorze danych z repozytorium UCI.
Metody nauczania	M-3	Metody programowane z użyciem komputera
Sposób oceny	S-1	Ocena formująca: Dwie wejściówki (10 minutowe) na zakończenie każdego bloku tematycznego laboratoriów.
	S-2	Ocena formująca: Dwie oceny zaliczeniowe z napisanych programów.
	S-3	Ocena podsumowująca: Ocena końcowa za laboratoria jako średnia z ocen formujących.
Kryteria oceny	Ocena	Kryterium oceny
	2,0	Nie potrafi wykonać podstawowej implementacji w dowolnie wybranym języku/środowisku prostego klasyfikatora (naiwny Bayes lub CART)
	3,0	Potrafi wykonać podstawową implementację w dowolnie wybranym języku/środowisku prostego klasyfikatora (naiwny Bayes lub CART)
	3,5	Potrafi przygotować zbiór danych do analizy.
	4,0	Potrafi przetestować klasyfikator.
	4,5	Potrafi zmierzyć czułość i specyficzność opracowanego klasyfikatora, a także podać przedziały ufności na te parametry.
	5,0	Potrafi wykonać zaawansowaną implementację w dowolnie wybranym języku/środowisku klasyfikatora (regularzyacje L1, L2 lub AdaBoost)