ZUT - Polska Rama Kwalifikacji / Rok 2024/2025 / Wydział Informatyki / Informatyka (S1) / Inżynieria chmurowa / Sylabus przedmiotu - Duże zbiory danych

Zachodniopomorski Uniwersytet Technologiczny w Szczecinie

Wydział Informatyki - Informatyka (S1)
specjalność: Inżynieria chmurowa

Sylabus przedmiotu Duże zbiory danych:

Informacje podstawowe

Kierunek studiów	Informatyka
Forma studiów	studia stacjonarne	Poziom	pierwszego stopnia
Tytuł zawodowy absolwenta	inżynier
Obszary studiów	charakterystyki PRK, kompetencje inżynierskie PRK
Profil	ogólnoakademicki
Moduł	—
Przedmiot	Duże zbiory danych
Specjalność	przedmiot wspólny
Jednostka prowadząca	Katedra Inżynierii Systemów Informacyjnych
Nauczyciel odpowiedzialny	Przemysław Korytkowski <Przemyslaw.Korytkowski@zut.edu.pl>
Inni nauczyciele	Bartłomiej Małachowski <Bartlomiej.Malachowski@zut.edu.pl>
ECTS (planowane)	4,0	ECTS (formy)	4,0
Forma zaliczenia	zaliczenie	Język	polski
Blok obieralny	6	Grupa obieralna	1

Formy dydaktyczne

Forma dydaktyczna	KOD	Semestr	Godziny	ECTS	Waga	Zaliczenie
wykłady	W	6	30	2,0	0,50	zaliczenie
laboratoria	L	6	30	2,0	0,50	zaliczenie

Wymagania wstępne

KOD	Wymaganie wstępne
W-1	Bazy danych 2

Cele przedmiotu

KOD	Cel modułu/przedmiotu
C-1	Zapoznanie studentów z technologiami przetwarzania dużych zbiorów danych w środowisku klastrów obliczeniowych.

Treści programowe z podziałem na formy zajęć

KOD	Treść programowa	Godziny
laboratoria
T-L-1	Rozproszony system plików HDFS	2
T-L-2	Środowisko Apache Spark: PySpark i Spark SQL	4
T-L-3	Przetwarzanie danych z wykorzystastaniem formatów: AVRO, ORC, Parquet, Delta Lake	6
T-L-4	Interfejsy programistyczne do platform obliczeń rozproszonych na przykładzie Apache Spark - typy kolekcji danych, transformacje, wsparcie dla standardowego języka zapytań SQL, wsparcie dla metod analizy statystycznej i metod uczenia maszynowego (Spark MLlib), wsparcie dla grafowych struktur danych i algorytmów wykorzystujących takie struktury (Spark GraphX), wsparcie dla przetwarzania strumieniowego danych (Spark Streaming)	12
T-L-5	Rozproszone platformy przetwarzania strumieniowego danych na przykładzie Apache Kafka - stosowanie podstawowych komend sterujących, implementacja kosumenta danych z użyciem API dla języka Java, implementacja producenta danych z użyciem API dla języka Java, zastosowanie API Kafka Streams	6
		30
wykłady
T-W-1	Pojęcie dużych zbiorów danych. Źródła dużych danych.	2
T-W-2	Hurtownie danych, jeziora danych, ETL	2
T-W-3	Klastry, rozproszone systemy plików	2
T-W-4	Klastry, rozproszeone przetwarzanie danych: MapReduce, Hive, Spark	4
T-W-5	Formaty przechowywania danych w rozproszonych klastrach: Avro, ORC, Parquet, Delta Lake, Iceberg	4
T-W-6	Interfejsy programistyczne API do platform obliczeń rozproszonych - przegląd możliwości i zastosowań	10
T-W-7	Rozproszone platformy przetwarzania strumieniowego danych - przegląd możliwości, interfejsy programistyczne API, zastosowania	6
		30

Obciążenie pracą studenta - formy aktywności

KOD	Forma aktywności	Godziny
laboratoria
A-L-1	uczestnictwo w zajęciach	30
A-L-2	praca własna	20
		50
wykłady
A-W-1	uczestnictwo w zajęciach	30
A-W-2	konsultacje	2
A-W-3	praca własna	18
		50

Metody nauczania / narzędzia dydaktyczne

KOD	Metoda nauczania / narzędzie dydaktyczne
M-1	wykład informacyjny
M-2	ćwiczenia laboratoryjne

Sposoby oceny

KOD	Sposób oceny
S-1	Ocena formująca: wejściówki i sprawozdania
S-2	Ocena podsumowująca: Test wielokrotnego wyboru

Zamierzone efekty uczenia się - wiedza

Zamierzone efekty uczenia się	Odniesienie do efektów kształcenia dla kierunku studiów	Odniesienie do efektów zdefiniowanych dla obszaru kształcenia	Odniesienie do efektów uczenia się prowadzących do uzyskania tytułu zawodowego inżyniera	Cel przedmiotu	Treści programowe	Metody nauczania	Sposób oceny
Itest_1A_C25.5_W01 Student zna i rozumie zasady działania technologii rozproszonego przechowywania i przerwarzania dużych zbiorów danych.	I_1A_W05	—	—	C-1	T-W-2, T-W-3, T-W-1, T-W-4, T-W-5	M-1	S-2

Zamierzone efekty uczenia się - umiejętności

Zamierzone efekty uczenia się	Odniesienie do efektów kształcenia dla kierunku studiów	Odniesienie do efektów zdefiniowanych dla obszaru kształcenia	Odniesienie do efektów uczenia się prowadzących do uzyskania tytułu zawodowego inżyniera	Cel przedmiotu	Treści programowe	Metody nauczania	Sposób oceny
Itest_1A_C25.5_U01 Student potrafi dobrać i zastosować właściwą technologię przetwarzania dużych zbiorów danych w zależności od charakteru danych, ich rozmiaru oraz sposobu przetwarzania.	I_1A_U06	—	—	C-1	T-L-1, T-L-3, T-L-2	M-2	S-1

Kryterium oceny - wiedza

Efekt uczenia się	Ocena	Kryterium oceny
Itest_1A_C25.5_W01 Student zna i rozumie zasady działania technologii rozproszonego przechowywania i przerwarzania dużych zbiorów danych.	2,0
	3,0	Uzyskanie minimum 50% punktów z testu wielokrotnego wyboru.
	3,5
	4,0
	4,5
	5,0

Kryterium oceny - umiejętności

Efekt uczenia się	Ocena	Kryterium oceny
Itest_1A_C25.5_U01 Student potrafi dobrać i zastosować właściwą technologię przetwarzania dużych zbiorów danych w zależności od charakteru danych, ich rozmiaru oraz sposobu przetwarzania.	2,0
	3,0	Uzyskanie oceny pozytywnej z wszystkich wejściowek i sprawozdań.
	3,5
	4,0
	4,5
	5,0

Literatura podstawowa

Holden Karau and Rachel Warren, High Performance Spark, O’Reilly, 2017
Jan Kunigk, Ian Buss, Paul Wilkinson, and Lars George, Architecting Modern Data Platforms. A Guide to Enterprise Hadoop at Scale, O’Reilly, 2019
Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee, Spark. Błyskawiczna analiza danych, O'Reilly/Helion, 2023, 2

Treści programowe - laboratoria

KOD	Treść programowa	Godziny
T-L-1	Rozproszony system plików HDFS	2
T-L-2	Środowisko Apache Spark: PySpark i Spark SQL	4
T-L-3	Przetwarzanie danych z wykorzystastaniem formatów: AVRO, ORC, Parquet, Delta Lake	6
T-L-4	Interfejsy programistyczne do platform obliczeń rozproszonych na przykładzie Apache Spark - typy kolekcji danych, transformacje, wsparcie dla standardowego języka zapytań SQL, wsparcie dla metod analizy statystycznej i metod uczenia maszynowego (Spark MLlib), wsparcie dla grafowych struktur danych i algorytmów wykorzystujących takie struktury (Spark GraphX), wsparcie dla przetwarzania strumieniowego danych (Spark Streaming)	12
T-L-5	Rozproszone platformy przetwarzania strumieniowego danych na przykładzie Apache Kafka - stosowanie podstawowych komend sterujących, implementacja kosumenta danych z użyciem API dla języka Java, implementacja producenta danych z użyciem API dla języka Java, zastosowanie API Kafka Streams	6
		30

Treści programowe - wykłady

KOD	Treść programowa	Godziny
T-W-1	Pojęcie dużych zbiorów danych. Źródła dużych danych.	2
T-W-2	Hurtownie danych, jeziora danych, ETL	2
T-W-3	Klastry, rozproszone systemy plików	2
T-W-4	Klastry, rozproszeone przetwarzanie danych: MapReduce, Hive, Spark	4
T-W-5	Formaty przechowywania danych w rozproszonych klastrach: Avro, ORC, Parquet, Delta Lake, Iceberg	4
T-W-6	Interfejsy programistyczne API do platform obliczeń rozproszonych - przegląd możliwości i zastosowań	10
T-W-7	Rozproszone platformy przetwarzania strumieniowego danych - przegląd możliwości, interfejsy programistyczne API, zastosowania	6
		30

Formy aktywności - laboratoria

KOD	Forma aktywności	Godziny
A-L-1	uczestnictwo w zajęciach	30
A-L-2	praca własna	20
		50

(*) 1 punkt ECTS, odpowiada około 30 godzinom aktywności studenta

Formy aktywności - wykłady

KOD	Forma aktywności	Godziny
A-W-1	uczestnictwo w zajęciach	30
A-W-2	konsultacje	2
A-W-3	praca własna	18
		50

(*) 1 punkt ECTS, odpowiada około 30 godzinom aktywności studenta

Pole	KOD	Znaczenie kodu
Zamierzone efekty uczenia się	Itest_1A_C25.5_W01	Student zna i rozumie zasady działania technologii rozproszonego przechowywania i przerwarzania dużych zbiorów danych.
Odniesienie do efektów kształcenia dla kierunku studiów	I_1A_W05	Ma wiedzę o nowoczesnych metodach projektowania, analizowania, wytwarzania, testowania oprogramowania oraz rozwiązywania wybranych zadań inżynierskich obejmujących w szczególności narzędzia wspomagające wytwarzanie oprogramowania na różnych etapach powstawania, eksploatacji i rozwoju systemów informatycznych.
Cel przedmiotu	C-1	Zapoznanie studentów z technologiami przetwarzania dużych zbiorów danych w środowisku klastrów obliczeniowych.
Treści programowe	T-W-2	Hurtownie danych, jeziora danych, ETL
	T-W-3	Klastry, rozproszone systemy plików
	T-W-1	Pojęcie dużych zbiorów danych. Źródła dużych danych.
	T-W-4	Klastry, rozproszeone przetwarzanie danych: MapReduce, Hive, Spark
	T-W-5	Formaty przechowywania danych w rozproszonych klastrach: Avro, ORC, Parquet, Delta Lake, Iceberg
Metody nauczania	M-1	wykład informacyjny
Sposób oceny	S-2	Ocena podsumowująca: Test wielokrotnego wyboru
Kryteria oceny	Ocena	Kryterium oceny
	2,0
	3,0	Uzyskanie minimum 50% punktów z testu wielokrotnego wyboru.
	3,5
	4,0
	4,5
	5,0

Pole	KOD	Znaczenie kodu
Zamierzone efekty uczenia się	Itest_1A_C25.5_U01	Student potrafi dobrać i zastosować właściwą technologię przetwarzania dużych zbiorów danych w zależności od charakteru danych, ich rozmiaru oraz sposobu przetwarzania.
Odniesienie do efektów kształcenia dla kierunku studiów	I_1A_U06	Potrafi pozyskiwać, przesyłać, przetwarzać dane, podsumowywać wyniki eksperymentów empirycznych, dokonywać interpretacji uzyskanych wyników i formułować wynikające z nich wnioski.
Cel przedmiotu	C-1	Zapoznanie studentów z technologiami przetwarzania dużych zbiorów danych w środowisku klastrów obliczeniowych.
Treści programowe	T-L-1	Rozproszony system plików HDFS
	T-L-3	Przetwarzanie danych z wykorzystastaniem formatów: AVRO, ORC, Parquet, Delta Lake
	T-L-2	Środowisko Apache Spark: PySpark i Spark SQL
Metody nauczania	M-2	ćwiczenia laboratoryjne
Sposób oceny	S-1	Ocena formująca: wejściówki i sprawozdania
Kryteria oceny	Ocena	Kryterium oceny
	2,0
	3,0	Uzyskanie oceny pozytywnej z wszystkich wejściowek i sprawozdań.
	3,5
	4,0
	4,5
	5,0