Wydział Informatyki - Informatyka (S1)
specjalność: Inżynieria aplikacji webowych
Sylabus przedmiotu Duże zbiory danych:
Informacje podstawowe
Kierunek studiów | Informatyka | ||
---|---|---|---|
Forma studiów | studia stacjonarne | Poziom | pierwszego stopnia |
Tytuł zawodowy absolwenta | inżynier | ||
Obszary studiów | charakterystyki PRK, kompetencje inżynierskie PRK | ||
Profil | ogólnoakademicki | ||
Moduł | — | ||
Przedmiot | Duże zbiory danych | ||
Specjalność | przedmiot wspólny | ||
Jednostka prowadząca | Katedra Inżynierii Systemów Informacyjnych | ||
Nauczyciel odpowiedzialny | Przemysław Korytkowski <Przemyslaw.Korytkowski@zut.edu.pl> | ||
Inni nauczyciele | |||
ECTS (planowane) | 4,0 | ECTS (formy) | 4,0 |
Forma zaliczenia | zaliczenie | Język | polski |
Blok obieralny | 6 | Grupa obieralna | 1 |
Formy dydaktyczne
Wymagania wstępne
KOD | Wymaganie wstępne |
---|---|
W-1 | Bazy danych 2 |
Cele przedmiotu
KOD | Cel modułu/przedmiotu |
---|---|
C-1 | Zapoznanie studentów z technologiami przetwarzania dużych zbiorów danych w środowisku klastrów obliczeniowych. |
Treści programowe z podziałem na formy zajęć
KOD | Treść programowa | Godziny |
---|---|---|
laboratoria | ||
T-L-1 | Rozproszony system plików HDFS | 2 |
T-L-2 | Środowisko Apache Spark: PySpark i Spark SQL | 4 |
T-L-3 | Przetwarzanie danych z wykorzystastaniem formatów: AVRO, ORC, Parquet, Delta Lake | 6 |
T-L-4 | Interfejsy programistyczne do platform obliczeń rozproszonych na przykładzie Apache Spark - typy kolekcji danych, transformacje, wsparcie dla standardowego języka zapytań SQL, wsparcie dla metod analizy statystycznej i metod uczenia maszynowego (Spark MLlib), wsparcie dla grafowych struktur danych i algorytmów wykorzystujących takie struktury (Spark GraphX), wsparcie dla przetwarzania strumieniowego danych (Spark Streaming) | 12 |
T-L-5 | Rozproszone platformy przetwarzania strumieniowego danych na przykładzie Apache Kafka - stosowanie podstawowych komend sterujących, implementacja kosumenta danych z użyciem API dla języka Java, implementacja producenta danych z użyciem API dla języka Java, zastosowanie API Kafka Streams | 6 |
30 | ||
wykłady | ||
T-W-1 | Pojęcie dużych zbiorów danych. Źródła dużych danych. | 2 |
T-W-2 | Hurtownie danych, jeziora danych, ETL | 2 |
T-W-3 | Klastry, rozproszone systemy plików | 2 |
T-W-4 | Klastry, rozproszeone przetwarzanie danych: MapReduce, Hive, Spark | 4 |
T-W-5 | Formaty przechowywania danych w rozproszonych klastrach: Avro, ORC, Parquet, Delta Lake, Iceberg | 4 |
T-W-6 | Interfejsy programistyczne API do platform obliczeń rozproszonych - przegląd możliwości i zastosowań | 10 |
T-W-7 | Rozproszone platformy przetwarzania strumieniowego danych - przegląd możliwości, interfejsy programistyczne API, zastosowania | 6 |
30 |
Obciążenie pracą studenta - formy aktywności
KOD | Forma aktywności | Godziny |
---|---|---|
laboratoria | ||
A-L-1 | uczestnictwo w zajęciach | 30 |
A-L-2 | praca własna | 20 |
50 | ||
wykłady | ||
A-W-1 | uczestnictwo w zajęciach | 30 |
A-W-2 | konsultacje | 2 |
A-W-3 | praca własna | 18 |
50 |
Metody nauczania / narzędzia dydaktyczne
KOD | Metoda nauczania / narzędzie dydaktyczne |
---|---|
M-1 | wykład informacyjny |
M-2 | ćwiczenia laboratoryjne |
Sposoby oceny
KOD | Sposób oceny |
---|---|
S-1 | Ocena formująca: wejściówki i sprawozdania |
S-2 | Ocena podsumowująca: Test wielokrotnego wyboru |
Zamierzone efekty uczenia się - wiedza
Zamierzone efekty uczenia się | Odniesienie do efektów kształcenia dla kierunku studiów | Odniesienie do efektów zdefiniowanych dla obszaru kształcenia | Odniesienie do efektów uczenia się prowadzących do uzyskania tytułu zawodowego inżyniera | Cel przedmiotu | Treści programowe | Metody nauczania | Sposób oceny |
---|---|---|---|---|---|---|---|
Itest_1A_C25.5_W01 Student zna i rozumie zasady działania technologii rozproszonego przechowywania i przerwarzania dużych zbiorów danych. | I_1A_W05 | — | — | C-1 | T-W-2, T-W-3, T-W-1, T-W-4, T-W-5 | M-1 | S-2 |
Zamierzone efekty uczenia się - umiejętności
Zamierzone efekty uczenia się | Odniesienie do efektów kształcenia dla kierunku studiów | Odniesienie do efektów zdefiniowanych dla obszaru kształcenia | Odniesienie do efektów uczenia się prowadzących do uzyskania tytułu zawodowego inżyniera | Cel przedmiotu | Treści programowe | Metody nauczania | Sposób oceny |
---|---|---|---|---|---|---|---|
Itest_1A_C25.5_U01 Student potrafi dobrać i zastosować właściwą technologię przetwarzania dużych zbiorów danych w zależności od charakteru danych, ich rozmiaru oraz sposobu przetwarzania. | I_1A_U06 | — | — | C-1 | T-L-1, T-L-3, T-L-2 | M-2 | S-1 |
Kryterium oceny - wiedza
Efekt uczenia się | Ocena | Kryterium oceny |
---|---|---|
Itest_1A_C25.5_W01 Student zna i rozumie zasady działania technologii rozproszonego przechowywania i przerwarzania dużych zbiorów danych. | 2,0 | |
3,0 | Uzyskanie minimum 50% punktów z testu wielokrotnego wyboru. | |
3,5 | ||
4,0 | ||
4,5 | ||
5,0 |
Kryterium oceny - umiejętności
Efekt uczenia się | Ocena | Kryterium oceny |
---|---|---|
Itest_1A_C25.5_U01 Student potrafi dobrać i zastosować właściwą technologię przetwarzania dużych zbiorów danych w zależności od charakteru danych, ich rozmiaru oraz sposobu przetwarzania. | 2,0 | |
3,0 | Uzyskanie oceny pozytywnej z wszystkich wejściowek i sprawozdań. | |
3,5 | ||
4,0 | ||
4,5 | ||
5,0 |
Literatura podstawowa
- Holden Karau and Rachel Warren, High Performance Spark, O’Reilly, 2017
- Jan Kunigk, Ian Buss, Paul Wilkinson, and Lars George, Architecting Modern Data Platforms. A Guide to Enterprise Hadoop at Scale, O’Reilly, 2019
- Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee, Spark. Błyskawiczna analiza danych, O'Reilly/Helion, 2023, 2