Zachodniopomorski Uniwersytet Technologiczny w Szczecinie

Wydział Informatyki - Informatyka (N2)
specjalność: Inteligencja obliczeniowa

Sylabus przedmiotu Duże zbiory danych:

Informacje podstawowe

Kierunek studiów Informatyka
Forma studiów studia niestacjonarne Poziom drugiego stopnia
Tytuł zawodowy absolwenta magister inżynier
Obszary studiów charakterystyki PRK, kompetencje inżynierskie PRK
Profil ogólnoakademicki
Moduł
Przedmiot Duże zbiory danych
Specjalność przedmiot wspólny
Jednostka prowadząca Katedra Inżynierii Systemów Informacyjnych
Nauczyciel odpowiedzialny Przemysław Korytkowski <Przemyslaw.Korytkowski@zut.edu.pl>
Inni nauczyciele Przemysław Korytkowski <Przemyslaw.Korytkowski@zut.edu.pl>, Bartłomiej Małachowski <Bartlomiej.Malachowski@zut.edu.pl>
ECTS (planowane) 5,0 ECTS (formy) 5,0
Forma zaliczenia zaliczenie Język polski
Blok obieralny Grupa obieralna

Formy dydaktyczne

Forma dydaktycznaKODSemestrGodzinyECTSWagaZaliczenie
laboratoriaL1 18 2,50,50zaliczenie
wykładyW1 18 2,50,50zaliczenie

Wymagania wstępne

KODWymaganie wstępne
W-1Podstawy wykorzystywania, administrowania i projektowania baz danych
W-2Podstawy programowania

Cele przedmiotu

KODCel modułu/przedmiotu
C-1Zapoznanie się z metodami przetwarzania i analizy dużych zbiorów danych
C-2Poznanie standardowych narzędzi informatycznych stosowanych w przetwarzaniu i analizie dużych zbiorów danych
C-3Przygotowanie do samodzielnego rozwiązywania problemów z zakresu przetwarzania i analizy dużych zbiorów danych

Treści programowe z podziałem na formy zajęć

KODTreść programowaGodziny
laboratoria
T-L-1Apache Hadoop Disctributed File System2
T-L-2Apache Hive2
T-L-3Apache Sqoop2
T-L-4Przetwarzanie danych w Spark z użyciem RDD API3
T-L-5Przetwarzanie danych w Spark z użyciem Dataframe API2
T-L-6Budowa systemu rekomendujcego z użyciem Apache Spark MLlib1
T-L-7Apache Spark GraphX: zastosowanie algorytmu PageRank i modeli grafowych1
T-L-8Przetwarzanie strumieniowe w Apache spark2
T-L-9Grafowe bazy danych do przetwarzania dużych zbiorów danych (środowisko Neptune lub Giraph), indeksacja i optymalziacja zapytań do grafowych baz danych3
18
wykłady
T-W-1Wprowadzenie do dużych zbiorów danych2
T-W-2Środowisko Apache Hadoop: HDFS, YARN i MapReduce2
T-W-3Bazy danych w Apache Hadoop: Hive, Sqoop1
T-W-4Bazy danych w Apache Hadoop: HBase, Phoenix1
T-W-5Bezpieczeństwo w Apache Hadoop: Ranger, Knox1
T-W-6Administracja klastrem Apache Hadoop: Zookeeper1
T-W-7Wprowadzenie do apache Spark, przegląd dostępnych metod transformacji danych1
T-W-8Moduł Apache Spark SQL - przegląd możliwości, metody reprezentacji i manipulacji danych1
T-W-9Metody uczenia maszynowego w Apache Spark1
T-W-10Moduł apache Spark GraphX - reprezentacja danych grafowych, przegląd możliwości, przykłady zastosowań1
T-W-11Strumieniowe przetwarzanie danych w Apache Spark2
T-W-12Apache Kafka - założenia, możliwości. przykłady zastosowań w kontekście BigData1
T-W-13Metody reprezentacji i próbkowania dużych zbiorow danych o strukturze grafowej1
T-W-14Grafowe bazy danych do przetwarzania dużych zbiorów danych, metody indeksacji i optymalizacji zapytań do grafowych baz danych2
18

Obciążenie pracą studenta - formy aktywności

KODForma aktywnościGodziny
laboratoria
A-L-1Uczestnictwo w zajęciach30
A-L-2Przygotowanie do zajęć laboratoryjnych20
A-L-3Opracowanie wyników zadań laboratoryjnych, opracowanie sprawozdań10
A-L-4Konsultacje2
62
wykłady
A-W-1Uczestnictwo w zajęciach30
A-W-2Przygotowanie do zaliczenia22
A-W-3Analiza literatury i materiałów z wykładów8
A-W-4Konsultacje2
62

Metody nauczania / narzędzia dydaktyczne

KODMetoda nauczania / narzędzie dydaktyczne
M-1Wykład z prezentacją
M-2Laboratoria - metoda przypadków, rozwiązywanie zadań z użyciem komputera

Sposoby oceny

KODSposób oceny
S-1Ocena formująca: Ocena zadań zrealizowanych na laboratoriach
S-2Ocena podsumowująca: Zaliczenie materiałów z wykładów w formie egzaminu pisemnego

Zamierzone efekty uczenia się - wiedza

Zamierzone efekty uczenia sięOdniesienie do efektów kształcenia dla kierunku studiówOdniesienie do efektów zdefiniowanych dla obszaru kształceniaOdniesienie do efektów uczenia się prowadzących do uzyskania tytułu zawodowego inżynieraCel przedmiotuTreści programoweMetody nauczaniaSposób oceny
I_2A_C02_W01
Posiada rozszerzoną wiedzę z zakresu przetwarzania i analizy dużych zbiorów danych
I_2A_W04C-2, C-1, C-3T-W-2, T-W-3, T-W-1, T-W-6, T-W-4M-2, M-1S-2

Zamierzone efekty uczenia się - umiejętności

Zamierzone efekty uczenia sięOdniesienie do efektów kształcenia dla kierunku studiówOdniesienie do efektów zdefiniowanych dla obszaru kształceniaOdniesienie do efektów uczenia się prowadzących do uzyskania tytułu zawodowego inżynieraCel przedmiotuTreści programoweMetody nauczaniaSposób oceny
I_2A_C02_U01
Potrafi wykorzysać poznane metody, techniki i modele do rozwiązywania złożonych problemów z zakresy przetwarzania i analizy dużych zbiorów danych
I_2A_U04C-2, C-1, C-3T-L-1, T-L-3, T-L-2, T-L-9, T-L-8, T-L-7, T-L-6, T-L-5, T-L-4, T-W-5, T-W-7, T-W-6, T-W-8M-2, M-1S-1, S-2

Zamierzone efekty uczenia się - inne kompetencje społeczne i personalne

Zamierzone efekty uczenia sięOdniesienie do efektów kształcenia dla kierunku studiówOdniesienie do efektów zdefiniowanych dla obszaru kształceniaOdniesienie do efektów uczenia się prowadzących do uzyskania tytułu zawodowego inżynieraCel przedmiotuTreści programoweMetody nauczaniaSposób oceny
I_2A_C02_K01
Aktywna postawa poznawcza, umocnienie świadomości potrzeby pozyskiwania aktualnej wiedzy do rozwiązywania problemów i wzmocnienie chęci rozwoju zawodowego.
I_2A_K02, I_2A_K03C-2, C-1, C-3T-L-1, T-L-3, T-L-2, T-L-9, T-L-8, T-L-7, T-L-6, T-L-5, T-L-4, T-W-2, T-W-5, T-W-3, T-W-7, T-W-1, T-W-6, T-W-4, T-W-8M-2, M-1S-1, S-2

Kryterium oceny - wiedza

Efekt uczenia sięOcenaKryterium oceny
I_2A_C02_W01
Posiada rozszerzoną wiedzę z zakresu przetwarzania i analizy dużych zbiorów danych
2,0Student nie opanował materiału w stopniu dostatecznym.
3,0Student opanował materiał przedmiotu w stopniu podstawowym, rozróżnia podstawowe zdania i zna możliwości dostęnych narzędzi.
3,5Student opanował materiał przedmiotu w stopniu ponad podstawowoym,rozróżnia podstawowe zdania i zna możliwości dostęnych narzędzi.
4,0Student opanował materiał przedmiotu w stopniu dobry, rozróżnia podstawowe zdania i zna możliwości dostęnych narzędzi oraz rozumie używane w nich algorytmy
4,5Student opanował materiał przedmiotu w stopniu ponad dobry, rozróżnia podstawowe zdania, zna możliwości dostęnych narzędzi, rozumie używane w nich algorytmy i wie jak je dobrać w zależności od zdefiniowanego problemu
5,0Student opanował materiał przedmiotu w stopniu bardzo dobrym, rozróżnia podstawowe zdania, zna możliwości dostęnych narzędzi, rozumie używane w nich algorytmy i bardzo dobrze wie jak je dobrać w zależności od zdefiniowanego problemu

Kryterium oceny - umiejętności

Efekt uczenia sięOcenaKryterium oceny
I_2A_C02_U01
Potrafi wykorzysać poznane metody, techniki i modele do rozwiązywania złożonych problemów z zakresy przetwarzania i analizy dużych zbiorów danych
2,0Student nie opanował materiału w stopniu dostatecznym
3,0Student opanował materiał przedmiotu w stopniu dostatecznym, rozróżnia podstawowe zdania i umie je częsciowo rozwiązywać za pomocą dostęnych narzędzi.
3,5Student opanował materiał przedmiotu w stopniu więcej niż dostatecznym, rozróżnia podstawowe zdania i umie je rozwiązywać za pomocą dostęnych narzędzi.
4,0Student opanował materiał przedmiotu w stopniu dobrym, rozróżnia podstawowe zdania i umie je prawidłowo rozwiązywać za pomocą dostęnych narzędzi.
4,5Student opanował materiał przedmiotu w stopniu więcej niż dobrym, rozróżnia podstawowe zdania i umie je skutecznie rozwiązywać za pomocą dostęnych narzędzi. Potrafi zidentyfikować problem z zakresu analizy dużych zbiorów danych i dobrać do niego metodę.
5,0Student opanował materiał przedmiotu w więcej niż dobrym, rozróżnia podstawowe zdania i umie je skutecznie rozwiązywać za pomocą dostęnych narzędzi. Potrafi zidentyfikować problem z zakresu analizy dużych zbiorów danych oraz dobrać i uzasadnić metodę roziwiązania problemu.

Kryterium oceny - inne kompetencje społeczne i personalne

Efekt uczenia sięOcenaKryterium oceny
I_2A_C02_K01
Aktywna postawa poznawcza, umocnienie świadomości potrzeby pozyskiwania aktualnej wiedzy do rozwiązywania problemów i wzmocnienie chęci rozwoju zawodowego.
2,0
3,0Student aktywnie rozwiązuje postawione problemy wykazując samodzielność w doborze odpowiednich środków technicznych i metod inżynierskich
3,5
4,0
4,5
5,0

Literatura podstawowa

  1. White T., Hadoop. Komplety przewodnik. Analiza i przechowywanie danych, Halion, Gliwice, 2015, Wyd. 4
  2. Kunigk, Buss, Wilkinson, Architecting Modern Data Platforms: a Guide to Enterprise Hadoop at Scale, O'Reilly, 2019
  3. Ryza, Laserson, Owen, Willis, Spark. Zaawansowana analiza danych, Helion, Gliwice, 2015
  4. Damij, wenig, Tathagata, Learning Spark, O'Reilly, 2020
  5. Robinson, Webber, Eifrem, Graph databases: new opportunities for cennected data, O'Reilly, 2015

Treści programowe - laboratoria

KODTreść programowaGodziny
T-L-1Apache Hadoop Disctributed File System2
T-L-2Apache Hive2
T-L-3Apache Sqoop2
T-L-4Przetwarzanie danych w Spark z użyciem RDD API3
T-L-5Przetwarzanie danych w Spark z użyciem Dataframe API2
T-L-6Budowa systemu rekomendujcego z użyciem Apache Spark MLlib1
T-L-7Apache Spark GraphX: zastosowanie algorytmu PageRank i modeli grafowych1
T-L-8Przetwarzanie strumieniowe w Apache spark2
T-L-9Grafowe bazy danych do przetwarzania dużych zbiorów danych (środowisko Neptune lub Giraph), indeksacja i optymalziacja zapytań do grafowych baz danych3
18

Treści programowe - wykłady

KODTreść programowaGodziny
T-W-1Wprowadzenie do dużych zbiorów danych2
T-W-2Środowisko Apache Hadoop: HDFS, YARN i MapReduce2
T-W-3Bazy danych w Apache Hadoop: Hive, Sqoop1
T-W-4Bazy danych w Apache Hadoop: HBase, Phoenix1
T-W-5Bezpieczeństwo w Apache Hadoop: Ranger, Knox1
T-W-6Administracja klastrem Apache Hadoop: Zookeeper1
T-W-7Wprowadzenie do apache Spark, przegląd dostępnych metod transformacji danych1
T-W-8Moduł Apache Spark SQL - przegląd możliwości, metody reprezentacji i manipulacji danych1
T-W-9Metody uczenia maszynowego w Apache Spark1
T-W-10Moduł apache Spark GraphX - reprezentacja danych grafowych, przegląd możliwości, przykłady zastosowań1
T-W-11Strumieniowe przetwarzanie danych w Apache Spark2
T-W-12Apache Kafka - założenia, możliwości. przykłady zastosowań w kontekście BigData1
T-W-13Metody reprezentacji i próbkowania dużych zbiorow danych o strukturze grafowej1
T-W-14Grafowe bazy danych do przetwarzania dużych zbiorów danych, metody indeksacji i optymalizacji zapytań do grafowych baz danych2
18

Formy aktywności - laboratoria

KODForma aktywnościGodziny
A-L-1Uczestnictwo w zajęciach30
A-L-2Przygotowanie do zajęć laboratoryjnych20
A-L-3Opracowanie wyników zadań laboratoryjnych, opracowanie sprawozdań10
A-L-4Konsultacje2
62
(*) 1 punkt ECTS, odpowiada około 30 godzinom aktywności studenta

Formy aktywności - wykłady

KODForma aktywnościGodziny
A-W-1Uczestnictwo w zajęciach30
A-W-2Przygotowanie do zaliczenia22
A-W-3Analiza literatury i materiałów z wykładów8
A-W-4Konsultacje2
62
(*) 1 punkt ECTS, odpowiada około 30 godzinom aktywności studenta
PoleKODZnaczenie kodu
Zamierzone efekty uczenia sięI_2A_C02_W01Posiada rozszerzoną wiedzę z zakresu przetwarzania i analizy dużych zbiorów danych
Odniesienie do efektów kształcenia dla kierunku studiówI_2A_W04Ma rozszerzoną wiedzę o problemach, zadaniach i algorytmach analizy, przetwarzania oraz eksploracji danych
Cel przedmiotuC-2Poznanie standardowych narzędzi informatycznych stosowanych w przetwarzaniu i analizie dużych zbiorów danych
C-1Zapoznanie się z metodami przetwarzania i analizy dużych zbiorów danych
C-3Przygotowanie do samodzielnego rozwiązywania problemów z zakresu przetwarzania i analizy dużych zbiorów danych
Treści programoweT-W-2Środowisko Apache Hadoop: HDFS, YARN i MapReduce
T-W-3Bazy danych w Apache Hadoop: Hive, Sqoop
T-W-1Wprowadzenie do dużych zbiorów danych
T-W-6Administracja klastrem Apache Hadoop: Zookeeper
T-W-4Bazy danych w Apache Hadoop: HBase, Phoenix
Metody nauczaniaM-2Laboratoria - metoda przypadków, rozwiązywanie zadań z użyciem komputera
M-1Wykład z prezentacją
Sposób ocenyS-2Ocena podsumowująca: Zaliczenie materiałów z wykładów w formie egzaminu pisemnego
Kryteria ocenyOcenaKryterium oceny
2,0Student nie opanował materiału w stopniu dostatecznym.
3,0Student opanował materiał przedmiotu w stopniu podstawowym, rozróżnia podstawowe zdania i zna możliwości dostęnych narzędzi.
3,5Student opanował materiał przedmiotu w stopniu ponad podstawowoym,rozróżnia podstawowe zdania i zna możliwości dostęnych narzędzi.
4,0Student opanował materiał przedmiotu w stopniu dobry, rozróżnia podstawowe zdania i zna możliwości dostęnych narzędzi oraz rozumie używane w nich algorytmy
4,5Student opanował materiał przedmiotu w stopniu ponad dobry, rozróżnia podstawowe zdania, zna możliwości dostęnych narzędzi, rozumie używane w nich algorytmy i wie jak je dobrać w zależności od zdefiniowanego problemu
5,0Student opanował materiał przedmiotu w stopniu bardzo dobrym, rozróżnia podstawowe zdania, zna możliwości dostęnych narzędzi, rozumie używane w nich algorytmy i bardzo dobrze wie jak je dobrać w zależności od zdefiniowanego problemu
PoleKODZnaczenie kodu
Zamierzone efekty uczenia sięI_2A_C02_U01Potrafi wykorzysać poznane metody, techniki i modele do rozwiązywania złożonych problemów z zakresy przetwarzania i analizy dużych zbiorów danych
Odniesienie do efektów kształcenia dla kierunku studiówI_2A_U04Potrafi wykorzystywać poznane metody, techniki i modele do rozwiązywania złożonych problemów
Cel przedmiotuC-2Poznanie standardowych narzędzi informatycznych stosowanych w przetwarzaniu i analizie dużych zbiorów danych
C-1Zapoznanie się z metodami przetwarzania i analizy dużych zbiorów danych
C-3Przygotowanie do samodzielnego rozwiązywania problemów z zakresu przetwarzania i analizy dużych zbiorów danych
Treści programoweT-L-1Apache Hadoop Disctributed File System
T-L-3Apache Sqoop
T-L-2Apache Hive
T-L-9Grafowe bazy danych do przetwarzania dużych zbiorów danych (środowisko Neptune lub Giraph), indeksacja i optymalziacja zapytań do grafowych baz danych
T-L-8Przetwarzanie strumieniowe w Apache spark
T-L-7Apache Spark GraphX: zastosowanie algorytmu PageRank i modeli grafowych
T-L-6Budowa systemu rekomendujcego z użyciem Apache Spark MLlib
T-L-5Przetwarzanie danych w Spark z użyciem Dataframe API
T-L-4Przetwarzanie danych w Spark z użyciem RDD API
T-W-5Bezpieczeństwo w Apache Hadoop: Ranger, Knox
T-W-7Wprowadzenie do apache Spark, przegląd dostępnych metod transformacji danych
T-W-6Administracja klastrem Apache Hadoop: Zookeeper
T-W-8Moduł Apache Spark SQL - przegląd możliwości, metody reprezentacji i manipulacji danych
Metody nauczaniaM-2Laboratoria - metoda przypadków, rozwiązywanie zadań z użyciem komputera
M-1Wykład z prezentacją
Sposób ocenyS-1Ocena formująca: Ocena zadań zrealizowanych na laboratoriach
S-2Ocena podsumowująca: Zaliczenie materiałów z wykładów w formie egzaminu pisemnego
Kryteria ocenyOcenaKryterium oceny
2,0Student nie opanował materiału w stopniu dostatecznym
3,0Student opanował materiał przedmiotu w stopniu dostatecznym, rozróżnia podstawowe zdania i umie je częsciowo rozwiązywać za pomocą dostęnych narzędzi.
3,5Student opanował materiał przedmiotu w stopniu więcej niż dostatecznym, rozróżnia podstawowe zdania i umie je rozwiązywać za pomocą dostęnych narzędzi.
4,0Student opanował materiał przedmiotu w stopniu dobrym, rozróżnia podstawowe zdania i umie je prawidłowo rozwiązywać za pomocą dostęnych narzędzi.
4,5Student opanował materiał przedmiotu w stopniu więcej niż dobrym, rozróżnia podstawowe zdania i umie je skutecznie rozwiązywać za pomocą dostęnych narzędzi. Potrafi zidentyfikować problem z zakresu analizy dużych zbiorów danych i dobrać do niego metodę.
5,0Student opanował materiał przedmiotu w więcej niż dobrym, rozróżnia podstawowe zdania i umie je skutecznie rozwiązywać za pomocą dostęnych narzędzi. Potrafi zidentyfikować problem z zakresu analizy dużych zbiorów danych oraz dobrać i uzasadnić metodę roziwiązania problemu.
PoleKODZnaczenie kodu
Zamierzone efekty uczenia sięI_2A_C02_K01Aktywna postawa poznawcza, umocnienie świadomości potrzeby pozyskiwania aktualnej wiedzy do rozwiązywania problemów i wzmocnienie chęci rozwoju zawodowego.
Odniesienie do efektów kształcenia dla kierunku studiówI_2A_K02Ma świadomość znaczenia aktualności wiedzy w rozwiązywaniu problemów, jest zdeterminowany do osiągania założonych celów, a w przypadku trudności w ich osiąganiu potrafi korzystać z pomocy ekspertów
I_2A_K03Jest gotów do aktywnego przekazywania społeczeństwu informacji na temat bieżącego stanu wiedzy w zakresie informatyki oraz podejmowania działań na rzecz rozwoju środowiska społecznego
Cel przedmiotuC-2Poznanie standardowych narzędzi informatycznych stosowanych w przetwarzaniu i analizie dużych zbiorów danych
C-1Zapoznanie się z metodami przetwarzania i analizy dużych zbiorów danych
C-3Przygotowanie do samodzielnego rozwiązywania problemów z zakresu przetwarzania i analizy dużych zbiorów danych
Treści programoweT-L-1Apache Hadoop Disctributed File System
T-L-3Apache Sqoop
T-L-2Apache Hive
T-L-9Grafowe bazy danych do przetwarzania dużych zbiorów danych (środowisko Neptune lub Giraph), indeksacja i optymalziacja zapytań do grafowych baz danych
T-L-8Przetwarzanie strumieniowe w Apache spark
T-L-7Apache Spark GraphX: zastosowanie algorytmu PageRank i modeli grafowych
T-L-6Budowa systemu rekomendujcego z użyciem Apache Spark MLlib
T-L-5Przetwarzanie danych w Spark z użyciem Dataframe API
T-L-4Przetwarzanie danych w Spark z użyciem RDD API
T-W-2Środowisko Apache Hadoop: HDFS, YARN i MapReduce
T-W-5Bezpieczeństwo w Apache Hadoop: Ranger, Knox
T-W-3Bazy danych w Apache Hadoop: Hive, Sqoop
T-W-7Wprowadzenie do apache Spark, przegląd dostępnych metod transformacji danych
T-W-1Wprowadzenie do dużych zbiorów danych
T-W-6Administracja klastrem Apache Hadoop: Zookeeper
T-W-4Bazy danych w Apache Hadoop: HBase, Phoenix
T-W-8Moduł Apache Spark SQL - przegląd możliwości, metody reprezentacji i manipulacji danych
Metody nauczaniaM-2Laboratoria - metoda przypadków, rozwiązywanie zadań z użyciem komputera
M-1Wykład z prezentacją
Sposób ocenyS-1Ocena formująca: Ocena zadań zrealizowanych na laboratoriach
S-2Ocena podsumowująca: Zaliczenie materiałów z wykładów w formie egzaminu pisemnego
Kryteria ocenyOcenaKryterium oceny
2,0
3,0Student aktywnie rozwiązuje postawione problemy wykazując samodzielność w doborze odpowiednich środków technicznych i metod inżynierskich
3,5
4,0
4,5
5,0