Zachodniopomorski Uniwersytet Technologiczny w Szczecinie

Wydział Informatyki - Informatyka (S2)

Sylabus przedmiotu Eksploracja baz tekstowych - Przedmiot obieralny II:

Informacje podstawowe

Kierunek studiów Informatyka
Forma studiów studia stacjonarne Poziom drugiego stopnia
Tytuł zawodowy absolwenta magister
Obszary studiów nauki techniczne
Profil ogólnoakademicki
Moduł
Przedmiot Eksploracja baz tekstowych - Przedmiot obieralny II
Specjalność internet w zarządzaniu
Jednostka prowadząca Katedra Inżynierii Systemów Informacyjnych
Nauczyciel odpowiedzialny Jarosław Wątróbski <Jaroslaw.Watrobski@zut.edu.pl>
Inni nauczyciele
ECTS (planowane) 4,0 ECTS (formy) 4,0
Forma zaliczenia zaliczenie Język polski
Blok obieralny 6 Grupa obieralna 1

Formy dydaktyczne

Forma dydaktycznaKODSemestrGodzinyECTSWagaZaliczenie
wykładyW2 30 2,50,50zaliczenie
laboratoriaL2 30 1,50,50zaliczenie

Wymagania wstępne

KODWymaganie wstępne
W-1Znajomość podstawowych zagadnień z zakresu baz danych
W-2Znajomość zagadnień odkrywania wiedzy z baz danych

Cele przedmiotu

KODCel modułu/przedmiotu
C-1Ukształtowanie umiejętności w zakresie odkrywania wiedzy z teksotowych baz danych dla potrzeb wspomagania decyzji z użyciem technik eksploracji danych i tekstu. Ukształtowanie umiejętności w zakresie stosowania technik odkrywania wiedzy w środowisku Internet

Treści programowe z podziałem na formy zajęć

KODTreść programowaGodziny
laboratoria
T-L-1Ustalenie zasad zaliczenia labolatoriów. Przedstawienie oprogramowania.2
T-L-2Zadania wyszukiwania w oparciu o słowa kluczowe w przykladowych tekstowych bazach danych2
T-L-3Zadania wyszukiwania w oparciu o reprezentację wektorową: wyszukiwanie z wykorzystaniem macierzy TFM i odległości kosinusowej w przykladowych tekstowych bazach danych6
T-L-4Wykorzystanie metod Data Mining w przykąldowych tekstowych bazach danych (klasyfikacja oraz grupowanie dokumentów tekstowych, kategoryzacja dokumentów tekstowych, ranking ważności dokumentów, analiza zależności pomiędzy dokumentami, analiza skupień, klasyfikacja bezwzorcowa, grupowanie dokumentów, klasyfikacja dokumentów za pomocą metody k-średnich, wykorzystanie hierarchicznych metod grupowania w klasyfikacji dokumentów tekstowych, zastosowanie sieci neuronowych w klasyfikacji dokumentów.8
T-L-5Przykladowe zadania eksploracji tesktu i wyszukiwania dokumentów z wykorzystaniem ukrytego indeksowania semantycznego, rozkładu SVD macierzy względem wartości szczególnych. Zagadnienia kompresji danych oraz plików odwróconych.6
T-L-6Przykladowe zadania eksploracji sieci Web (Web content mining), eksploracji połączeń sieci Web (Web linkage mining) oraz eksploracji korzystania z sieci Web (Web usage mining). Przykładowe odkrywanie wzorcow dostępu do stron i wzorcow ścieżek nawigacyjnych.6
30
wykłady
T-W-1Podstawowe definicje. Wprowadzenie do problematyki eksploracji tekstu i baz tekstowych. Systemy Information Retrival oraz miary ocen wyszukiwania4
T-W-2Zadania eksploracji tesktowych baz teskowych i dokumentów tekstowych (wyszukiwanie dokumentów tekstowych w oparciu o zapytania i dokumenty, klasyfikacja oraz grupowanie dokumentów tekstowych, kategoryzacja dokumentów tekstowych, ranking ważności dokumentów, analiza zależności pomiędzy dokumentami). Numeryczna reprezentacja tekstów (reprezentacja oparta na wektorach liczebności słów , określanie podobieństwa pomiędzy dokumentami tekstowymi oraz pomiędzy słowami, metody redukcji wymiaru), analiza skupień (klasyfikacja bezwzorcowa, grupowanie) dokumentów, klasyfikacja dokumentów za pomocą metody k-średnich, wykorzystanie hierarchicznych metod grupowania w klasyfikacji dokumentów tekstowych, zastosowanie sieci neuronowych w klasyfikacji dokumentów. Klasyfikacja wzorcowa dokumentów (neuronowe metody klasyfikacji , klasyfikacja bayerowska, wykorzystanie drzew klasyfikacyjnych w analizie dokumentów tekstowych). Metody pozyskiwania wiedzy z dokumentów tekstowych. Zagadnienie automatycznego generowania streszczeń. Wyszukiwanie informacji w tekstowych bazach danych.6
T-W-3Reprezentacja tekstu i zapytań: podejście oparte o zbiór słów kluczowych.Problem synonimów i polisemii. Problemy zapytań i dokumentów.2
T-W-4Wyszukiwanie w oparciu o reprezentację wektorową, macierz TFM, miary odleglości oraz odległość kosinusowa. Reprezentacja zapytań i dokumantow. Wagi.6
T-W-5Eksploracja tesktu i wyszukiwanie dokumentów (Ukryte indeksowanie semantyczne, rozkład SVD macierzy względem wartości szczególnych, kompresja danych, pliki odwrócone). Problemy eksploracji tekstu.4
T-W-6Zadania eksploracji tekstu (asocjacje, klasyfikacja dokumentów, ekstrakcja cech, grupowanie i kategoryzacja)4
T-W-7Eksploracja sieci Web (Web content mining), eksploracja połączeń sieci Web (Web linkage mining), eksploracja korzystania z sieci Web (Web usage mining). Przyklady zastosowan metod eksploracji. Algorytm Page Rank. Odkrywanie wzorcow dostępu do stron. Odkrywanie wzorcow ścieżek nawigacyjnych.4
30

Obciążenie pracą studenta - formy aktywności

KODForma aktywnościGodziny
laboratoria
A-L-1udział w laboratoriach30
A-L-2Uczestnictwo w konsultacjach i zaliczeniu formy zajęć2
A-L-3przygotowanie się do laboratoriów i sporządzenie sprawozdań15
47
wykłady
A-W-1udział w wykładach30
A-W-2przygotowanie do zaliczenia36
A-W-3Uczestnictwo w konsultacjach i zaliczeniu formy zajęć2
68

Metody nauczania / narzędzia dydaktyczne

KODMetoda nauczania / narzędzie dydaktyczne
M-1Wykład z prezentacjami i przykładami
M-2Ćwiczenia laboratyjne i realizacja zadań praktycznych

Sposoby oceny

KODSposób oceny
S-1Ocena podsumowująca: Wykład: ocena podsumowująca - Zaliczenie pisemne z pytaniami praktycznymi, pytaniami w formie wyboru i opisu - łącznie 5 pytań;
S-2Ocena podsumowująca: Laboratorium : Ogólna ocena na podstawie sprawozdań i obecności

Zamierzone efekty kształcenia - wiedza

Zamierzone efekty kształceniaOdniesienie do efektów kształcenia dla kierunku studiówOdniesienie do efektów zdefiniowanych dla obszaru kształceniaCel przedmiotuTreści programoweMetody nauczaniaSposób oceny
I_2A_D15/O4/2-2_W01
Posiada wiedzę w zakresie metod esploracji danych w tesktowych bazach i środowisku Internet
I_2A_W08C-1T-W-1, T-W-3, T-W-2, T-L-1, T-L-2M-1S-1

Zamierzone efekty kształcenia - umiejętności

Zamierzone efekty kształceniaOdniesienie do efektów kształcenia dla kierunku studiówOdniesienie do efektów zdefiniowanych dla obszaru kształceniaCel przedmiotuTreści programoweMetody nauczaniaSposób oceny
I_2A_D15/O4/2-2_U01
W wyniku przeprowadzonych zajęć student umie analizować i rozwiązywac problemy w zakresie odkrywania wiedzy z tesktowych baz danych oraz w środowisku Internet. Student umie samodzielnie formułować odpowiednią postać zadań eksploracji danych oraz dobierać odpowiednie metody ich rozwiązania.
I_2A_U04, I_2A_U09, I_2A_U10C-1T-L-2, T-L-3, T-L-6, T-L-5, T-L-4M-1S-1

Kryterium oceny - wiedza

Efekt kształceniaOcenaKryterium oceny
I_2A_D15/O4/2-2_W01
Posiada wiedzę w zakresie metod esploracji danych w tesktowych bazach i środowisku Internet
2,0Student nie opanował podstawowej wiedzy w zakresie eksploracji baz tekstowych
3,0Student zna podstawowe zadania analizy baz tekstowych, umie je rozwiązywać w prostych sytuacjach praktycznych w zadowalającym stopniu
3,5Student zna podstawowe zadania analizy danych, umie je rozwiązywać w prostych sytuacjach praktycznych
4,0Student zna podstawowe zadania analizy danych, umie je rozwiązywać w sytuacjach praktycznych
4,5Student zna zadania analizy baz tesktowych, umie je rozwiazywać w w sytuacjach praktycznych, samodzielnie umie właściwie rozpoznać rodzaj zadania
5,0Student zna zadania analizy baz tesktowych, umie je rozwiazywać w w sytuacjach praktycznych, samodzielnie umie właściwie rozpoznać rodzaj zadania i dobrać odpowiednią metodę.

Kryterium oceny - umiejętności

Efekt kształceniaOcenaKryterium oceny
I_2A_D15/O4/2-2_U01
W wyniku przeprowadzonych zajęć student umie analizować i rozwiązywac problemy w zakresie odkrywania wiedzy z tesktowych baz danych oraz w środowisku Internet. Student umie samodzielnie formułować odpowiednią postać zadań eksploracji danych oraz dobierać odpowiednie metody ich rozwiązania.
2,0Student nie posiada umiejętności eksploracji baz tekstowych
3,0Student zna podstawowe zagadnienia esploracji baz tesktowych, umie rozwiązać podstawowe zadania eksploracji tesktu w stopniu zadowalającym
3,5Student zna podstawowe zagadnienia esploracji baz tesktowych, umie rozwiązać podstawowe zadania eksploracji tesktu
4,0Student zna zagadnienia i metody esploracji baz tesktowych, umie rozwiązać zadania eksploracji baz tesktowych
4,5Student zna zagadnienia i metody esploracji baz tesktowych, umie formułować i rozwiązać zadania eksploracji baz tesktowych
5,0Student zna zagadnienia i metody esploracji baz tesktowych, umie formułować i rozwiązać zadania eksploracji baz tesktowych, umie dobrać wlaściwą metodę do rozważanego problemu

Literatura podstawowa

  1. Larose D.T., Odkrywanie wiedzy z danych, Wydawnictwo naukowe PWN, Warszawa, 2006
  2. Hand D., Mannila H., Smyth P, Eksploracja danych, WNT, Warszawa, 2005

Literatura dodatkowa

  1. Cichorz P., Systemy uczące się, WNT, Warszawa, 2000
  2. KlosgenW., Żytkow J.M., Handbook of Data Mining and Knowledge discovery, Oxford University Press, Oxford, 2002

Treści programowe - laboratoria

KODTreść programowaGodziny
T-L-1Ustalenie zasad zaliczenia labolatoriów. Przedstawienie oprogramowania.2
T-L-2Zadania wyszukiwania w oparciu o słowa kluczowe w przykladowych tekstowych bazach danych2
T-L-3Zadania wyszukiwania w oparciu o reprezentację wektorową: wyszukiwanie z wykorzystaniem macierzy TFM i odległości kosinusowej w przykladowych tekstowych bazach danych6
T-L-4Wykorzystanie metod Data Mining w przykąldowych tekstowych bazach danych (klasyfikacja oraz grupowanie dokumentów tekstowych, kategoryzacja dokumentów tekstowych, ranking ważności dokumentów, analiza zależności pomiędzy dokumentami, analiza skupień, klasyfikacja bezwzorcowa, grupowanie dokumentów, klasyfikacja dokumentów za pomocą metody k-średnich, wykorzystanie hierarchicznych metod grupowania w klasyfikacji dokumentów tekstowych, zastosowanie sieci neuronowych w klasyfikacji dokumentów.8
T-L-5Przykladowe zadania eksploracji tesktu i wyszukiwania dokumentów z wykorzystaniem ukrytego indeksowania semantycznego, rozkładu SVD macierzy względem wartości szczególnych. Zagadnienia kompresji danych oraz plików odwróconych.6
T-L-6Przykladowe zadania eksploracji sieci Web (Web content mining), eksploracji połączeń sieci Web (Web linkage mining) oraz eksploracji korzystania z sieci Web (Web usage mining). Przykładowe odkrywanie wzorcow dostępu do stron i wzorcow ścieżek nawigacyjnych.6
30

Treści programowe - wykłady

KODTreść programowaGodziny
T-W-1Podstawowe definicje. Wprowadzenie do problematyki eksploracji tekstu i baz tekstowych. Systemy Information Retrival oraz miary ocen wyszukiwania4
T-W-2Zadania eksploracji tesktowych baz teskowych i dokumentów tekstowych (wyszukiwanie dokumentów tekstowych w oparciu o zapytania i dokumenty, klasyfikacja oraz grupowanie dokumentów tekstowych, kategoryzacja dokumentów tekstowych, ranking ważności dokumentów, analiza zależności pomiędzy dokumentami). Numeryczna reprezentacja tekstów (reprezentacja oparta na wektorach liczebności słów , określanie podobieństwa pomiędzy dokumentami tekstowymi oraz pomiędzy słowami, metody redukcji wymiaru), analiza skupień (klasyfikacja bezwzorcowa, grupowanie) dokumentów, klasyfikacja dokumentów za pomocą metody k-średnich, wykorzystanie hierarchicznych metod grupowania w klasyfikacji dokumentów tekstowych, zastosowanie sieci neuronowych w klasyfikacji dokumentów. Klasyfikacja wzorcowa dokumentów (neuronowe metody klasyfikacji , klasyfikacja bayerowska, wykorzystanie drzew klasyfikacyjnych w analizie dokumentów tekstowych). Metody pozyskiwania wiedzy z dokumentów tekstowych. Zagadnienie automatycznego generowania streszczeń. Wyszukiwanie informacji w tekstowych bazach danych.6
T-W-3Reprezentacja tekstu i zapytań: podejście oparte o zbiór słów kluczowych.Problem synonimów i polisemii. Problemy zapytań i dokumentów.2
T-W-4Wyszukiwanie w oparciu o reprezentację wektorową, macierz TFM, miary odleglości oraz odległość kosinusowa. Reprezentacja zapytań i dokumantow. Wagi.6
T-W-5Eksploracja tesktu i wyszukiwanie dokumentów (Ukryte indeksowanie semantyczne, rozkład SVD macierzy względem wartości szczególnych, kompresja danych, pliki odwrócone). Problemy eksploracji tekstu.4
T-W-6Zadania eksploracji tekstu (asocjacje, klasyfikacja dokumentów, ekstrakcja cech, grupowanie i kategoryzacja)4
T-W-7Eksploracja sieci Web (Web content mining), eksploracja połączeń sieci Web (Web linkage mining), eksploracja korzystania z sieci Web (Web usage mining). Przyklady zastosowan metod eksploracji. Algorytm Page Rank. Odkrywanie wzorcow dostępu do stron. Odkrywanie wzorcow ścieżek nawigacyjnych.4
30

Formy aktywności - laboratoria

KODForma aktywnościGodziny
A-L-1udział w laboratoriach30
A-L-2Uczestnictwo w konsultacjach i zaliczeniu formy zajęć2
A-L-3przygotowanie się do laboratoriów i sporządzenie sprawozdań15
47
(*) 1 punkt ECTS, odpowiada około 30 godzinom aktywności studenta

Formy aktywności - wykłady

KODForma aktywnościGodziny
A-W-1udział w wykładach30
A-W-2przygotowanie do zaliczenia36
A-W-3Uczestnictwo w konsultacjach i zaliczeniu formy zajęć2
68
(*) 1 punkt ECTS, odpowiada około 30 godzinom aktywności studenta
PoleKODZnaczenie kodu
Zamierzone efekty kształceniaI_2A_D15/O4/2-2_W01Posiada wiedzę w zakresie metod esploracji danych w tesktowych bazach i środowisku Internet
Odniesienie do efektów kształcenia dla kierunku studiówI_2A_W08Ma rozszerzoną wiedzę o podstawowych zadaniach eksploracji i analizy danych zarówno ilościowych jak i jakościowych
Cel przedmiotuC-1Ukształtowanie umiejętności w zakresie odkrywania wiedzy z teksotowych baz danych dla potrzeb wspomagania decyzji z użyciem technik eksploracji danych i tekstu. Ukształtowanie umiejętności w zakresie stosowania technik odkrywania wiedzy w środowisku Internet
Treści programoweT-W-1Podstawowe definicje. Wprowadzenie do problematyki eksploracji tekstu i baz tekstowych. Systemy Information Retrival oraz miary ocen wyszukiwania
T-W-3Reprezentacja tekstu i zapytań: podejście oparte o zbiór słów kluczowych.Problem synonimów i polisemii. Problemy zapytań i dokumentów.
T-W-2Zadania eksploracji tesktowych baz teskowych i dokumentów tekstowych (wyszukiwanie dokumentów tekstowych w oparciu o zapytania i dokumenty, klasyfikacja oraz grupowanie dokumentów tekstowych, kategoryzacja dokumentów tekstowych, ranking ważności dokumentów, analiza zależności pomiędzy dokumentami). Numeryczna reprezentacja tekstów (reprezentacja oparta na wektorach liczebności słów , określanie podobieństwa pomiędzy dokumentami tekstowymi oraz pomiędzy słowami, metody redukcji wymiaru), analiza skupień (klasyfikacja bezwzorcowa, grupowanie) dokumentów, klasyfikacja dokumentów za pomocą metody k-średnich, wykorzystanie hierarchicznych metod grupowania w klasyfikacji dokumentów tekstowych, zastosowanie sieci neuronowych w klasyfikacji dokumentów. Klasyfikacja wzorcowa dokumentów (neuronowe metody klasyfikacji , klasyfikacja bayerowska, wykorzystanie drzew klasyfikacyjnych w analizie dokumentów tekstowych). Metody pozyskiwania wiedzy z dokumentów tekstowych. Zagadnienie automatycznego generowania streszczeń. Wyszukiwanie informacji w tekstowych bazach danych.
T-L-1Ustalenie zasad zaliczenia labolatoriów. Przedstawienie oprogramowania.
T-L-2Zadania wyszukiwania w oparciu o słowa kluczowe w przykladowych tekstowych bazach danych
Metody nauczaniaM-1Wykład z prezentacjami i przykładami
Sposób ocenyS-1Ocena podsumowująca: Wykład: ocena podsumowująca - Zaliczenie pisemne z pytaniami praktycznymi, pytaniami w formie wyboru i opisu - łącznie 5 pytań;
Kryteria ocenyOcenaKryterium oceny
2,0Student nie opanował podstawowej wiedzy w zakresie eksploracji baz tekstowych
3,0Student zna podstawowe zadania analizy baz tekstowych, umie je rozwiązywać w prostych sytuacjach praktycznych w zadowalającym stopniu
3,5Student zna podstawowe zadania analizy danych, umie je rozwiązywać w prostych sytuacjach praktycznych
4,0Student zna podstawowe zadania analizy danych, umie je rozwiązywać w sytuacjach praktycznych
4,5Student zna zadania analizy baz tesktowych, umie je rozwiazywać w w sytuacjach praktycznych, samodzielnie umie właściwie rozpoznać rodzaj zadania
5,0Student zna zadania analizy baz tesktowych, umie je rozwiazywać w w sytuacjach praktycznych, samodzielnie umie właściwie rozpoznać rodzaj zadania i dobrać odpowiednią metodę.
PoleKODZnaczenie kodu
Zamierzone efekty kształceniaI_2A_D15/O4/2-2_U01W wyniku przeprowadzonych zajęć student umie analizować i rozwiązywac problemy w zakresie odkrywania wiedzy z tesktowych baz danych oraz w środowisku Internet. Student umie samodzielnie formułować odpowiednią postać zadań eksploracji danych oraz dobierać odpowiednie metody ich rozwiązania.
Odniesienie do efektów kształcenia dla kierunku studiówI_2A_U04Potrafi wybrać, krytycznie ocenić przydatność i zastosować metodę i narzędzia rozwiązania złożonego zadania inżynierskiego
I_2A_U09Potrafi wydobywać wiedzę zawartą w dużych zbiorach danych
I_2A_U10Potrafi wykorzystywać oprogramowanie wspomagające rozwiązywanie wybranych problemów
Cel przedmiotuC-1Ukształtowanie umiejętności w zakresie odkrywania wiedzy z teksotowych baz danych dla potrzeb wspomagania decyzji z użyciem technik eksploracji danych i tekstu. Ukształtowanie umiejętności w zakresie stosowania technik odkrywania wiedzy w środowisku Internet
Treści programoweT-L-2Zadania wyszukiwania w oparciu o słowa kluczowe w przykladowych tekstowych bazach danych
T-L-3Zadania wyszukiwania w oparciu o reprezentację wektorową: wyszukiwanie z wykorzystaniem macierzy TFM i odległości kosinusowej w przykladowych tekstowych bazach danych
T-L-6Przykladowe zadania eksploracji sieci Web (Web content mining), eksploracji połączeń sieci Web (Web linkage mining) oraz eksploracji korzystania z sieci Web (Web usage mining). Przykładowe odkrywanie wzorcow dostępu do stron i wzorcow ścieżek nawigacyjnych.
T-L-5Przykladowe zadania eksploracji tesktu i wyszukiwania dokumentów z wykorzystaniem ukrytego indeksowania semantycznego, rozkładu SVD macierzy względem wartości szczególnych. Zagadnienia kompresji danych oraz plików odwróconych.
T-L-4Wykorzystanie metod Data Mining w przykąldowych tekstowych bazach danych (klasyfikacja oraz grupowanie dokumentów tekstowych, kategoryzacja dokumentów tekstowych, ranking ważności dokumentów, analiza zależności pomiędzy dokumentami, analiza skupień, klasyfikacja bezwzorcowa, grupowanie dokumentów, klasyfikacja dokumentów za pomocą metody k-średnich, wykorzystanie hierarchicznych metod grupowania w klasyfikacji dokumentów tekstowych, zastosowanie sieci neuronowych w klasyfikacji dokumentów.
Metody nauczaniaM-1Wykład z prezentacjami i przykładami
Sposób ocenyS-1Ocena podsumowująca: Wykład: ocena podsumowująca - Zaliczenie pisemne z pytaniami praktycznymi, pytaniami w formie wyboru i opisu - łącznie 5 pytań;
Kryteria ocenyOcenaKryterium oceny
2,0Student nie posiada umiejętności eksploracji baz tekstowych
3,0Student zna podstawowe zagadnienia esploracji baz tesktowych, umie rozwiązać podstawowe zadania eksploracji tesktu w stopniu zadowalającym
3,5Student zna podstawowe zagadnienia esploracji baz tesktowych, umie rozwiązać podstawowe zadania eksploracji tesktu
4,0Student zna zagadnienia i metody esploracji baz tesktowych, umie rozwiązać zadania eksploracji baz tesktowych
4,5Student zna zagadnienia i metody esploracji baz tesktowych, umie formułować i rozwiązać zadania eksploracji baz tesktowych
5,0Student zna zagadnienia i metody esploracji baz tesktowych, umie formułować i rozwiązać zadania eksploracji baz tesktowych, umie dobrać wlaściwą metodę do rozważanego problemu