Zachodniopomorski Uniwersytet Technologiczny w Szczecinie

Wydział Informatyki - Informatyka (N1)

Sylabus przedmiotu Mechanizmy interakcji głosowej w systemach komputerowych Przedmiot obieralny I:

Informacje podstawowe

Kierunek studiów Informatyka
Forma studiów studia niestacjonarne Poziom pierwszego stopnia
Tytuł zawodowy absolwenta inżynier
Obszary studiów nauki techniczne, studia inżynierskie
Profil ogólnoakademicki
Moduł
Przedmiot Mechanizmy interakcji głosowej w systemach komputerowych Przedmiot obieralny I
Specjalność systemy komputerowe i oprogramowanie
Jednostka prowadząca Katedra Architektury Komputerów i Telekomunikacji
Nauczyciel odpowiedzialny Tomasz Mąka <Tomasz.Maka@zut.edu.pl>
Inni nauczyciele Tomasz Mąka <Tomasz.Maka@zut.edu.pl>
ECTS (planowane) 2,0 ECTS (formy) 2,0
Forma zaliczenia zaliczenie Język polski
Blok obieralny 4 Grupa obieralna 2

Formy dydaktyczne

Forma dydaktycznaKODSemestrGodzinyECTSWagaZaliczenie
wykładyW5 10 0,90,50zaliczenie
laboratoriaL5 10 1,10,50zaliczenie

Wymagania wstępne

KODWymaganie wstępne
W-1Analiza matematyczna i algebra liniowa
W-2Podstawy przetwarzania sygnałów
W-3Teoria informacji i kodowania
W-4Algorytmy eksploracji danych

Cele przedmiotu

KODCel modułu/przedmiotu
C-1Zrozumienie podstaw natury wytwarzania mowy
C-2Zdobycie wiedzy na temat wlasnosci sygnalu mowy
C-3Zapoznanie sie z podstawowymi mechanizmami i technikami rozpoznawania mowy izolowanej i ciaglej oraz syntezy mowy
C-4Zdobycie umiejetnosci tworzenia oprogramowania wykorzystujacego sygnal mowy w procesie glosowej interakcji miedzy komputerem a uzytkownikiem
C-5Zapoznanie sie z programowymi pakietami sluzacymi do tworzenia systemow analizy i syntezy sygnalu mowy

Treści programowe z podziałem na formy zajęć

KODTreść programowaGodziny
laboratoria
T-L-1Implementacja podstawowych metod parametryzacji mowy w systemie MATLAB.2
T-L-2Budowa prostego systemu pozwalajcego na identyfikowanie mowcy na podstawie pojedynczej wypowiedzi z wykorzystaniem srodowiska MATLAB.2
T-L-3Zapoznanie sie z architektura systemu HTK, konfiguracja, zaznajomienie sie z formatami danych. Przykladowe zadania ekstrakcji cech i tworzenia modeli HMM. Opracowanie bazy pojedynczych slow i wykorzystanie jej do budowy systemu rozpoznawania mowy izolowanej z uzyciem pakietu HTK.3
T-L-4Wykorzystanie systemu FESTIVAL do realizacji przykładów syntezy mowy w języku polskim.1
T-L-5Wykorzystanie poznanych technik do proby sterowania interfejsem uzytkownika (reakcja na okreslonego mowce, na wydawane polecenia glosowe, potwierdzanie glosowe).2
10
wykłady
T-W-1Mechanizmy wytwarzania sygnału mowy. Budowa traktu głosowego. Metody i warunki akwizycji sygnału mowy.2
T-W-2Identyfikacja cech osobniczych mowcy. Techniki kompensacji cech charakterystycznych mowcy.2
T-W-3Metody i systemy rozpoznawania mowy izolowanej oraz ciaglej.2
T-W-4Techniki syntezy mowy. Zasady syntezy formantowej i konkatenacyjnej sygnału mowy.2
T-W-5Zasady projektowania glosowych systemow interakcji czlowiek-komputer. Architektura interfejsów dedykowanych komunikacji głosowej.2
10

Obciążenie pracą studenta - formy aktywności

KODForma aktywnościGodziny
laboratoria
A-L-1Uczestnictwo w zajęciach.12
A-L-2Przygotowanie się do zajęć.10
A-L-3Udział w konsultacjach.10
32
wykłady
A-W-1Uczestnictwo w zajęciach.10
A-W-2Przygotowanie się do zaliczenia.17
27

Metody nauczania / narzędzia dydaktyczne

KODMetoda nauczania / narzędzie dydaktyczne
M-1Wyklad informacyjny
M-2Ćwiczenia laboratoryjne

Sposoby oceny

KODSposób oceny
S-1Ocena podsumowująca: Egzamin pisemny
S-2Ocena formująca: Zaliczenie na podstawie oceny zaimplementowanych i zbadanych technik przetwarzania sygnału mowy

Zamierzone efekty kształcenia - wiedza

Zamierzone efekty kształceniaOdniesienie do efektów kształcenia dla kierunku studiówOdniesienie do efektów zdefiniowanych dla obszaru kształceniaOdniesienie do efektów kształcenia prowadzących do uzyskania tytułu zawodowego inżynieraCel przedmiotuTreści programoweMetody nauczaniaSposób oceny
I_1A_O/1/2_W01
Znajomosc funkcjonowania mechanizmow interakcji glosowej miedzy uzytkownikiem a komputerem. Zdobycie wiedzy zwiazanej z analiza i synteza sygnalow mowy w kontekscie budowy programowych systemow rozpoznawania i syntezy mowy oraz identyfikacji i weryfikacji mowcow. Umiejetnosc projektowania i implementacji programowych systemow interakcji glosowej.
I_1A_W19, I_1A_W14, I_1A_W16C-2, C-1, C-3T-W-5, T-W-1, T-W-4, T-W-3, T-W-2M-1S-1

Zamierzone efekty kształcenia - umiejętności

Zamierzone efekty kształceniaOdniesienie do efektów kształcenia dla kierunku studiówOdniesienie do efektów zdefiniowanych dla obszaru kształceniaOdniesienie do efektów kształcenia prowadzących do uzyskania tytułu zawodowego inżynieraCel przedmiotuTreści programoweMetody nauczaniaSposób oceny
I_1A_O/1/2_U01
Umiejetnosc wskazania technik przetwarzania mowy majacych zastosowanie w podstawowych zadaniach interakcji glosowej takich jak rozpoznawania mowy izolowanej, ciągłej, rozpoznawania i weryfikacji mówcy oraz syntezy mowy.
I_1A_U19, I_1A_U14, I_1A_U01, I_1A_U02, I_1A_U03C-4, C-5T-L-3, T-L-4, T-L-2, T-L-1, T-L-5, T-W-5, T-W-1M-2, M-1S-2

Kryterium oceny - wiedza

Efekt kształceniaOcenaKryterium oceny
I_1A_O/1/2_W01
Znajomosc funkcjonowania mechanizmow interakcji glosowej miedzy uzytkownikiem a komputerem. Zdobycie wiedzy zwiazanej z analiza i synteza sygnalow mowy w kontekscie budowy programowych systemow rozpoznawania i syntezy mowy oraz identyfikacji i weryfikacji mowcow. Umiejetnosc projektowania i implementacji programowych systemow interakcji glosowej.
2,0nie spełnia wymogów na ocenę dostateczną
3,0Zna sposób wytwarzania sygnału mowy, jego właściwości w kontekście przetwarzania i rozpoznawania oraz jest w tanie okreslić typowe zastosowania sygnału mowy w interfejsach człowiek-komputer (HCI). Zna ograniczenia istniejących rozwiązań przetwarzania mowy i pakiety programowe wspomagające jej przetwarzanie.
3,5jak na ocenę 3,0 oraz dodatkowo zna przebieg procesu parametryzacji mowy oraz rodzaje cech opisujące ten sygnał.
4,0jak na ocenę 3,5 oraz potrafi wymienić i krótko opisać algorytmy maszynowego uczenia stosowane w systemach przetwarzania mowy.
4,5jak na ocenę 4,0 oraz potrafi opisać typowe podejścia do rozpoznawania mowy izolowanej i ciągłej.
5,0jak na ocenę 4,5 oraz umie wyjaśnić ogólną zasadę funkcjonawania technik służących do syntezy mowy. Potrafi zaproponować architekturę kompletnego systemu do komunikacji głosowej.

Kryterium oceny - umiejętności

Efekt kształceniaOcenaKryterium oceny
I_1A_O/1/2_U01
Umiejetnosc wskazania technik przetwarzania mowy majacych zastosowanie w podstawowych zadaniach interakcji glosowej takich jak rozpoznawania mowy izolowanej, ciągłej, rozpoznawania i weryfikacji mówcy oraz syntezy mowy.
2,0nie spełnia wymogów na ocenę dostateczną
3,0Potrafi zrealizować prosty proces parametryzacji sygnału mowy w środowisku MATLAB.
3,5jak na ocenę dostateczną oraz potrafi konfigurować i użytkować pakiet HTK w stopniu podstawowym umożliwiającym uruchamianie gotowych rozwiązań.
4,0jak na ocenę 3,5 oraz potrafi wykorzystać pakiet Festival do syntezy mowy
4,5jak na ocenę 4,0 oraz umie stworzyć system rozpoznawania ograniczonego podzbioru słów izolowanych z wykorzystaniem gotowego pakietu (HTK, JULIUS , SPHINX) lub własnego rozwiązania programowego.
5,0jak na ocenę 4,5 oraz potrafi zbudować prosty system identyfikacji mówców.

Literatura podstawowa

  1. D. Ostaszewska, J. Tambor, Fonetyka i fonologia współczesnego języka polskiego, Wydawnictwo PWN, Warszawa, 2008
  2. D. Jurafsky, J. H. Martin, Speech and Language Processing, Prentice Hall, New Jersey, 2009
  3. X. Huang, A. Acero, H. Hon, Spoken Language Processing, Prentice Hall, New Jersey, 2001
  4. L. Rabiner, B. Juang, Fundamentals of Speech Recognition, Prentice Hall, New jersey, 1993
  5. J. Deller, J. Hansen, J. Proakis, Discrete-Time Processing of Speech Signals, A John Wiley & Sons, Inc., New York, 2000

Literatura dodatkowa

  1. S. Levinson, Mathematical Models for Speech Technology, John Wiley & Sons, Ltd., The Atrium Southern Gate, Chichester West Sussex, 2005
  2. F. Jelinek, Statistical Methods for Speech Recognition, The MIT Press, Cambridge, Massachusetts, 1997
  3. K. Stevens, Acoustic Phonetics, The MIT Press, Cambridge, Massachusetts, 2000

Treści programowe - laboratoria

KODTreść programowaGodziny
T-L-1Implementacja podstawowych metod parametryzacji mowy w systemie MATLAB.2
T-L-2Budowa prostego systemu pozwalajcego na identyfikowanie mowcy na podstawie pojedynczej wypowiedzi z wykorzystaniem srodowiska MATLAB.2
T-L-3Zapoznanie sie z architektura systemu HTK, konfiguracja, zaznajomienie sie z formatami danych. Przykladowe zadania ekstrakcji cech i tworzenia modeli HMM. Opracowanie bazy pojedynczych slow i wykorzystanie jej do budowy systemu rozpoznawania mowy izolowanej z uzyciem pakietu HTK.3
T-L-4Wykorzystanie systemu FESTIVAL do realizacji przykładów syntezy mowy w języku polskim.1
T-L-5Wykorzystanie poznanych technik do proby sterowania interfejsem uzytkownika (reakcja na okreslonego mowce, na wydawane polecenia glosowe, potwierdzanie glosowe).2
10

Treści programowe - wykłady

KODTreść programowaGodziny
T-W-1Mechanizmy wytwarzania sygnału mowy. Budowa traktu głosowego. Metody i warunki akwizycji sygnału mowy.2
T-W-2Identyfikacja cech osobniczych mowcy. Techniki kompensacji cech charakterystycznych mowcy.2
T-W-3Metody i systemy rozpoznawania mowy izolowanej oraz ciaglej.2
T-W-4Techniki syntezy mowy. Zasady syntezy formantowej i konkatenacyjnej sygnału mowy.2
T-W-5Zasady projektowania glosowych systemow interakcji czlowiek-komputer. Architektura interfejsów dedykowanych komunikacji głosowej.2
10

Formy aktywności - laboratoria

KODForma aktywnościGodziny
A-L-1Uczestnictwo w zajęciach.12
A-L-2Przygotowanie się do zajęć.10
A-L-3Udział w konsultacjach.10
32
(*) 1 punkt ECTS, odpowiada około 30 godzinom aktywności studenta

Formy aktywności - wykłady

KODForma aktywnościGodziny
A-W-1Uczestnictwo w zajęciach.10
A-W-2Przygotowanie się do zaliczenia.17
27
(*) 1 punkt ECTS, odpowiada około 30 godzinom aktywności studenta
PoleKODZnaczenie kodu
Zamierzone efekty kształceniaI_1A_O/1/2_W01Znajomosc funkcjonowania mechanizmow interakcji glosowej miedzy uzytkownikiem a komputerem. Zdobycie wiedzy zwiazanej z analiza i synteza sygnalow mowy w kontekscie budowy programowych systemow rozpoznawania i syntezy mowy oraz identyfikacji i weryfikacji mowcow. Umiejetnosc projektowania i implementacji programowych systemow interakcji glosowej.
Odniesienie do efektów kształcenia dla kierunku studiówI_1A_W19zna podstawowe pojęcia związane ze sterowaniem procesami fizycznymi
I_1A_W14zna wybrane metody i techniki służące do komunikacji człowieka z komputerem
I_1A_W16ma wiedzę dotyczącą możliwości zastosowania informatyki w różnych dziedzinach aktywności ludzkiej (np. w przemyśle, zarządzaniu i medycynie)
Cel przedmiotuC-2Zdobycie wiedzy na temat wlasnosci sygnalu mowy
C-1Zrozumienie podstaw natury wytwarzania mowy
C-3Zapoznanie sie z podstawowymi mechanizmami i technikami rozpoznawania mowy izolowanej i ciaglej oraz syntezy mowy
Treści programoweT-W-5Zasady projektowania glosowych systemow interakcji czlowiek-komputer. Architektura interfejsów dedykowanych komunikacji głosowej.
T-W-1Mechanizmy wytwarzania sygnału mowy. Budowa traktu głosowego. Metody i warunki akwizycji sygnału mowy.
T-W-4Techniki syntezy mowy. Zasady syntezy formantowej i konkatenacyjnej sygnału mowy.
T-W-3Metody i systemy rozpoznawania mowy izolowanej oraz ciaglej.
T-W-2Identyfikacja cech osobniczych mowcy. Techniki kompensacji cech charakterystycznych mowcy.
Metody nauczaniaM-1Wyklad informacyjny
Sposób ocenyS-1Ocena podsumowująca: Egzamin pisemny
Kryteria ocenyOcenaKryterium oceny
2,0nie spełnia wymogów na ocenę dostateczną
3,0Zna sposób wytwarzania sygnału mowy, jego właściwości w kontekście przetwarzania i rozpoznawania oraz jest w tanie okreslić typowe zastosowania sygnału mowy w interfejsach człowiek-komputer (HCI). Zna ograniczenia istniejących rozwiązań przetwarzania mowy i pakiety programowe wspomagające jej przetwarzanie.
3,5jak na ocenę 3,0 oraz dodatkowo zna przebieg procesu parametryzacji mowy oraz rodzaje cech opisujące ten sygnał.
4,0jak na ocenę 3,5 oraz potrafi wymienić i krótko opisać algorytmy maszynowego uczenia stosowane w systemach przetwarzania mowy.
4,5jak na ocenę 4,0 oraz potrafi opisać typowe podejścia do rozpoznawania mowy izolowanej i ciągłej.
5,0jak na ocenę 4,5 oraz umie wyjaśnić ogólną zasadę funkcjonawania technik służących do syntezy mowy. Potrafi zaproponować architekturę kompletnego systemu do komunikacji głosowej.
PoleKODZnaczenie kodu
Zamierzone efekty kształceniaI_1A_O/1/2_U01Umiejetnosc wskazania technik przetwarzania mowy majacych zastosowanie w podstawowych zadaniach interakcji glosowej takich jak rozpoznawania mowy izolowanej, ciągłej, rozpoznawania i weryfikacji mówcy oraz syntezy mowy.
Odniesienie do efektów kształcenia dla kierunku studiówI_1A_U19ma umiejętność wyboru algorytmu i struktur danych do rozwiązania określonego zadania inżynierskiego
I_1A_U14ma umiejętność tworzenia interfejsów użytkownika oraz wykorzystania różnych sposobów komunikacji z systemami komputerowymi
I_1A_U01potrafi w zakresie podstawowym projektować, implementować i testować oprogramowanie
I_1A_U02potrafi aktywnie uczestniczyć w pracach projektowych zespołowych i indywidualnych
I_1A_U03umie oceniać przydatność i stosować różne paradygmaty programowania, języki i środowiska programistyczne do rozwiązywania problemów dziedzinowych
Cel przedmiotuC-4Zdobycie umiejetnosci tworzenia oprogramowania wykorzystujacego sygnal mowy w procesie glosowej interakcji miedzy komputerem a uzytkownikiem
C-5Zapoznanie sie z programowymi pakietami sluzacymi do tworzenia systemow analizy i syntezy sygnalu mowy
Treści programoweT-L-3Zapoznanie sie z architektura systemu HTK, konfiguracja, zaznajomienie sie z formatami danych. Przykladowe zadania ekstrakcji cech i tworzenia modeli HMM. Opracowanie bazy pojedynczych slow i wykorzystanie jej do budowy systemu rozpoznawania mowy izolowanej z uzyciem pakietu HTK.
T-L-4Wykorzystanie systemu FESTIVAL do realizacji przykładów syntezy mowy w języku polskim.
T-L-2Budowa prostego systemu pozwalajcego na identyfikowanie mowcy na podstawie pojedynczej wypowiedzi z wykorzystaniem srodowiska MATLAB.
T-L-1Implementacja podstawowych metod parametryzacji mowy w systemie MATLAB.
T-L-5Wykorzystanie poznanych technik do proby sterowania interfejsem uzytkownika (reakcja na okreslonego mowce, na wydawane polecenia glosowe, potwierdzanie glosowe).
T-W-5Zasady projektowania glosowych systemow interakcji czlowiek-komputer. Architektura interfejsów dedykowanych komunikacji głosowej.
T-W-1Mechanizmy wytwarzania sygnału mowy. Budowa traktu głosowego. Metody i warunki akwizycji sygnału mowy.
Metody nauczaniaM-2Ćwiczenia laboratoryjne
M-1Wyklad informacyjny
Sposób ocenyS-2Ocena formująca: Zaliczenie na podstawie oceny zaimplementowanych i zbadanych technik przetwarzania sygnału mowy
Kryteria ocenyOcenaKryterium oceny
2,0nie spełnia wymogów na ocenę dostateczną
3,0Potrafi zrealizować prosty proces parametryzacji sygnału mowy w środowisku MATLAB.
3,5jak na ocenę dostateczną oraz potrafi konfigurować i użytkować pakiet HTK w stopniu podstawowym umożliwiającym uruchamianie gotowych rozwiązań.
4,0jak na ocenę 3,5 oraz potrafi wykorzystać pakiet Festival do syntezy mowy
4,5jak na ocenę 4,0 oraz umie stworzyć system rozpoznawania ograniczonego podzbioru słów izolowanych z wykorzystaniem gotowego pakietu (HTK, JULIUS , SPHINX) lub własnego rozwiązania programowego.
5,0jak na ocenę 4,5 oraz potrafi zbudować prosty system identyfikacji mówców.