Rozpoznávání řeči: Porovnání verzí

Smazaný obsah Přidaný obsah
JAnDbot (diskuse | příspěvky)
m Robot: přidáno {{Autoritní data}}
m úprava stylu
Řádek 10:
== Závislost na mluvčím ==
 
Rozpoznávání řeči může být jednak závislé na mluvčím (SD''speaker -dependent'', Speaker DependentSD) či na mluvčím nezávislé (SI''speaker -independent'', Speaker IndependentSI).
 
Systémy, které jsou závislé na mluvčím dosahují pro danou osobu lepších výsledků, ale jejich nevýhodou je, že mluvčí musí namluvit několik hodin nahrávek, aby bylo možné natrénovat dobré modely.
 
Systémy, které jsou nezávislé na mluvčím jsou natrénované pomocí nahrávek od velkého množství lidí. Nedosahují ovšem takové úspěšnosti jako systémy SDzávislé na mluvčím. Bylo proto vyvinuto několik metod, které SI model adaptují na konkrétního mluvčího. Mezi základní metody adaptace patří metody MAP ([[maximální aposteriorní pravděpodobnost]], [[:en:Maximum A Posteriori|Maximum a posteriori estimation]] - [[Maximální Aposteriorní Pravděpodobnost]]), MLLR ([[Maximum Likelihood Linear Regression]]) a jejich různé variace.
 
== Metody počítačového rozpoznání řeči ==
 
Pro počítačové rozpoznání řeči se využívá algoritmu '''HMM''' ([[Skrytýskrytý Markovův model|Skrytéskryté MarkovovskéMarkovovy Modelymodely]]). Tento model je statistický Markovovský model, který obsahuje skryté stavy. HMM se používají v rozpoznávání řeči, protože řečový signál může být chápán jako po částech stacionární signál, nebo po krátkých časových úsecích stacionární signál. V krátkém čase (např. 10 ms), může být řeč aproximována jako stacionární proces. Pro rozpoznávání se často používá [[Viterbiho algoritmus]] ([[:en:Viterbi algorithm]]).
 
Tato metoda se používá pro spojité rozpoznávání řeči, což je mnohem komplexnější a náročnější úloha než rozpoznávání izolovaných slov. Při vyslovování izolovaných slov se mluvčí více soustředí na konkrétní slovo a vyslovuje jej zřetelněji. Při spojité řeči dochází také k některým jevům jako je například spodoba slov (poslední hláska ve slově je ovlivněna následující hláskou, kterou začíná druhé slovo), polykání hlásek, apod.
 
Další využívanou metodou je metoda '''DTW''' ([[:en:Dynamicdynamické Timeborcení Warpingčasu]] -, [[Dynamické:en:Dynamic BorceníTime ČasuWarping]]). Tato metoda je vhodná pro rozpoznávání izolovaných slov (například pro hlasové ovládání počítače), protože je zapotřebí mít ve slovníku uloženou modelovou nahrávku každého použitého slova. Metoda měří podobnost mezi dvěma nahrávkami slov (popřípadě slovních spojení) a snaží se najít nejlepší shodu - určité úseky zkracuje či prodlužuje tak, aby byl rozdíl mezi nahrávkami co nejmenší.
 
== Rozpoznávání řeči pro češtinu ==