PORT

Počítačová lingvistika

28. 11. 2007

Ve světě sci-fi lidé se stroji plynně komunikují a roboty dokonce projevují city. Ve skutečnosti jsme teprve na začátku dlouhé cesty. Možná nevíte, že i software běžného počítače, se kterým každý den pracujeme, obsahuje program, který umožňuje hlasové ovládání. Když jej ale otevřeme, zjistíme, že dělá chyby nejen ve slovech, ale i ve stavbě vět a souvětí. Také zkušenosti s automatickými překladači dostupnými na internetu mohou vést až ke komickým výsledkům. Počítačové programy, které skutečně rozumějí lidské řeči, vyvíjejí například na matematicko-fyzikální fakultě Karlovy univerzity i na Technologické univerzitě v Liberci. Ovšem, jak vědci tvrdí, mnohem těžší, než naučit počítač mluvit, je přimět jej, aby nám porozuměl.

8:17

Animované hlavy:
Muž: Pěkný den!
Žena: Dobrý den! Vítejte u televizního magazínu Port!

Ve světě sci-fi lidé plynně komunikují s roboty, které dokonce projevují emoce. V naší přítomné skutečnosti jsme však teprve na začátku dlouhé cesty. Počítačové programy, které rozumějí lidské řeči, nebo takové, které dokáží mluvit, teprve vznikají.

Jednou z aplikací, které v sobě spojují řeč i obraz, jsou tzv. mluvící hlavy, vyvíjené v zahraničí i u nás, na univerzitách v Liberci a v Plzni.

Ing. Josef Chaloupka, PhD., Technická univerzita v Libereci: Nejdříve je potřeba vytvořit třírozměrný model lidské tváře, pak je potřeba vytvořit velkou audiovizuální databázi, kde jsou namluvená jednotlivá slova, věty. A z této databáze je na základě jednotlivých algoritmů vytvořena tato mluvicí tvář.

Doc. Ing. Luděk Müller, Ph.D., Západočeská univerzita Plzeň: Tady je vidět část toho jazyka a úst a očí. Prostě to můžeme různě natáčet.

Odborníci učí počítač zřetelně artikulovat. Trojrozměrná mluvící hlava vyvinutá na Západočeské univerzitě představuje revoluční program. 3-D pohyby rtů, jazyka a čelistí jsou velice blízké lidským. Program už mluví plynulou češtinou. Pro sluchově handicapované tady vytvořili virtuální postavu, kterou učí převést text nebo mluvenou řeč do znakové podoby. Ovšem mnohem těžší, než naučit počítač mluvit, je přimět jej, aby nám porozuměl.

RNDr. Pavel Krbec, PhD., absolvent Ústavu formální a aplikované lingvistiky, MFF UK: Čeština je tzv. flexivní jazyk, takže to znamená, že k jednomu základnímu tvaru existuje mnoho odvozených tvarů, a to každý z nás ví, že slovesa mohou mít mnoho koncovek, které jednotlivé tvary odlišují. A tohle přesně je problém, na který narážíme, když vyhledáváme v nějakém vyhledávači zaměřeném na angličtinu.

Čeština tedy klade mnohem větší nároky než angličtina. Tady byla velkou pomocí takzvaná korpusová lingvistika. Je to odvětví na pomezí matematických a humanitních věd a jeho cílem je zpracovat daný jazyk do elektronického souboru – korpusu. Ten bude obsahovat u daného slova všechny myslitelné varianty a umožní s nimi plynule pracovat.

Prof. RNDr. Jan Hajič, Dr., ředitel Ústavu formální a aplikované lingvistiky, MFF UK: Já to ukáži na příklad slova „stát“. U slova stát musíme nejdříve zjistit, jestli se jedná o podstatní jméno, jako je „český stát“, nebo jestli se jedná o sloveso. Ale i když už zjistíme, že se jedná o sloveso, tak pořád ještě máme další možnost. Můžeme stát na nohou, něco může stát peníze, nebo můžeme stát o něco, že něco chceme.

Korpus znamenal ve spolupráci s Filozofickou fakultou více než desetileté úsilí a obsahuje na půl miliardy slov. Ve svých aplikacích nyní počítačová lingvistika směřuje ke strojovému záznamu lidské řeči.

Prof. RNDr. Jan Hajič, Dr., ředitel Ústavu formální a aplikované lingvistiky, MFF UK: My tady ty experty předzpracovaná data vložíme do počítače spolu s chytrými programy automatického učení, a ten počítač se naučí, jaké jsou souvislosti mezi textem, tak jak to člověk čte, a mezi významem věty.

Prof. Ing. Jan Nouza, CSc., vedoucí Laboratoře počítačového zpracování řeči, Technická univerzita v Liberci: V roce 2003 vědci z Technické univerzity v Liberci představili prototyp prvního hlasového diktovacího systému pro češtinu. Text bylo nutné diktovat slovo po slovu, s krátkou mezerou mezi slovy. Systém ale již pracoval se slovníkem obsahujícím 400 tisíc slov a slovních tvarů, což umožnilo pokrýt běžné texty z téměř 99 %. Prototyp pro přirozenější, plynulé diktování zatím běží pouze se stotisícovým slovníkem. Zaprvé jsme museli zvládnout techniku rozpoznávání řeči, ale zároveň také vytvořit slovník pro češtinu. Ten diktovací systém pro nespojité diktování má v současné době více než půl milionu slov a slovních tvarů.

Jinou užitečnou aplikací vyvinutou na libereckém pracovišti je program MyVoice, který postiženým umožňuje ovládat počítač hlasem místo klávesnicí nebo myší. Hodí se na práci i na hraní. Program je už běžně k dostání.

Ing. Petr Červa, doktorand na Technické univerzitě v Liberci: Program rozpoznává hlasové povely a na základě těchto hlasových povelů simuluje v počítači akce, které vlastně se provádějí jinak pomocí klávesnice a myši.

Pro český jazyk je velkou brzdou jeho složitost a zároveň malý počet lidí, kteří jím mluví. Přesto už vznikají systémy, které dokáží bez větších obtíží převést například záznam televizních zpráv do psaného textu. Systém vyvinutý v Liberci je již nasazen v jedné pražské společnosti zaměřené na monitoring médií.

Ing. Josef Chaloupka, PhD, Technická univerzita v Liberci: V naší laboratoři se snažíme o přepis televizních pořadů a právě v tomto přepisu se objevila možnost, že by se daly získat informace i z vizuálního signálu. To znamená detekování jednotlivých obličejů mluvčích a rozpoznávání těchto mluvčích na základě jejich obličeje.

Program MALACH vyvinutý na Západočeské univerzitě v Plzni je určen pro zpracování archivu výpovědí svědků holocaustu. Na základě jednoduchých dotazů je možné vyhledávat v rozsáhlém mnoha set hodinovém videoarchivu konkrétní události, například o transportu, stravě nebo tetování vězňů.

Prof. Ing Josef Psutka, CSc., Západočeská univerzita Plzeň: Uživatel si napíše klíčové slovo, které by chtěl v těch výpovědích vyhledat a všude, kde v nich ti přeživší vypráví, tak se ty úseky najdou a přehrají.

Program je také možné použít při práci s televizními a rozhlasovými archivy, může složit i různým muzeím a dalším institucím. Čeština práci s mluveným slovem značně komplikuje. Nicméně programy již nyní umějí téměř všechno, co se učí děti na základní škole. Nyní se například také vyvíjejí programy, které umějí titulkovat živé televizní pořady.

Ing. Aleš Pražák, Západočeská univerzita Plzeň: Systém se naučí, jak vypadají jednotlivé hlásky, když to řeknu zjednodušeně, a ten systém pak z jednotlivých hlásek poskládá slova, která chce rozpoznat, poté porovnává s těmi předlohami.

Pokud je zvuk třeba při hokejovém utkání rušen hlukem, je možné titulky vytvářet přímo z komentáře hlasatele sedícího v tichém studiu. Programy jsou algoritmicky velmi náročné a navíc slovníky se vyvíjejí ručně. Musí se do nich zabudovat příslušná znalost tvarosloví, pokud možno všechna slova, která se v češtině mohou vyskytnout, včetně všech výjimek.

Všechno napovídá tomu, že brzy budeme moci hlasem ovládat počítač nebo i domácí spotřebiče. Počítač nahradí zaměstnance informačních center. Doba, kdy si popovídáme s robotem o potížích v práci nebo o plánech na víkend, je zase o něco blíž.

Animovaná opička: Nashledanou! Uvidíme se příští týden!

Přejít na obsah dílu