Kdopak to mluví?
12. 11. 2008
Při Ústavu počítačové grafiky a multimédií FIT VUT v Brně existuje Skupina zpracování řeči Speech@FIT. Dlouhodobě se věnuje analýze a rozpoznávání mluvené řeči a patří v tom mezi světovou špičku. Při analýze se řeší několik odlišných problémů, přičemž jednu z nich lze vyjádřit prostou otázkou: Co bylo řečeno? Vědci tu buď rozpoznávají celé bloky mluveného slova za pomoci slovníků, anebo se věnují pouze rozpoznávání určitých klíčových slov. Další otázka zní: Jakou řečí se mluví? Systém dokáže rozlišovat jazyky mluvčích. A otázka poslední: Kdo to řekl? Tady lze metodu použít při identifikaci osob. Vědecké týmy z celého světa v řešení těchto problémů soutěží. Náš český tým se umisťuje pravidelně mezi prvními.

Padouch: Haló, to jste vy s tou vědou? Okamžitě skončete vysílání, nebo vás všechny vyhodím do vzduchu.
Boj proti terorismu se vede i ve vědeckých laboratořích. Desítky výzkumných týmů na celém světě hledají způsob, jak určit jednoznačnou identitu člověka podle hlasu. Může jednou hlas sloužit podobně jako otisky prstů? Tuto otázku zkoumají i na Fakultě informačních technologií v Brně. Právě sem vezeme záznam hlasu pachatele a chceme, aby vědci pomohli tuto osobu určit. Vědcům přivážíme celkem tři nahrávky. Označujeme je písmeny. Záznam A je počítačově zkreslen tak, aby nebylo snadné muže poznat.
Ukázka A: Posloucháte mě někdo? Pište si!
Na nahrávce B se pachatel sám snažil svůj hlas co nejvíce změnit.
Ukázka B: A nemyslete si chlapci …
A na nahrávce C byl zachycen přirozený hlas pachatele.
Ukázka C3: Posloucháte mě někdo? Pište si!
Vědci místo poslouchání nahrávek svěřují rozpoznávání hlasu svým počítačům. Předtím je ale museli naučit, jak hlas člověka vypadá. Tomuto vzoru se říká model.
Doc. Dr. Ing. Jan Černocký, Vedoucí Skupiny zpracování řeči Speech@FIT: Já bych to přirovnal k situaci, kdy se Marťan má naučit rozpoznávat mluvčí. Dostal deset tisíc fotografií různých lidí a vůbec neví, na co se zaměřit. Jestli je to obrázek vpravo nahoře na té fotografii, nebo jestli je to ta fotka člověka, nebo jestli je to barevné pozadí, on prostě neví.
Ing. Pavel Matějka, Skupina zpracování řeči Speech@FIT: To je, jako kdybych vás nikdy neviděl, a vy jste přišel a řekl mi … ne, vůbec nic byste neřekl, a dal mi flešku a na té flešce by byla vaše nahrávka a já bych měl říct, jestli ta nahrávka patří vám nebo ne.
Doc. Dr. Ing. Jan Černocký, Vedoucí Skupiny zpracování řeči Speech@FIT: Takže vy mu předkládáte těch deset tisíc fotografií a on vidí, že se tam některé věci opakují stále dokola, že tam má hlavičku, dvě ručičky, tělo, nohy. A z toho si udělá jakýsi obecný obraz o člověku. Takže ten Marťan teďka už má ten model pozadí, ten model světa a když mu teď řeknete: teď se nauč rozpoznávat pana Nováka a předložíte mu fotografii pana Nováka, tak on už se nebude zaměřovat na to barevné pozadí ani na karafiát na stole, ale řekne si: ano, pan Novák má modré oči, má trošku větší nos, má malou plešku, a podle toho ho dokážu rozpoznat. Podobně to funguje i u rozpoznávání hlasu.
Určit identitu zkoumaného hlasu můžeme, pouze pokud máme s čím porovnávat. Je to stejné, jako když porovnáváme otisk prstu. Bez databáze otisků podezřelých osob bychom se neobešli. Brněnským vědcům proto předkládáme nahrávky hlasů pěti podezřelých individuí. Označili jsme je čísly 1 až 5. Počítač jejich hlasy porovná s nahrávkami pachatele. Čím vyšší shoda, tím větší číslo dostaneme.
Ing. Pavel Matějka, Skupina zpracování řeči Speech@FIT: Máme tady mluvčího jedna a systém si myslí, že je nejpodobnější mluvčímu C, mluvčí dva je … opět nejpodobnější s mluvčímu C, mluvčí tři opět s mluvčím C… všechny jsou nejpodobnější s mluvčím C.
Pachatel totiž na nahrávce C mluví svým přirozeným hlasem, zatímco jeho nahrávky A a B jsou zkreslené. Proto je počítač odmítá a pro všechny hlasy podezřelých vybírá jako nejpodobnější nahrávku C. Jen jeden z podezřelých ale patří k céčku.
Doc. Dr. Ing. Jan Černocký, Vedoucí Skupiny zpracování řeči Speech@FIT: Hlas je méně spolehlivý než otisk prstu. Protože pokud si ten prst neobrousíte, tak otisk prstu vás opravdu velmi přesně identifikuje. Hlas může být změněn prostředím, může být změněn tím, co vlastně říkáte, jaké máte zrovna emoce, může to být také změněno přenosovým kanálem – jestli mluvíte přes nějaké rádiové chrochtátko, přes mobil, přes IP telefon, pokaždé ten hlas zní trošku jinak. A my se právě ty naše systémy snažíme naučit, aby se zaměřovaly na informace o mluvčích a zahazovaly všechny ty ostatní informace, které pro identifikaci mluvčích nejsou užitečné.
Pro praktické použití ovšem není důležité jen rozpoznání toho, kdo to řekl, hodí se také zjišťovat, jakou řečí to řekl. Jde o rozpoznávání jazyka.
Ing. Valiantsina Hubeika, Skupina zpracování řeči Speech@FIT: Rozpoznávání jazyka se může používat například na pohotovosti. Třeba v Americe vlastně bydlí lidi úplně z celého světa, a zdaleka ne každý mluví anglicky. Takže se může stát, že na pohotovost bude volat člověk a vy vůbec nejste jako operátor schopný rozpoznat jakým jazykem mluví. Samozřejmě chcete tomu člověku pomoci, takže musíte najít operátora, který ovládá patřičný jazyk, takže musíte rychle rozpoznat, co to je za jazyk. V takových případech můžeme používat automatické rozpoznávání jazyka a pak by se hovor přepojil na patřičného operátora a zpracoval se dále.
Bezpečnostní složky na celém světě ale zajímá především to, jak jednoduše rozpoznat obsah hovoru dvou osob, tedy to, co bylo řečeno. Třeba teroristou.
Doc. Dr. Ing. Jan Černocký, Vedoucí Skupiny zpracování řeči Speech@FIT: Příklad: Máte deset tisíc hodin nahrávek a potřebujete vyhledat, kdy se mluvilo o České televizi v prvním programu. Kdybyste to měl přeposlouchávat, potřebujete deset tisíc hodin. Kdybyste to měl nechat přepisovat, potřebujete deset tisíc hodin. Pokud to projdeme automatickým rozpoznávačem, potřebujeme možná sto hodin strojového času, a potom dostaneme texty, které se dají naindexovat a kde se dá pak vyhledávat jako Googlem.
Ing. Lukáš Burget, Ph.D., vědecký ředitel Skupiny zpracování řeči Speech@FIT:Víte, že se na internetu objevuje čím dál tím více nějakých multimediálních záznamů, takže různé zprávy, různé filmy a podobné audio-videozáznamy. A právě tyto technologie umožňují vyhledávat nějaká klíčová slova v audio-videozáznamech a lidé se tady nad tímto způsobem teď orientují a snaží se opravdu tuto technologii udělat prakticky použitelnou a dá se očekávat, že v hodně blízké budoucnosti podobné technologie uvidíme na webu.
Už dnes existují internetové stránky, kde takové vyhledávání je možné. Kupříkladu server MIDOMI.COM, vyhledávající hudbu. Stačí pouze deset sekund pískat oblíbenou písničku a během chvilky vám server vyhledá tutéž melodii, zazpívanou vašimi předchůdci i profesionály. Nás ale zajímá, jak si v Brně vedli při rozpoznávání pachatele.
Ing. Pavel Matějka, Skupina zpracování řeči Speech@FIT: Takže hlas C, který je de facto nezkreslený, tak nám tady vyšlo, že je úplně nejvíce a s jistotou rozpoznatelný mezi těmi mluvčími, které jsme si řekli. Hlas B, který byl takový, že ten mluvčí se snažil sám o sobě změnit ten hlas, tak systém ho opět rozpoznal, s tím, že si není natolik jistý, jako si byl v tom případě, ale pořád je tam třikrát větší důvěryhodnost oproti druhému možnému mluvčímu. A hlas A, který byl zkreslen počítačem, tam si systém myslí, že je to nejblíže podobné k mluvčímu číslo čtyři a s trochu menší pravděpodobností k mluvčímu číslo pět. Dalo by se říci, že ti první dva mluvčí čtyři a pět by se dali považovat za horké kandidáty.
Výborně! Máme pachatele! A to i přesto, že porovnávání tak malého počtu vzorků, jaké jsme měli, nebylo tak přesné, jako když brněnští vědci porovnávali tisíce telefonických nahrávek v mezinárodních soutěžích – takzvaných evaluacích. Při nich dokázali rozpoznávat mluvčího s přesností 94 %. Nás ale těší, že i když jsme záměrně uměle prohloubili pachatelův hlas, počítač ho zařadil hned na druhé místo.
Ing. Lukáš Burget, Ph.D., vědecký ředitel Skupiny zpracování řeči Speech@FIT: Pro rozpoznání hlasu člověka hloubka toho hlasu není důležitá. Nebo není podstatná, alespoň. Jednoduchý trik, který velmi často funguje, je prostě jednoduše si zacpat nos a to vám změní hlas natolik, že s tím naše systémy budou mít problém. Samozřejmě, jednoduchý trik, jak opět ty naše systémy spravit, by bylo říct všem mluvčím, které my si nahráváme, abychom náš systém mohli natrénovat, ať jednu promluvu řeknou normálně a druhou se zacpaným nosem a systém by se zase naučil, jak může znít stejný člověk, když má zacpaný nos, nebo ne.
Michael: Haló, to je Port? Jestli nepřestanete vysílat o vědě, odpálíme nálož …
Moderátorka: Vy máte rýmu, Michaele?
Autor: Marek Janáč