Chat

počítačoví lingvisté

Prof. RNDr. Jan Hajič, Dr. a RNDr. Ondřej Bojar, Ph.D.

Jan Hajič absolvoval Matematicko-fyzikální fakultu Univerzity Karlovy v Praze. Od roku 1991 pracuje a učí na MFF UK v oboru počítačová lingvistika. Několik let pobýval v zahraničí, mimo jiné ve výzkumném středisku IBM T. J. Watsona v Yorktown Heights v USA, kde se podílel na vzniku prvního systému statistického strojového překladu mezi přirozenými jazyky. Také vyučoval na Johns Hopkins University v Baltimore, rovněž v USA. V současné době je ředitelem Ústavu formální a aplikované lingvistiky MFF UK, kde řídí projekty strojového překladu, analýzu mluvené řeči a další projekty zpracování přirozeného jazyka na počítači.

Ondřej Bojar absolvoval studia informatiky – počítačové lingvistiky na Matematicko-fyzikální fakultě Univerzity Karlovy v Praze. V současné době zde vyučuje a bádá na Ústavu formální a aplikované lingvistiky. Z mnoha zahraničních studijních pobytů měla na jeho hlavní směr výzkumu největší vliv stáž na RWTH Aachen University a letní workshop na Johns Hopkins University v Baltimore. Od roku 2006 se zabývá především strojovým překladem. V každoroční soutěži ve strojovém překládání je díky jeho katedře zahrnuta i čeština, přičemž překladové systémy tohoto pracoviště kvalitou předčí české komerční produkty.

více v reportáži Překladatel z mobilu z cyklu PORT

Záznam chatu z pátku 18. listopadu 2011

shvl: „Pro oba - je to Váš první chat?“

Prof. RNDr. Jan Hajič, Dr. a RNDr. Ondřej Bojar, Ph.D.: „Dobrý den všem, začnu touhle otázkou - ano, již jsem v Portu odpovídal, a to 28. 11. 2007. Je to na webu ČT 2. -JH“

sod: „Jak starý je obor počítač. lingivistika v ČR?“

Prof. RNDr. Jan Hajič, Dr. a RNDr. Ondřej Bojar, Ph.D.: „Počítačová lingvistika (tehdy spíše jako formální či matematická) vznikla na začátku 60. let na Filosofické fakultě UK. Opravdu počítačová se pak stala po přechodu celé skupiny lingvistů a počítačových odborníků na Matematicko-fyzikální fakultu Univerzity Karlovy v Praze v roce 1973. Počítačovou lingvistikou se dnes ale v Česku v akademické sféře zabývají i další pracoviště - Západočeská univerzita v Plzni, Masarykova univerzita v Brně, TU v Liberci a další. -JH“

shvl: „Pro JH - Kdo byl T.J. Watson?“

Prof. RNDr. Jan Hajič, Dr. a RNDr. Ondřej Bojar, Ph.D.: „T. J. Watson byl šéfem firmy IBM přes 40 let (do 1956) a přivedl ji k velké slávě a výdělkům, od původních začátků prodejem tabulačních strojů až po gigantického výrobce sálových počítačů. Je po něm pojmenovaná výzkumná divize IBM, známá novátorskými výsledky ve fyzice i například v počítačové lingvistice (v tomto výzkumném centru se poprvé používaly statistické metody překladu, které dnes používá například Google Translate). -JH“

shvl: „Pane Hajiči - Vaše jméno není asi typicky české - odkud původně pocházíte?“

Prof. RNDr. Jan Hajič, Dr. a RNDr. Ondřej Bojar, Ph.D.: „Je české - je to tzv. činitelské podstatné jméno utvořené od slovesa "hájit" (i když ztratilo už tu čárku nad 'a'). Traduje se, že jeden z mých předků 'hájil' (hlídal) panské pozemky v jižních Čechách... -JH“

atrophy: „Pro JH - jak jste dostal do Baltimore?“

Prof. RNDr. Jan Hajič, Dr. a RNDr. Ondřej Bojar, Ph.D.: „Prof. Jelinek, původem Čech (nedávno zemřelý), který mne znal z IBM Research, mne pozval, když se v r. 1999 uvolnilo na rok a půl profesorské místo na Computer Science department na univerzitě Johns Hopkins v Baltimore. Učil jsem počítačovou lingvistiku a programování, podílel se na výzkumu v počítačové lingvistice.“

Jitka Procházková: „Jakým způsobem se při programování překladu z češtiny do jiných jazyků vypořádáváte s dvojsmysly?“

Prof. RNDr. Jan Hajič, Dr. a RNDr. Ondřej Bojar, Ph.D.: „Překladač se učí z velkého množství textů, takže záleží na tom, jak ten dvojsmysl přeložil člověk; počítačový překladač (pokud se to z toho "lidského" překladu dobře naučí, což také není triviální) to pak prostě dělá také tak. Ve skutečnosti tomu dvojsmyslu počítač vůbec nerozumí - aspoň ne dnešními metodami. -JH“

atrophy: „Pro OB - jak jste se dostal do Baltimore?“

Ondřej Bojar: „Rád se připojuji k diskusi a zdravím diváky dnešního dílu pořadu. Začnu touhle osobní otázkou, protože i odpověď je překvapivě osobní. Jako student jsem byl semestr v Saarbrückenu, a moje nyní již žena chtěla být blízko. Navrhla tedy vedoucímu své laboratoře (jsme taková vědecká rodina, i když každý zcela obor), ať zkusí navázat spolupráci s laboratoří v Cáchách (250 km < 650 km a nic bližšího nebylo). To se zdařilo, jenže nový projekt byl na více let a pro změnu žena musela jet do Cách ještě jednou. Když jsem zjistil, že na místní univerzitě je špičková katedra v oblasti strojového překladu, zkusil jsem podat grant k DAAD, německé agentuře podporující mj. vědecké návštěvy. Návštěva Cách pak natolik zacílila můj výzkum na strojový překlad, že se vedoucí mé disertační práce málem zlobil, na druhou stranu mne ale připravila pro letní workshop na Johns Hopkins University v Baltimoru -- a za pozvání na tento workshop pro změnu vděčím osobním vztahům mezi bohužel již zesnulým prof. Frederickem Jelinkem a prof. Hajičem, vedoucím naší katedry.“

Ludmila Hrdá: „Pokud překladač překládá např. z japonštiny do češtiny, překládá přímo nebo přes nějaký jiný jazyk, např. angličtinu? Pokud ano neztrácí se již zcela obsah?“

Prof. RNDr. Jan Hajič, Dr. a RNDr. Ondřej Bojar, Ph.D.: „Google Translate to takto dělá (přes angličtinu). Ano, jisté ztráty tam jsou, ale na druhou stranu, česko-japonských textů je tak málo, že současné statistické metody by zřejmě dělaly také velké chyby - i kdyby se učily překládat přímo. -JH“

Marie, Nespeky: „Dobrý den, je počítačová lingvistika česká složitější, než třeba čínská?“

Ondřej Bojar: „Čínštinu znám jen velmi málo, jen od kolegů, kteří například překládají mezi angličtinou a čínštinou. Rozhodně se dá říci, že problémy v obou jazycích jsou zcela jinde. Při strojovém překladu z čínštiny je velký problém poznat hranice slov, v češtině na to máme písmenko -- mezeru. Čínština je dokonce i proti angličtině tvaroslovně chudá, např. ani rozlišení množného a jednotného čísla prý není jasně patrné, proto je generování čínštiny relativně snazší. Při generování češtiny se stroj musí naopak správně zvolit jeden ze sedmi pádů, tří čísel (i duál v češtině zbytkově existuje) a čtyř rodů (mužský životný a neživotný se počítají zvlášť). Samotná volba je těžká, a zajistit příslušné shody v rámci celé věty je ještě těžší.“

Jan Nedoma: „S kuriozitami doslovného překladu intermetových překladačů se asi každý setkal - dear customer - drahoušek zákazník... Myslíte si, že v budoucnu budete schopni překladače zdokonalit? Na jakou úroven? Respektive, jak daleko si myslíte, že jste vzdáleni od cíle téměř dokonalého překládání pomocí počítačů?“

Prof. RNDr. Jan Hajič, Dr. a RNDr. Ondřej Bojar, Ph.D.: „Ano, překladové programy se zdokonalují průběžně. My např. spolupořádáme každý rok soutěž ve strojovém překladu (čeština je skoro vždy také jedním z jazyků, ve kterých se soutěží), a výsledky jsou každý rok lepší. Zlepšuje se i Google, i když to možní není tak jasně vidět, ale sledujeme to. Od dokonalého překladu ve všech situacích (zejména tlumočení, tj. překladu mluvené řeči) jsme ale opravdu daleko. Pro některé aplikace ale současná kvalita dostačuje - například při cestování často stačí překlad Google, protože se aspoň dozvíte, zda ta stránka v korejštině je o turistických atrakcích nebo o nějaké firmě. -JH“

Miroslava Tuhá: „Co je při programování překladače největším oříškem? Jinými slovy, co je nejtěžší program pro překlad naučit.“

Ondřej Bojar: „Jak jsem naznačil v předchozí odpovědi, každý jazyk (nebo rodina jazyků) má svá specifika. V češtině je těžké udělat správně větný rozbor, protože větné členy mohou být ve větě umístěny prakticky kdekoli. A obecně je těžké vyrovnat se s víceznačností. Například věta "Ženu holí stroj" má tři slova, ale čtyři gramaticky správné větné rozbory, a každý z nich by měl tedy jiný překlad do angličtiny. Z toho je zřejmé, že dnešní systémy překládající dosud jen izolované věty, nutně musí v některých případech zcela hádat.“

Bohumi Rychlý: „Hezké odpoledne pane profesore, trochu mám pocit, že tyto "stroje" podpoří lenivost a "hloupnutí" lidí. Jaký je váš profesionální pohled? Děkuji PS: vaši práci samozřejmě uznávám a zřejmě i využívám.“

Prof. RNDr. Jan Hajič, Dr. a RNDr. Ondřej Bojar, Ph.D.: „Je to možné. Ale to je každého věc - bez angličtiny (aspoň) stejně nikdo nesežene v budoucnu dobrou práci, i při sebelepším překladači budou situace, kdy bude lépe se domluvit přímo. I když pracujeme na metodách, které umožňují překlad nebo to, aby nám počítače "rozuměly", tak já osobně *velmi* podporuji výuku cizích jazyků, zejména právě angličtiny. A ve vědeckém světě se bez její kvalitní znalosti samozřejmě nedá vůbec existovat. -JH“

Sudoku: „Existují české knihy o počítač. lingvistice, či zahraniční a do ČJ přeložené?“

Jan Hajič: „Existují některé spiše popularizační ("Učíme stroje česky", už z 80. let), a knihy o rozpoznávání mluvené řeči (autor: Prof. Josef Pstuka ze ZČU). Preci jen je to vědecký obor, a kdo v něm pracuje, umí anglicky, takže to mít přeložené nepotřebuje. To trochu souvisí i s tou předchozí otázkou...“

Karel Jireš: „Každý jazyk má svoje specifika, která rodilý mluvčí podvědomě chápe a vnámá. Pokud vytváříte programy pro překládání, jakým způsobem se vyrovnáváte s tím, že jiný jazyk není vaše matřština? Spolupracujete například s profesionálními překladateli, kteří umějí podstatu daného jazyka vystihnout?“

Ondřej Bojar: „Zatím se soustředím na překlad do češtiny, kde tohle posoudit umím. Čeština jako cílový jazyk má v (počítačové) lingvistice unikum: je to jazyk složitý, s dobře propracovanou lingvistickou teorií a nebývale velkými ručními daty (např. 80 tisíc vět ručních větných rozborů, na kterých lze počítač trénovat). Troufám si tvrdit, že jsme v mnoha ohledech vzorem pro řadu jiných jazyků s podobnými vlastnostmi, a proto pokládám svou práci na češtině za obecně užitečnou. Navíc při programování strojového překladu zatím zdaleka nejsme v situaci, kde bychom potřebovali "vystihnout podstatu daného jazyka". Jsme rádi, když se podaří zvolit vhodné ekvivalenty slov a poskládát z jejich překladů zpola srozumitelný výstup.“

Josef K.: „Moc bych potřeboval přístroj, který přepisuje mluvenou češtinu do její psané podoby. Je už u nás něco podobného k dispozici?“

Jan Hajič: „I když tohle není o překladu, mohu vás alespoň nasměrovat: tímhle problémem se (úspěšně) zabývají na Západočeské univerzitě v Plzni, fakultě aplikovaných věd, katedře kybernetiky (prof. Psutka, doc. Muller, dr. Ircing) a také na Technické univerzitě v Liberci, katedře mechatroniky (prof. Nouza). Jak je to s komerční dostupností pro koncové uživatele, to ovšem nevím.“

shvl: „Pro oba- kolik je v ČR počítač. lingvistů a stačí to?“

Jan Hajič: „Ne více než 50, a v tom počítám i studenty doktorandského studia, kteří v tomto oboru dělají svůj výzkum. To jsou ale jen ti "skuteční" počítačoví lingvisté, kteří mají jak lingvistické, tak počítačové vzdělání (samozřejmě, v různém poměru). V ČR je také mnoho lingvistů, kteří pracují např. s korpusy (jako je ČNK) a mají tedy alespoň nějakou "počítačovou" zkušenost, i když programovat neumějí. Vzhledem k nyní převažujícím moderním metodám, které jsou převážně statistické a vyžadují téměř výhradně počítačové a matematické dovednosti, je rozdělení rolí celkem jednoznačné - lingvisté připravují tzv. jazyková data, a počítačoví odborníci pak tvoří systémy všeho druhu na zpracování přirozeného jazyka.“

Sudoku: „Zajímá Vás oba i normální lingvistika?“

Ondřej Bojar: „Mne rozhodně ano, ale jsem a chci zůstat pouze konzument. Lingvistické teorie jsou pro počítačové lingvisty vynikajícím zdrojem nápadů (např. informace ze vstupu, které jsou relevantní a program je musí zohlednit, nebo zobecnění, která by měl program dělat, aby si poradil s novým textem). Převést teorie do fungujícího programu je ovšem dosti pracné a praxe ukazuje, že nepříjemně často nápady od lingvistů kvalitu výstupu nezlepší. Chyba přitom často může být i v té dodatečné formalizaci do programu, ale zčásti za to může i to, že lidé často opakují, co doslova slyšeli. Úspěšné programy zpracovávající přirozený jazyk hodně používají "copy-paste", tj. žádný rozbor; lingvisté se "nudnými častými jevy" nabývají možná spíše méně.“

Bohumil Rychlý: „Prosím ještě o informaci, jak pracuje na zmíněném google překládači "Navrhnout jiný překlad" či "hodnocení překladu", resp. do jaké míry ovlivní příspěvek uživatele ostatní výsledky? Jsou zpracovány automaticky nebo člověkem? Děkuji“

Jan Hajič: „Pěkná otázka na závěr: ano, ten důvod, proč tam Google tohle má, je, že se chce na základě této zpětné vazby od uživatelů překladu naučit, kde dělá chyby a ty nějak identifikovat nebo dokonce opravovat. Dělá to nejen Google, ale i třeba firma Softissimo (http://reverso.net). Rozhodně ale současné metody neumožňují tuto zpětnou vazbu použít okamžitě - vylepšený překlad se projeví až třeba s několikaměsíčním zpožděním, kdy se překladový program vše znovu na těch obrovských textech a doplňcích od uživatelů naučí. Zrychlení tohoto "kolečka" je předmětem intenzivního výzkumu - my například na tom spolupracujeme s univerzitou v Cambridge a univerzitou v Barceloně v rámci jednoho evropského výzkumného projektu.“

Petr Vejvoda: „Myslíte si, že zažijeme dobu, kdy si každý bude moci koupit něco jako elektronickou simultánní překladatelku, tedy jakési zařízení, které si třeba pověsíme na krk a to bude tlumočit věty jak naše, tak člověka se kterým povedeme konverzaci?“

Ondřej Bojar: „Každý si asi takové zařízení koupit nebude moci, ale očekávám, že mobilní telefony tenhle instatní překlad budou nabízet stále víc. Ten v reportáži se už ostatně tváří, že to umí. Kvalita překladu je jiná věc, ale poptávka zlepší nabídku. Pokrýt rozsah běžných "konverzačních příruček" v dostatečné kvalitě nebude trvat příliš dlouho, ale jako vždy, jakmile zabrousíte do jakýchkoli specifických témat, bude systém pokulhávat. To se ale může stát i profesionálnímu tlumočníkovi, již jsem slyšel simultánně tlumočenou konferenci, kde tlumočník obor neznal. Vůbec mu jeho úkol nezávidím, zhostit dobře se ho nemohl...“