Po absolvování Fakulty elektrotechniky a informatiky VUT v Brně získal stipendium francouzské vlády na studium DEA a na doktorský program ve Francii. Závěrečnou práci obhajoval na Université Paris XI.
Dnes Jan Černocký vede Ústav počítačové grafiky a multimédií na Fakultě informačních technologií VUT. Koordinuje několik grantových projektů podporovaných Českou republikou, Evropskou komisí a vládou Spojených států.
Žije v Brně, s manželkou Hanou mají dva syny.
Kam půjdeme nejdřív?" zní na uvítanou stručná otázka docenta Jana Černockého, když se setkáváme ve vstupní hale Ústavu počítačové grafiky a multimédií na Fakultě informačních technologií VUT v Brně. Ze dvou možností - jít do jeho kanceláře, anebo kuchyňky, souhlasím s tou druhou. Káva v hrnečku, jen o kousek větším než náprstek, je skvělá. "A teď ke mně!" zavelí s posledním douškem. Když se rozlétnou dveře jeho malé, nepořádkem útulné kanceláře, ozve se tupý kovový zvuk. "To mi asi spadla koloběžka," usmívá se Černocký, a má pravdu. Když ji postaví zpátky pod věšák, prozradí na sebe, že na ní jezdí po dlouhých chodbách univerzitního kampusu, aby ušetřil čas. "Mé autoritě to neubírá a na image kašlu," usmívá se.
Už víc než deset let se věnujete elektronické analýze lidské řeči. Jejím smyslem je kromě jiného identifikace hledaného podvodníka nebo vraha podle hlasu ve statisících telefonních hovorech. Tvrdíte, že to je právě jeho hlas, který ho může usvědčit. Jak to dokážete?
Tak jako má každý člověk jedinečnou DNA, jedinečný rukopis nebo nezaměnitelné otisky prstů, má také jedinečné mluvící ústrojí, ve kterém vzniká hlas, jeho melodičnost, akcent, dikce, barva a spousta dalších věcí. Když tyhle všechny akustické vjemy rozsekáme na částečky dlouhé setinu vteřiny, vyjde nám z toho nepředstavitelně velké množství čísel. U každého hlasu jsou jiná a nikdy se neopakují. Pokud je nahrávka dostatečně dlouhá - pro představu alespoň dvě minuty - a bez šumu, dá se až s devětadevadesátiprocentní jistotou tvrdit: Co hlas, to jiný člověk.
Jak je to v situaci, kdy volající člověk nemluví česky? Umí váš systém rozpoznat, jakým jazykem hovoří?
Umí. Na první pohled se to může zdát triviální, vždyť například angličtinu, němčinu nebo slovenštinu pozná každý člověk. Jenže podstatně složitější je to u jazyků, se kterými se Evropan tak často nesetkává. Kdo pozná malajštinu, bengálštinu nebo čínský dialekt? Abychom mohli nakonec určit, jakým jazykem člověk v telefonu nebo na audionahrávce hovoří, musíme jeho hlas rozkouskovat na sekvence hlásek a současně zjišťujeme například četnost a skladbu používaných slov, vady řeči, nosovky, pomlky. Z toho všeho dostaneme počty dvojic a trojic fonémů, což jsou nejmenší části zvukové stránky řeči, z nichž software nakonec určí, zda to je třeba tamilština nebo arabština. Říkám to velmi zjednodušeně, ale tohle je podstatou našeho systému.
Umíte si představit, že by vám poslali kolegové z CIA nahrávku Usámy bin Ládina a chtěli by po vás, abyste poznal, jestli to je on?
Moje reakce by byla vcelku jednoduchá: tady máte technologii, kterou jsme v počítačové laboratoři vytvořili, ale uživateli a nakonec i arbitry musíte být vy sami. Řeknu to ještě jinak: jedna věc je software vymyslet a vyzkoušet, a druhá je usvědčovat a honit kriminálníky, zloděje nebo atentátníky. Máme třeba projekt, který je podporován českým ministerstvem vnitra, a my se snažíme o to, aby jeho složky měly k dispozici to nejlepší, co vymyslíme. My s nimi spolupracujeme, ovšem jen do té míry, že jim dodáváme naše věci a získáváme od nich poznatky.
Která část české policie má o váš systém zájem?
Řekl bych vám to rád, ale jsem vázán mlčenlivostí. Nicméně máme zprávy, že naše technologie je velmi úspěšná. Mimochodem, zájem o ni mají vojenské složky i v zahraničí, například ve Spojených státech i v Izraeli. Slouží jim především k tomu, aby se rychle dokázaly prohrabat nepředstavitelně velkým množstvím nejrůznějších audionahrávek pořízených z monitorování podezřelých osob, které mluví nejrůznějšími jazyky. Nikde na světě není tolik lidí s jazykovými znalostmi, kteří by dovedli v krátkém čase rychle a přesně vyhodnotit klasickým poslechem tisíce nahrávek.
Představte si, že máte za úkol určit z tisíců odposlechů dva tři hovory, ve kterých se objevil člověk, který je spojován s velkou bankovní loupeží. Nehledal byste jehlu v kupce sena?
Ano i ne. Úplně na začátku bych se samozřejmě mohl zaměřit na nějakou technickou informaci, například na číslo mobilního telefonu nebo SIM karty, které síť automaticky přenáší. Tohle by byla pro mě základní informace, ale jen podpůrná. Pak bych měl další možnost, a to, že bych si najal, řekněme, padesát lidí a řekl jim: Poslechněte si každý záznamy tisícovky různě dlouhých hovorů a pak mi řekněte, kde jste toho lumpa zaznamenali. Buďte si jistý, že by jim to trvalo hodně dlouho a spolehlivost by byla velmi pofidérní. Při využití našeho systému to bude trvat řádově stokrát rychleji. Například dvou- tříminutová nahrávka jen několik vteřin. Čas by se ještě podstatně zkrátil ve chvíli, kdybychom všechny záznamy prohnali serverovou farmou, tedy systémem propojených výkonných počítačů.
Před necelými dvěma týdny se Usáma bin Ládin opět nechal slyšet ve třináctiminutové nahrávce; vyzývá v ní své přívržence, aby se zaměřili na teroristické akce v Evropě. Jak se zjišťuje pravost nahrávky, tedy i to, zda nejde o podvrh?
Analytici ve Spojených státech, kteří se dostanou k záznamu, využívají všechny možné technologie pro verifikaci mluvčího, aby nakonec řekli, zda to je, či není on. Ale oni se nespokojí jen s analýzou hlasu. To, co udělá software se zvukovým záznamem, se děje i s videem, pokud je k dispozici obrazový záznam. Nejdůležitější je ale skupina lidí, která nedělá nic jiného, než že ušima poslouchá hlas a očima sleduje gesta, tvář a pohyby Usámy bin Ládina. Znají ho velmi dobře. Jsou to skvělí someliéři zvuku a obrazu. Právě ti mají to nejdůležitější slovo v konečném verdiktu, zda to je, či není Usáma.
Má elektronická analýza lidské řeči šanci uplatnit se i v běžném životě?
Navrhli jsme několik scénářů, kde si myslíme, že by náš systém mohl velmi úspěšně fungovat. Například v call-centrech obchodních firem nebo finančních institucí, které obsluhují zákazníky po telefonu. Představte si, že si potřebujete zvýšit limit na výběr ze své kreditní karty nebo si přes obchodníka chcete koupit velký balík cenných papírů na burze. Standardně to je tak, že mu zavoláte a identifikujete se tím, že namačkáte na telefonu číselný kód nebo obchodníkovi ústně sdělíte například první, páté a osmé číslo či písmeno svého hesla. Jenže! Když se k číselnému kódu dostane někdo cizí, a to dnes není žádný velký problém, pak si dovedete představit, kam mohou vaše peníze odtéct. No a my si představujeme, že třeba bezpečnost nejrůznějších převodů se může pojistit vaším hlasem, podobně jako se pojišťuje vstup do sejfu otiskem prstu, dlaně nebo oční rohovkou.
Software pomáhá hospodařit s energií v budovách a průmyslových komplexech - čtěte ZDE
Nový software umožní postiženým dětem snadněji komunikovat - čtěte ZDE
Jak byste si to představoval konkrétně?
Software by ověřil, zda ten, kdo volá a žádá nějakou službu, je skutečným majitelem účtu či portfolia cenných papírů. Co by tomu muselo předcházet? Při založení účtu nebo při registraci u brokera by zájemce musel namluvit minutovou nahrávku svého hlasu. Když pak bude volat s žádostí o službu, systém propojený z telefonu do počítače bude schopen ve zlomku vteřiny vyhodnotit, jestli je to skutečný majitel účtu, nebo podvodník. Pro ověření stačí tři čtyři věty. Verifikace hlasu není stoprocentní, proto kdyby operátor viděl, že skóre věrohodnosti je velmi nízké, mohl by vás potrápit dalšími doplňujícími otázkami. Anebo by vás nakonec donutil přijít k přepážce.
Pozná váš počítačový software, že někdo úmyslně mluví jiným hlasem, mění dikci nebo záměrně špatně artikuluje?
Popravdě řečeno, nepozná, protože bude zkreslení nebo karikování hlasu považovat za normální projev mluvčího. My se ale snažíme o to, aby se s těmito věcmi dokázal vyrovnat. Můžeme ho to učit tak, že vezmeme stovku lidí a hlas každého z nich nahrajeme v různých podmínkách. Jednou bude mluvčí v klidu, podruhé unavený, potřetí opilý a v posledním případě nebude mluvit česky, ale třeba anglicky. A když tomu softwaru tuhle databázi předložíme a řeknete mu, že ony čtyři různé nahrávky patří jednomu člověku, on se naučí, jak se jejich projevy od sebe liší. Teď se snažíme o to, aby to uměl co nejpřesněji.
Kromě rozpoznávání hlasu telefonujícího člověka řešíte ještě jednu velmi zajímavou aplikaci, a to přepis řeči do písemné formy. Není to žádná nová věc, ale jen pár vědeckých týmů ve světě dokáže přepisovat spontánní mluvenou angličtinu, češtinu nebo nizozemštinu tak rychle a především přesně jako vy. K čemu je ona aplikace dobrá?
Představte si, že si dva lumpové po telefonu domlouvají nějakou akci a pro kriminalisty je důležitá každá hodina. Ovšem oni nemají čas prokousávat se se sluchátky na uších mnoha stovkami nejrůznějších záznamů, které s trestnou činností třeba ani nesouvisí. A než se dostanou k tomu podstatnému záznamu, na kterém se pachatelé domlouvají, kde a kdy přepadnou banku, může být pozdě. My jsme přišli s tím, že záznamy hovorů umíme velmi rychle a přesně přepsat. Počítač zkrátka mluvené slovo zpracuje a převede do přehledné písemné podoby, v níž je možné jednoduše a rychle hledat. Kriminalisté tak dostanou na stůl přepisy hovorů ve velmi krátké době. Co je podstatné, my se nesnažíme skrývat nebo sušit výsledky našeho bádání jen pro sebe. Jezdí k nám kolegové ze světa, radí se s námi a dívají se nám pod ruku. Letos v červnu u nás například uspořádal americký Národní úřad pro standardizaci a technologie pracovní seminář, což dělá mimo území USA jen zcela výjimečně.
Pracujete ještě na jedné aplikaci, pěstujete si ji na univerzitě jako domácí zvířátko. Je to přepis, indexování a vyhledávání v přednáškách vysokoškolských učitelů. Komu pomáhá?
Samozřejmě především studentům, kteří se nemohli zúčastnit některé z přednášek, anebo i těm, kteří nepochopili část výkladu a chtějí se k němu vrátit třeba doma u počítače. Ta aplikace funguje velmi jednoduše. Na webových stránkách brněnské techniky najdete stovky audiovizuálních záznamů přednášek v jednotlivých semestrech. Když se chcete k některé z nich vrátit, stačí zadat klíčové slovo, a během okamžiku jste v té části tématu, o kterém se ve vybrané přednášce pojednává. Kromě toho má student k dispozici i písemnou podobu zvukového záznamu.
- Diskuse
- Celkem 44 příspěvků
ty tisíce nahrávek, které se takto mohou analyzovat, jsou získávány...
Tajemny hrad v Karpatech tel.772 543 786
To je chytrej kolobezka,to si Icka pohovi,hlavne,aby pomoci toho...
Lze to obelstít naprosto jednoduchými prostředky, před telefonováním...
Páni, ještě, že jsi nám to tak vysvětlil... Ale když si budeš...
























