Umelá inteligencia od Google už komunikuje ako bežný človek

Timotej Vančo

15. septembra 2016 o 17:45

Raz to muselo prísť. Budúcnosť sa blíži a Google patrí medzi tých najväčších inovátorov.

Raz to muselo prísť. Budúcnosť sa blíži a Google patrí medzi tých najväčších inovátorov.

Určite si už niekedy zablúdil na YouTube pri pozeraní videí aj na rozprávajúcich robotov alebo programy, ktoré čítali text a mali trošku robotický hlas. Samozrejme, že každý z nás rátal s tým, že raz sa budeme môcť rozprávať s robotom a jeho hlas a spájanie slov bude identický tomu ľudskému, ale že to bude už teraz?

Vo svete sa nachádza nový uchádzač o miesto najlepšie komunikujúceho robota/programu s človekom. Za jeho vývojom stoja brilantné mozgy z DeepMind. Google predstavil pred pár dňami program – WaveNet. Tento program posúva vpred hlasovú syntézu hlasu postavenú na hlbokých neurónových sieťach.

Foto: clickode.com

Google Voice Search bolo istý čas poháňané programami, ako sú napríklad porozumenie hlasovým vzorkám. Avšak syntetizovanie aspoň časti z týchto vzoriek sa ukázalo, ako celkom veľký problém. Jedna z najznámejších metód komunikácie bola doteraz TTS metóda (text-to-speech). Spája fragmenty dopredu nahovorenej reči dokopy.

Hlavnou nevýhodou tejto metódy je, že nemôže meniť fragmenty reči za niečo nové, čo má za následok „robotický“ hlas. Ďalšia metóda je parametrické TTS, ktorej reč prechádza cez vokokóder a produkuje ešte menej prirodzený hlas.

Google WaveNet používa úplne iný štýl.

Foto: sciencealert.com

Namiesto jednoduchej analýzy zvuku je nový spôsob postavený na učení a porozumení daného fragmentu reči. Funguje na princípe hĺbkového učenia neurónových sietí, ktoré spravia najmenej 16 000 kombinácií za sekundu. Týmto spôsobom môže WaveNet vytvárať vlastné audio vzorky. Tieto vzorky si naozaj môže vytvárať bez akéhokoľvek zásahu ľudskej ruky. WaveNet používa štatistiky využitia slov a ich skladanie vo vetách, a preto vie predpovedať, čo bude nasledovať ďalšie.

Môžeš si vypočuť ukážky z pôvodných kompozícií. Najpôsobivejšia časť je pravdepodobne syntéza reči, bez akéhokoľvek predošlého vstupu. V prípade TTS, bolo vždy potrebné zadať akýkoľvek vstup, ktorý má program prečítať. WaveNet je schopný komunikovať bez predtým požadovaného vstupu. Je ale pravda, že výsledok je len reťazec nezmyselných zvykov, ale tie taktiež obsahujú pohyb úst alebo dýchanie. Tento systém má veľkú budúcnosť a časom sa možno bude používať v každom robotovi, až kým nespoznáme či za dverami stojí človek alebo robot.

Zdroj článku: sciencealert.com, Zdroj titulnej fotografie: sciencealert.com

Čítajte viac z kategórie: Inovácie a Eko