imagazin arrow2-left arrow2-right arrow2-top arrow-up arrow-down arrow-left arrow-right cart close dossiers education fb instagram menu notification oander rss rss-footer search service shuffle speech-bubble star store stores tests twitter youtube

Odstartujte nový rok efektivně!

Aplikace, které vám pomohou dosáhnout vašich cílů.

zvuk

Pošeptejte Siri do ouška a ona vám odpoví jemným hláskem


Nejedná se o scénku z filmu o vztahu mezi člověkem a strojem se Siri v hlavní roli, ale o možnou budoucnost. Apple totiž pracuje na možnosti na virtuální asistentku šeptat. Zní to podivně, ale může to být vážně užitečné. A také se jedná o pořádnou zkoušku dovedností.

Teprve nyní byl uznán patent z roku 2016 se zvláštním názvem „Digital Assistant Providing Whispered Speech“. Kdo by chtěl šeptat na svou virtuální asistentku? Pokud se nad tím ovšem zamyslíte, mohlo by se to hodit při celé řadě situací.

Představte si, že sedíte například v knihovně nebo muzeu a potřebujete se na něco zeptat. Ani v autobuse určitě nechcete hulákat vaše povely na všechny cestující. Nebo potřebujete vzdáleně zhasnout světla v chodbě, ale nechcete budit spící partnerku. Očividně se nejedná o nic závažného, pokud by ovšem taková možnost existovala, proč ji nevyužít.

zvuk

Důležitým bodem je však „pokud by existovala“. Automaticky zachytit a vyprodukovat šeptání není vůbec jednoduchý úkol. Apple k tomuto problému přistupuje zkoumáním amplitudy vstupního hlasu (hlasitost řeči) a jeho frekvencí (melodičnost řeči). Ze získaných dat posléze vyhodnotí, zda uživatel šeptá, nebo ne.

Pokud šeptá, Siri by měla odpovědět taktéž šeptáním, navíc podobnou hlasitostí jako uživatel. Nicméně hlasový syntetizátor asistentky bude potřebovat „šeptající hlasový modul“, jelikož šeptání není pouze o mluvení potichu.

zvuk

Šeptání je unikátní lidskou artikulací. Naše hlasivky mohou při běžné mluvě zastávat tři pozice. První pozice produkuje znělé souhlásky a samohlásky. Druhá pozice vytváří neznělé souhlásky (bez vibrace) a třetí pozice, pozice H, vytváří specifický zvuk písmene „h“.

zvuk
Černá čára uprostřed jsou okraje hlasivek, přes které proudí vzduch. Černé trojúhelníky jsou hrtanové chrupavky.

Při šeptání ovšem nepracuje ani jedna z těchto pozic, předpokládáme tedy, že pro šeptání byla vytvořena speciální pozice. Při klasické řeči proudí vzduch z plic mezi hlasivkami, při šeptání jsou ovšem hlasivky uzavřené a mezeru pro vzduch vytváří hrtanové chrupavky. Z tohoto důvodu je akustická struktura šeptání naprosto odlišná od běžné řeči.

zvuk
Vlna a obraz zvuku písmen „ri“ při klasickém vyřčení příkazu „Hey Siri“. Zbarvené tečky a linky značí, kde byl počítač schopen zaznamenat akustickou charakteristiku (melodii hlasu, periody atd.).

Při šeptání je řeč hlučnější, znělé zvuky chybí a hlasitost se snižuje (na rozdílné hladiny v závislosti na frekvencích). Tudíž kromě toho, že musí Siri při šeptání ztišit hlas, musí se naučit simulovat novou tvorbu řeči. A to rozhodně není nic jednoduchého.

To stejné platí také pro detekování šeptání. Pro počítač jsou nejjednodušeji zpracovatelné znělé zvuky. U těch se dá měřit základní hlasitost a formulovat hodnoty, které definují vyřčený zvuk.

zvuk
Vlna a obraz zvuku písmen „ri“ při šeptaném příkazu „Hey Siri“. Na obrázku lze jasně vidět, že je hlučnější a méně periodický a počítač si s ním neví rady.

A jak jsme zmiňovali výše, chybí jakékoliv znělé zvuky. Proto je pro počítač (občas i pro lidské ucho) obtížné šeptání detekovat. Ano, Siri může rozpoznat, že uživatel šeptá, ale pravděpodobně již nepozná, co uživatel šeptá.

Tento projekt s sebou tedy přináší nespočet výzev, pokud je ale Apple překoná, opět dokáže svou unikátnost.

Zdroj: 9to5mac

iMac Pro
Apple Inc. (AAPL)

Tohle už jste četli?

Nový systém se zaměřuje především na dvě oblasti: na uživatelský zážitek a na výkon. Z pohledu výkonu staví na novém frameworku Metal, který Apple již dříve přinesl na iOS. Metal kombinuje schopnosti technologií OpenGl a OpenCL do jednoho prvku.

Klikněte zde!