imagazin arrow2-left arrow2-right arrow2-top arrow-up arrow-down arrow-left arrow-right cart close dossiers education fb instagram menu notification oander rss rss-footer search service shuffle speech-bubble star store stores tests twitter youtube

Budoucnost je tady!

Apple představil iPhone X

hey siri

Jak přesně funguje funkce „Hey Siri“?


Na stránce Applu o strojovém učení vyšel článek, ve kterém se dozvíme o tom, jak funguje kouzelná funkce Hey Siri. A jak je vidět, vývojáři věnovali pozornost celé řadě detailů.

Apple začal vydávat zprávy o svém výzkumu umělé inteligence a je to ta nejlepší věc, co mohl pro všechny fanoušky tohoto odvětví udělat. Produkty Applu zná každý a spoustu lidí je používá každý den. Tyto články tak mohou fungovat jako teoretická průprava a příležitost si teorii spojit s opravdovými produkty. V nejnovějším článku se podělil o technické pozadí funkce Hey Siri. Pojďme na to!

siri

Jak to funguje?

Na pozadí neustále běží malá aplikace na rozpoznávání řeči, která detekuje pouze ona dvě kouzelná slova. Po zaznamenání spojení „Hey Siri“ s ním Siri začne dál pracovat. Detektor „Hey Siri“ konverzuje akustický vzor vašeho hlasu pomocí Deep Neural Network (DNN). Posléze vypočítá, s jakou pravděpodobností jste opravdu vyslovili frázi „Hey Siri“. Pokud je pravděpodobnost dostatečně vysoká, Siri začne reagovat.

Úspora energie

Aby nemusel neustále pracovat hlavní procesor, má k signálu z mikrofonu přístup Always On Processor (AOP, malý pomocný procesor s nízkým odběrem energie integrovaný do koprocesoru pro pohyb; od iPhonu 6s). Detektor využívá jen menší část výkonu AOP pro menší verzi akustického modelu (DNN). Po dosažení určité hladiny je aktivován hlavní procesor, který analyzuje signál s větším DNN.

hey siri

Proces nastavení

Veškeré vyřčené spojení „Hey Siri“ je porovnáno s uloženými příklady. Detektor vyšle časovou informaci, která se používá pro konverzi akustického vzoru do vektoru stálé délky stanovené průměrem každého stavu. Speciálně vytrénovaná DNN transformuje tento vektor do „prostoru řeči“, kde jsou vzory stejného mluvčího blíže sobě než vzory rozdílných mluvčích. Tyto vzdálenosti porovnáváme se vzory vytvořenými při registraci a rozhodujeme, zda byl detektor probuzen slovy „Hey Siri“ vyřčenými registrovaným uživatelem.

Další zajímavou věcí je automatické nastavení citlivosti. Hladina zvuku může zastávat dvě hodnoty, hlavní, neboli normální, a nižší. Nižší hodnota Siri neaktivuje, pokud pravděpodobnost přesáhne nižší hodnotu, ale nepřesáhne tu vyšší. V takovém případě systém přepne systém na několik sekund na citlivější nastavení. Uživatel tak může povel zopakovat, aniž by musel nějak zvyšovat hlas.

Mechanismus druhé šance výrazně vylepšuje použitelnost systému bez přílišného navýšení falešných poplachů, jelikož je ve velice citlivém módu pouze krátkou chvíli.

apple strojové učení

Další podobné články naleznete na Machine Learning Journal. Jejich přečtení můžeme vřele doporučit úplně všem.

Zdroj: Macrumors, iMore a Apple

Apple Inc. (AAPL)

Tohle už jste četli?

Nový systém se zaměřuje především na dvě oblasti: na uživatelský zážitek a na výkon. Z pohledu výkonu staví na novém frameworku Metal, který Apple již dříve přinesl na iOS. Metal kombinuje schopnosti technologií OpenGl a OpenCL do jednoho prvku.

Klikněte zde!