Logo it.androidermagazine.com
Logo it.androidermagazine.com

Google aggiorna la tecnologia dietro la ricerca vocale per renderla più veloce e più accurata

Anonim

Google ha sviluppato una nuova tecnologia per potenziare la ricerca vocale, che secondo l'azienda renderà ancora più veloce e preciso. La nuova tecnologia utilizza Connectionist Temporal Classification (CTC) e sequenzia le tecniche di addestramento discriminatorio. Nel 2012, Google è passato dal Gaussian Mixture Model (GMM) a Deep Neural Networks (DNN), il che ha permesso all'azienda di valutare meglio il suono che un utente stava producendo in quel momento e di fornire una maggiore precisione del riconoscimento vocale.

I nostri modelli acustici migliorati si basano su reti neuronali ricorrenti (RNN). Gli RNN hanno circuiti di retroazione nella loro topologia, permettendo loro di modellare le dipendenze temporali: quando l'utente parla / u / nell'esempio precedente, il loro apparato articolatorio proviene da un / j / sound e da un / m / sound prima. Prova a dirlo ad alta voce - "museo" - scorre in modo molto naturale in un respiro e gli RNN possono catturarlo. Il tipo di RNN utilizzato qui è un RNN a memoria a breve termine (LSTM) che, attraverso celle di memoria e un sofisticato meccanismo di gating, memorizza le informazioni meglio di altri RNN. L'adozione di tali modelli ha già migliorato significativamente la qualità del nostro riconoscitore.

Il cambiamento nella tecnologia è stato apportato da Google e ora viene utilizzato per potenziare le ricerche vocali nell'app Google su iOS e Android, nonché per dettare sui dispositivi Android.

Fonte: Blog di ricerca di Google