Logo ms.androidermagazine.com
Logo ms.androidermagazine.com

Google mengemas kini teknologi di belakang carian suara untuk menjadikannya lebih cepat dan lebih tepat

Anonim

Google telah membina satu teknologi baru untuk menggerakkan carian suaranya, yang dikatakan syarikat itu akan menjadikannya lebih cepat dan lebih tepat. Teknologi baru menggunakan Klasifikasi Temporal Konvensional (CTC) dan teknik latihan diskriminasi urutan. Pada 2012, Google beralih dari Model Gaussian Mixture (GMM) ke Deep Neural Networks (DNNs), yang membolehkan syarikat menilai dengan lebih baik yang mana pengguna yang dihasilkan pada masa itu, dan memberikan ketepatan pengiktirafan ucapan yang lebih tinggi.

Model akustik kami yang lebih baik bergantung pada Rangkaian Neural Berulang (RNN). RNN mempunyai gelung maklum balas dalam topologi mereka, yang membolehkan mereka untuk model kebergantungan temporal: apabila pengguna bercakap / u / dalam contoh terdahulu, alat articulatory mereka datang dari / j / bunyi dan dari / m / bunyi sebelum. Cuba sebut dengan keras - "muzium" - ia mengalir secara semulajadi dalam satu nafas, dan RNN boleh menangkapnya. Jenis RNN yang digunakan di sini adalah RNN Memori Jangka Pendek Panjang (LSTM) yang, melalui sel memori dan mekanisme gating yang canggih, menghafal maklumat lebih baik daripada RNN lain. Mengguna pakai model sedemikian telah meningkatkan kualiti pengiktirafan kami dengan ketara.

Perubahan dalam teknologi telah dibuat oleh Google, dan kini digunakan untuk memaksimumkan carian suara dalam aplikasi Google pada kedua-dua iOS dan Android, serta pengundian pada peranti Android.

Sumber: Blog Penyelidikan Google