Технологии Бизнесса
Google создал систему разпознавания речи без подключения к интернету
Google разработал систему голосового управления смартфоном в реальном времени, обладающую низким коэффициентом погрешности и при этом не требующей наличия интернет-подключения.
Компания Google создала систему распознавания речи и диктовки, которая занимает всего около 20 МБ в памяти мобильного устройства и не требует подключения к интернету. При этом она обладает низким коэффициентом погрешности, хотя он и вдвое превышает значение этого параметра у облачных аналогов, пишет CNews.
Локальное распознавание
Google разработал систему голосового управления смартфоном в реальном времени, обладающую низким коэффициентом погрешности и при этом не требующей наличия интернет-подключения. Более того, она подходит для устройств с небольшим объемом памяти, так как занимает всего 20,3 МБ.
Коэффициент погрешности
Система была успешно опробована на "эталонном" смартфоне LG Nexus 5. Он обладает 2 ГБ оперативной памяти и 4-ядерным процессором с тактовой частотой 2,26 ГГц.
В ходе тестирования система продемонстрировала коэффициент погрешности 13,5%. Это хуже, чем у облачных аналогов, но, тем не менее, показатель достаточно неплохой, утверждают в Google.
Для сравнения, распознавание речи в Google Now происходит с погрешностью 8%, а у Apple Siri это значение равно 5%. Обе эти технологии работают только при наличии подключения к интернету, так как обработка команд выполняется на сервере (то есть являются облачными).
Технологические приемы
Как рассказали в Google, новая система включает квантованную акустическую модель Long Short-Term Memory (LSTM) вкупе с технологией Connectionist Temporal Classification (CTC). По словам разработчиков, им удалось сократить размер системы благодаря применению схемы сжатия на базе SVD и использованию единой языковой модели для голосовых команд и диктовки, созданной с использованием байесовской интерполяции. Наконец, для верного распознавания имен в языковую модель был интегрирован список контактов с мобильного устройства. После этого система была обучена посредством 3 млн голосовых взаимодействий общей продолжительностью свыше 2 тыс. часов.
В компании не уточнили, появится ли когда-нибудь подобная система в коммерческих продуктах.