Google создал систему разпознавания речи без подключения к интернету

Google создал систему разпознавания речи без подключения к интернету

Google разработал систему голосового управления смартфоном в реальном времени, обладающую низким коэффициентом погрешности и при этом не требующей наличия интернет-подключения.

2016-03-13 06:20:34

Компания Google создала систему распознавания речи и диктовки, которая занимает всего около 20 МБ в памяти мобильного устройства и не требует подключения к интернету. При этом она обладает низким коэффициентом погрешности, хотя он и вдвое превышает значение этого параметра у облачных аналогов, пишет CNews. 

Локальное распознавание

Google разработал систему голосового управления смартфоном в реальном времени, обладающую низким коэффициентом погрешности и при этом не требующей наличия интернет-подключения. Более того, она подходит для устройств с небольшим объемом памяти, так как занимает всего 20,3 МБ.

Коэффициент погрешности

Система была успешно опробована на "эталонном" смартфоне LG Nexus 5. Он обладает 2 ГБ оперативной памяти и 4-ядерным процессором с тактовой частотой 2,26 ГГц. 

В ходе тестирования система продемонстрировала коэффициент погрешности 13,5%. Это хуже, чем у облачных аналогов, но, тем не менее, показатель достаточно неплохой, утверждают в Google.

Для сравнения, распознавание речи в Google Now происходит с погрешностью 8%, а у Apple Siri это значение равно 5%. Обе эти технологии работают только при наличии подключения к интернету, так как обработка команд выполняется на сервере (то есть являются облачными). 

Технологические приемы

Как рассказали в Google, новая система включает квантованную акустическую модель Long Short-Term Memory (LSTM) вкупе с технологией Connectionist Temporal Classification (CTC). По словам разработчиков, им удалось сократить размер системы благодаря применению схемы сжатия на базе SVD и использованию единой языковой модели для голосовых команд и диктовки, созданной с использованием байесовской интерполяции. Наконец, для верного распознавания имен в языковую модель был интегрирован список контактов с мобильного устройства. После этого система была обучена посредством 3 млн голосовых взаимодействий общей продолжительностью свыше 2 тыс. часов. 

В компании не уточнили, появится ли когда-нибудь подобная система в коммерческих продуктах. 

Каждый ваш вклад имеет большое значение. Поддержите независимые научные исследования автора и помогите более глубоко изучать важные темы сегодняшнего дня

Пополнить банку на независимые научные исследования

Просмотров всего: 10125 Просмотров сегодня: 18

НБУ переходит на  Базельские принципы

НБУ переходит на Базельские принципы