Инновации , Весь мир , 31 мая 2017, 07:20

Новый дар речи

Фото: Getty Images Russia

«Поговорите с холодильником и телевизором» — бурный прогресс в распознавании речи и развитие интернета вещей превращают эту фразу из анекдота в обыденность.

Поговори хоть ты со мной

Мировой рынок распознавания и синтеза речи — один из самых быстроразвивающихся в IT-отрасли. Исследователи из MarketsandMarkets приводят его нынешнюю оценку в $3,7 млрд, прогнозируя взрывной рост до $12 млрд к 2022 году. Одна из главных причин — развитие вычислительных мощностей, падение цен на них и повсеместное распространение смартфонов с процессорами, которым позавидовали бы иные сервера начала 2000-х годов.

Родиной речевых систем считаются США, где в 1952 году компания Bell представила свое детище Audrey. Словарным запасом разработка не обладала и могла распознавать лишь цифры, да и то продиктованные мужчиной с внятными паузами между номерами. Через десять лет IBM на Всемирной выставке в Сиэтле показала Shoebox: агрегат, занимающий полстола, наряду с цифрами умел распознавать еще 16 английских слов. Для прорыва понадобилось еще одно десятилетие: в 1972 году продукт VIP-100 мог различать несколько сот слов, но не связную речь — ее впервые в 1976 году научилась понимать разработка Университета Карнеги — Меллона из Питтсбурга. Впрочем, для потребителей эти ноу-хау оставались недоступны до 1987 года, когда в продажу поступила кукла Julie с функцией распознавания детской речи. В 1990 году на рынок вышла программа для компьютерной диктовки Dragon Dictate. За нее, впрочем, надо было выложить около $9 тыс. Но за семь лет цена снизилась более чем на порядок, да и сам Dragon к тому моменту смог понимать обычную речь со скоростью сто слов в минуту.

Apple в 2005 году встроила распознавание речи в свою операционную систему для настольных компьютеров. Но куда более популярным стал представленный в 2008-м сервис голосового поиска от Google (разработки велись с 2002 года). Сейчас фраза «Oкей, Гугл, найди» с указанием объекта поиска стала привычной: треть подростков, по данным Google, используют поиск для выполнения школьного домашнего задания, четверть взрослых — для вычленения из интернета кулинарных рецептов. Одновременно людям представилась возможность поговорить с телефонами. Ассистента Siri на смартфоне с 2011 года продвигает Apple, а несколько лет — еще и компания Amazon, производитель говорящей колонки Echo. Однако исследователи из Techcrunch считают, что реальный прорыв в распознавании речи произошел в последние года два.

На слова ответят

Гендиректор компании ЦРТ Дмитрий Дырмовский призывает не судить о рынке исключительно по помощникам Siri и Google. «Глядя на них, может показаться, что все еще на детском уровне. Но рынок b2c всегда отстает от b2b и b2g — предложений бизнесу и властям. Пользователь получает начальный уровень развития, в то время как технология сделала несколько шагов вперед», — говорит эксперт, чья компания производит инновационные системы в отрасли. Математические наработки ЦРТ, в частности, использовались исследователями из Microsoft, которые недавно объявили, что их система распознавания речи сравнялась по уровню понимания с человеком: она допускает около 6% ошибок — такой же результат демонстрируют и профи-стенографисты. Другой лидер рынка, IBM, отрапортовала о 5,5% ошибок при распознавании английской речи — то есть разработка понимает ее уже лучше человека. На первый план выдвигается искусственный интеллект, способный не просто расшифровывать, но и понимать смысл сказанного. В MarketsandMarkets прогнозируют, что одним из драйверов роста рынка станет использование технологий в телекоммуникационных компаниях и финансовых учреждениях.

Так, многие банки уже используют идентификацию клиентов по голосу. Британский Barclays в 2013 году предложил эту услугу для 300 тыс. VIP-клиентов, сократив время их «опознавания» в девять раз, до десяти секунд. Его английский конкурент HSBC ввел аналогичный сервис лишь в прошлом году, но не для избранных, а для всех 15 млн своих клиентов, особо отмечая, что банк «узнает» их даже охрипшими и больными. Стараются уйти от номеров паспортов и кодовых слов в подразделении Райффайзенбанка, белорусском Приорбанке, где совместно с ЦРТ внедрили идентификацию клиентов контакт-центра лишь по произнесенным имени и фамилии. Подозрительные звонки при этом автоматически переадресуют в службу безопасности банка.

Контакт-центры скоро могут полностью избавиться от операторов: во всяком случае в Японии автоматизированы чуть не все такие учреждения. При этом у распознающих речь контакт-центров появляется невиданный доселе инструмент бизнес-аналитики. Например, разработка SmartLogger II от ЦРТ пригодится для анализа маркетинговых акций, оценки продвижения сервисов и выявления лучших практик продаж, причем в «Ростелекоме» и ВТБ24, где используют это решение, по словам Дмитрия Дырмовского, уже удалось увеличить показатели продаж по отдельным статьям минимум на 20%. В издании CNews отмечают другой продукт ЦРТ — VoiceNavigator, который позволяет выстроить систему ответов на типовые вопросы звонящих клиентов с помощью синтезированного голоса, такие системы применяются в РЖД и «Интер РАО».

Куда уходят средства

С системами «автоответчиков» нового типа тесно связана другая технология — чат-боты. Подключенные к нейронным сетям боты могут не только отвечать на заранее запрограммированные вопросы, но и самостоятельно обучаться. Так, разработка портала SuperJob за первые десять часов провела более 2 тыс. интервью с соискателями, чат-бот компании SugarTalk неплохо консультирует по автозапчастям и даже продает их (со средним чеком 7 тыс. руб.). Наконец, программа Tay от Microsoft вышла настолько живой, что хулиганам удалось за сутки обучить ее материться в микроблоге.

Будущее чат-ботов, очевидно, лежит в общении с ними голосом, а не с помощью клавиатуры. Шаги в этом направлении сделал «Билайн»: бот оператора сотовой связи пока работает с текстом, но в будущем начнет отвечать и на обычные голосовые вопросы. При этом его разработчики из ЦРТ уверяют, что способ приема сообщений — голосовой вызов ли это или текстовое сообщение — для ядра искусственного интеллекта не важен; программа способна давать ответы по всем каналам связи.

Еще один драйвер роста рынка речевых технологий, по данным MarketsandMarkets, связан с медициной. Практическое применение эти сервисы уже нашли в США (эта страна вообще занимает более половины «речевого» рынка). Речь о так называемом транскрибировании, когда врачи наговаривают в электронные формуляры данные их пациентов. В Штатах от этой рутинной работы избавлены, в частности, до 75% медиков — операторов установок МРТ. В России также внедряются подобные наработки: продукт Voice2Med помогает врачам инструментальной диагностики заполнять формуляры, а в мурманских медучреждениях уже отмечают его 96-процентную достоверность.

Похоже, речевой ввод массово заменит клавиатурный или тактильный. Уже сейчас в автомобильной индустрии навигационные и мультимедийные системы могут управляться голосом, а на подходе — беспилотные автомобили с речевым интерфейсом. Его использование в связке с искусственным интеллектом, в частности, предполагается в электромобилях Tesla, машинах Google и роботах-автомобилях MIG. Ну, а продажи управляемых с помощью голосовых команд вещей выйдут далеко за пределы смартфонов и «умных» колонок Echo: холодильники и микроволновки станут использовать Wi-Fi сети и облачные технологии. В MarketsandMarkets предсказывают, что один только рынок голосовой биометрии будет расти почти на 24% в год и к 2022-му достигнет отметки $2 млрд.

Алексей Кораблин