Новости партнеров , Весь мир ,  
0 

Поговорим, как люди

В системе распознавания речи Microsoft есть заслуга резидента «Сколково».

Компания Microsoft объявила, что ее система распознавания речи теперь так же точна, как распознавание речи живым человеком. Microsoft называют этот результат «историческим» и «выдающимся». Довести систему распознавания речь до такого высокого уровня удалось с помощью метода, разработанного резидентом «Сколково», компанией «ЦРТ-инновации» (Группа ЦРТ).

Группа исследователей Microsoft в области искусственного интеллекта опубликовала подробный отчет, посвященный автоматическому распознаванию телефонных разговоров американцев. Чтобы сравнить уровень распознавания человеческой речи машиной и обычным человеком во время разговора по телефону, Microsoft привлек профессиональных стенографистов. Затем расшифровку разговоров, сделанных стенографистами, сопоставляли с результатами «машинного» распознавания речи и оригинальным текстом, который произносился по телефону. Результат оказался действительно сенсационным: ошибка распознавания Microsoft составила 5,9%, то есть более 94% слов система распознает верно. Такой же результат в аналогичных условиях показали профессиональные стенографисты.

«Мы достигли уровня человека. Это историческое достижение», — заявил главный инженер исследовательской группы Microsoft по работе с искусственным интеллектом Сюэдунь Хуань.

Предыдущие тест системы распознавания речи Microsoft дал 6,3% ошибок. Это было совсем неплохо, однако корпорация поставила цель достичь человеческого уровня понимания — до показателя человека оставалось 0,4%. В середине октября последний рубеж был преодолен, теперь Microsoft слушает и понимает как человек.

Добиться такого высокого результата удалось благодаря модернизации архитектуры искусственного интеллекта, основанного на нейронных сетях. В опубликованной недавно статье исследователи Microsoft сообщают, что наибольший вклад в улучшение результата внесло использование метода, предложенного Группой ЦРТ на международной конференции Interspeech сентябре 2016 года в Сан-Франциско.

Кирилл Левин, руководитель научно-исследовательского департамента ЦРТ:
«Мы использовали моделирование человеческого языка многослойными рекуррентными нейронными сетями с блоками долговременной и кратковременной памяти (long short term memory). Они позволяют учитывать дальний смысловой контекст в предложениях. Это заметно снижает количество ошибок распознавания».

Набор алгоритмов, разработанный учеными группы ЦРТ, занимает третье место в мире по качеству распознавания речи американцев в лабораторных условиях. Российские технологии уступают лишь последним разработкам IBM и Microsoft.

Сергей Ходаков, руководитель направления «Безопасные информационные технологии» ИТ-кластера Фонда «Сколково»:
«Достижение точности распознавания речи, сопоставимой с точностью человека, — важный шаг к созданию новых технологий и продуктов в области автоматизации предоставления сервисов и безопасности. Признание технологий, разработанных «ЦРТ-инновации», ведущей компанией — это отличная рекомендация, подтверждающая инновационность и высокий коммерческий потенциал российских разработок. Это достижение поможет нашему резиденту укрепить свои позиции в России и успешно продолжить коммерциализацию на международном рынке».

Группа ЦРТ — российская группа IT-компаний, специализирующаяся на проектировании, разработке и внедрении решений в сфере технологий синтеза и распознавания речи, мультимодальной биометрии, анализа больших данных, искусственного интеллекта, машинного обучения, анализа аудио — и видеоинформации. На мировом рынке компания является одним из ключевых научных лидеров в целом ряде сегментов. Сегодня продукты и технологии ЦРТ продаются в 75 странах мира. Компания «ЦРТ-инновации», входящая в группу ЦРТ, резидент Сколково с 2011 года.