— Какие сценарии использования машинного обучения наиболее распространены в банковском бизнесе?
— В финансовом секторе технологии анализа больших данных и машинное обучение применяются для довольно широкого круга задач. Прежде всего, на основе технологии Machine Learning (ML) осуществляется кредитный скоринг заемщиков, физических и юридических лиц. Передовой сферой применения машинного обучения благодаря большому объему и доступности данных является также система управления рыночными рисками.
Кроме того, модели ML используются в системах мониторинга и предотвращения мошеннических операций, так называемых антифрод-системах. В маркетинге на основе алгоритмов создается большинство моделей формирования индивидуальных предложений для клиентов.
Популярны модели ML и решения по автоматизации call-центров и HR-подразделений. Серьезное развитие ML-моделей идет в области кибербезопасности.
То есть модели машинного обучения внедряются в банках практически повсеместно. В «Открытии», например, в этом году был создан общебанковский хаб Data Science&Analytics (DS&A), в том числе для подразделений, у которых нет своей экспертизы в работе с большими данными.
— Какие требования вы предъявляете к ML-платформе?
— Летом этого года мы при технологической поддержке Neoflex запустили платформу для разработки и внедрения моделей машинного обучения IRIS, которая стала общебанковской.
Для нас были важны ее гибкость, универсальность, надежность и масштабируемость.
В основе платформы лежат Open Source продукты компании Databricks и других лидеров интеграции данных, моделей и процессов. Подобный подход уже внедрен у таких ИТ-гигантов, как Facebook и Google. Для развития и поддержки такой платформы требуется глубокая экспертиза в технологиях обработки больших данных, а также в таких областях, как ML и DevOps (практике непрерывной интеграции и развертывания программных продуктов. — РБК+). Гибкость и масштабируемость платформы обеспечиваются за счет «контейнеров» системы Kubernetes, на которой реализована промышленная платформа банка.
— В чем преимущества инфраструктуры, созданной по принципу MLOps?
— Концепция MLOps обеспечивает непрерывность разработки и внедрения моделей машинного обучения с последующей интеграцией моделей в бизнес-процессы банка.
Архитектура платформы IRIS включает в себя развернутый контур разработки и контур применения моделей: разработка ведется в отдельном окружении, при этом прошедшие тестирование модели могут быть переданы в эксплуатацию в любой момент практически без ручных операций. Важная особенность платформы — возможность бесшовного внедрения модели в среду применения. Раньше на внедрение разработанных моделей ML уходили месяцы, приходилось, например, перепрограммировать модель в другой системе. Концепция MLOps предполагает внедрение моделей любой сложности буквально несколькими кликами мыши.
MLOps-платформа IRIS развернута в масштабах всего банка для работы одновременно нескольких команд разработчиков. Она позволяет настраивать различное программное окружение под каждую команду. Вычислительные ресурсы гибко перераспределяются между командами разработчиков в зависимости от потребности. Специалисты могут оперировать различными технологическими стеками, применять различные языки программирования, переиспользовать настроенные интеграции с системами и подключенные источники данных. Такой подход становится конкурентным преимуществом для привлечения дата-сайентистов, разработчиков, инженеров, которые на рынке в дефиците.
— Модели работы с одними сегментами бизнеса применимы для другой целевой аудитории?
— В банке несколько подразделений, которые занимаются моделированием в промышленных масштабах. Каждому из них нужен соответствующий инструментарий. До создания общебанковской платформы каждое подразделение вынуждено было разрабатывать его самостоятельно. В результате мы имели несколько непромышленных, зачастую дублирующих систем со схожей архитектурой, дублирование трудозатрат без возможности синергии и гибкого перераспределения мощностей.
Создание общебанковской платформы позволяет реализовать универсальный промышленный стек технологий для разработки и внедрения моделей ML (как онлайн-моделей, так и моделей «по расписанию») и открывает возможности для синергии команд.
Например, алгоритм определения потенциальных клиентов — лидов, реализованный на IRIS для сегмента крупного инвестиционного бизнеса, показал хороший результат и в сегменте среднего бизнеса. Маркетинговая кампания показала высокий уровень конверсии, при этом было затрачено минимальное количество ресурсов и времени на адаптацию модели.
— Как вы решаете проблему доступа к внешним источникам данных?
— Работа с данными — это более 80% разработки моделей для машинного обучения. Развитие дистанционных банковских каналов упростило сбор структурированной информации. Больше структурированных данных могут предложить и внешние поставщики. Подключение новых данных у нас начинается с анализа их применимости к текущим моделям: проводится проверка, усиливают ли они предсказательную силу моделей в совокупности с данными, которые уже доступны банку. В случае если внешние данные статистически улучшают модель, мы строим финансовую модель с доказательством, что расходы на новый источник окупаются.
В среднем цикл одного подключения нового источника данных вместе с анализом составляет около полутора месяцев.
— Когда планируется ввод платформы IRIS в промышленную эксплуатацию?
— Платформа, а именно контур применения, должна быть введена в промышленную эксплуатацию осенью этого года. До конца года в ее среду должны быть интегрированы кредитные конвейеры всех подразделений — розничного бизнеса, малого и среднего бизнеса, а также крупного бизнеса для возможности внедрения ML-моделей в этих сегментах по новой технологии.
Сейчас IRIS находится в опытной-промышленной эксплуатации. На контуре платформы уже функционируют модели лидогенерации и мониторинг крупного бизнеса. Именно в сегменте крупного бизнеса платформа исторически зарождалась. До конца года мы планируем внедрить модель оценки риска клиентов розничного бизнеса и транзакционную модель МСБ. В настоящий момент активно настраиваются правила «общежития» команд разработчиков на новом контуре, автоматизируется жизненный цикл управления моделями, выделяются стримы для дальнейшего развития платформы. Нам еще многое предстоит сделать.