Finversia-TV
×

Илья Мунерман: «Машинное обучение – лучше, чем наше мышление» A A= A+

Илья Мунерман, директор исследовательского подразделения «Интерфакс-ЛАБ», в интервью порталу Finversia.ru рассказал, почему за машинным обучением будущее, почему у банков такие плохие скоринги и когда они станут эффективнее.

– Илья, есть такое понятие, как социальный скоринг. То, что мы читаем, вызывает вопросы, страхи, волосы встают дыбом, потому что это выглядит попытками установления тотального контроля не только за финансовой жизнью людей, но и вообще за жизнью.

– Я бы сказал, что у социальных скорингов есть много позитивных аспектов. В целом, действительно, социальный скоринг охватывает все аспекты жизнедеятельности человека, это правда. Это и то, как работает человек, с кем он работает, и то, занимается ли он благотворительностью, помогает ли он другим людям.

– В какие магазины заходит?

– Да, но больше, конечно, интересно, сколько он в этих магазинах оставляет денег. Более того, много интересных аспектов связанны с электоральными предпочтениями. За кого человек голосует на местных выборах, на муниципальных выборах. Правонарушения, семья, дети, социальные сети. В Китае социальные скоринги направлены на решение вопроса о количестве у человека голосов, причём количество голосов может отличаться на региональных и федеральных выборах. Есть мнение, что право голоса на федеральных выборах должно присваиваться не только на основе социального скоринга, но ещё и на основе экзамена. То есть, перед тем, как пойти голосовать, человек должен подтвердить, что он знает законы, конституцию, историю своей страны. Это первый аспект. Второй же аспект, который вызывает наибольшие дискуссии – это лицензия на количество детей. И тут есть разные стратегии. Условно, родители могут обзавестись двумя детьми, а квоту на третьего ребенка обменять на деньги и дать образование ранее родившимся детям. Лицензию на третьего продать. Сами понимаете, что желающих с этим поспорить больше желающих это внедрить.

Все материалы Finversia-TV

– Это китайская история?

– Ни разу не китайская. Это история общемировая. Нашла отражение в литературе, например в «Облачном атласе» Дэвида Митчелла.

– Фильм «Круг» (The Circle, Сфера) помню.

– Да, «Чёрное зеркало», если мы про кино. И «Мы» Евгения Замятина. Много антиутопий на эту тему. Другое дело, что я не поклонник многих из этих идей – по моему убеждению, математика несёт человечеству добро. Не стоит забывать, что машинное обучение, скоринги приносят человечеству огромную пользу. Проявляется это в медицине, в сельском хозяйстве.

– Я часто хожу на конференции по скорингу и слышу выступления разработчиков, которые признаются, что им самим банки кредиты не дают. И вообще они не очень понимают, как многие скоринги работают. Потому что непонятно, как эта «железяка», нейросеть работает.

– Ох, ну и опыт у вас! А я могу понять. Нельзя путать скоринговые технологии с кривыми руками. Такими руками можно испортить все. Нельзя так же забывать, что многие банки, к моему огромному сожалению, идут по ложному пути. Этот путь сейчас обсуждается среди учёных. Но я уверен, что машинное обучение – лучше, чем наше мышление. Глобально. Наше мышление сформировалось в эпоху охоты и собирательства и привело к тому, что на принятие наших решений оказывает влияние значительное количество когнитивных искажений. На сегодня наука знает более 150 когнитивных искажений, но, к сожалению, с учётом того, что многие из них были открыты еще до эпохи больших данных, мы не можем говорить, что методология выявления когнитивных искажений совершенна. А машинное обучение позволяет нам построить модель таким образом, чтобы когнитивные искажения не влияли на процесс принятия решений. Вторая тенденция – нейроморфные вычисления и нейроморфные компьютеры. Что они делают? Они пытаются повторить процесс принятия решений человеческим мозгом. Предположим, что мы с вами решили сделать машину, которая поможет человеку быстрее ходить. Мы её делам по принципу шагохода. Естественно, такая машина будет неэффективна. А если мы сделаем машину на колесах? Она будет передвигаться быстрее.

– Как договориться первым и вторым?

– Каждый год публикуется около 100 тысяч статей по машинному обучению. Уверяю вас, их публикуют победители хакатонов, умнейшие люди. Он создают прекрасные алгоритмы. Теперь, что касается банковских скорингов. Начну с того, что эти скоринги не самые сложные, чтобы их так серьёзно уж обсуждать. По масштабу. В американской базе данных по медтеху на сегодняшний день более 2 млрд медицинский изображений и видео, которые позволяют любому врачу проанализировать любой кейс и узнать, как это лечили ранее.

Машинное обучение позволяет нам одновременно анализировать тысячи факторов. Один из моих студентов работал в офисе цифрового завода «Северстали». Каждые 10 минут их серверы обрабатывали 0,5 млрд значений, «прилетавших» с производства. Полмиллиарда! А самые известные финансовые скоринги? К примеру, наш американский партнёр Dun & Bradstreet сделал прогноз по банкротству на основе 20 тысяч факторов. Нет смысла соревноваться в финансовом скоринге в развитых экономиках, например в США. Там вы будете соревноваться с банками за доли десятых процента. Это очень доходный сегмент, поэтому там всё давно поделено. Представьте себе человека, который провел молодость, руководствуясь принципом sex-drive-rock-n-roll. Ему давать кредит не очень хочется, но если после 30 лет он сменил образ жизни и мы наблюдаем устойчивую смену поведенческого паттерна, то неплохо бы ему дать кредит. Сначала на небольшую сумму, конечно. Скоринг, который выявляет смену человеческого паттерна, обрабатывает 15 тысяч факторов. Вот и сравните: медицина, производство против финансов. Для выявления недобросовестных компаний с помощью нашего скоринга, который называется «Индекс должной осмотрительности», мы используем 250 факторов.

– Этого достаточно? Не нужно больше?

– Достаточно. Не стоит думать, что мошенники – это сверхинтеллектуалы. Мы бы и рады обрабатывать несколько тысяч факторов, но их больше физически нет. Да, мы работаем постоянно над их расширением, и каждая новая версия добавляет по 10-15 новых факторов. Хороший скоринг всегда следит, как рассматриваемые факторы проявились в соседстве с другими факторами. Например, есть адрес, где зарегистрированы тысячи компаний. Хорошо это или плохо? Если это заброшенный и развалившийся дом где-нибудь в Вологде, то это очень плохо. Это значит, что мошенники купили этот дом и регистрируют там компании.

– Знакомо.

– А теперь представьте, если ваши соседи – компании, которые регулярно выигрывают тендеры у Газпрома. Это значит, что мы должны сообщить, что этот дом – «правильный» и вообще это бизнес-центр.

А вообще, мало у нас хороших специалистов. У меня много работы, читаю лекции, в нескольких вузах, работаю над несколькими проектами одновременно, организовываем прикладное научное взаимодействие наших корпоративных исследований с ведущими университетами и научными центрами.

– Но банки не дают вам всё равно кредит?

– Дают, предлагают. У меня отличные предложения и выбор. Я специально открываю счета в разных банках, чтобы посмотреть, как это работает. Но вот беда: многие банки игнорируют мой диверсифицированный доход, они ждут человека, который работает на одном месте, получает там большую зарплату. Вот такого человека они готовы кредитовать.

– Как это получается то? Они же банкиры! Им же выгодно это должно быть!

– Скоринги – сложные системы, нужно учитывать множество факторов. Мошенничеству надо противостоять. Там и математика отличается.

– Всё равно не понимаю. От правильного корректного скоринга напрямую зависит прибыль банков. Почему же наш скоринг такой несовершенный?

– Ответственное лицо должно понимать, что делают его специалисты. Современное машинное обучение – это сложная технология. Ей надо учиться. А специалистов мало. Много людей, которые произносят красивые слова, как «нейронная сеть», например. Но это, кстати, некорректное выражение. Это всё равно, что сказать, что я приехал на машине. А на какой машине? Так и нейросети бывают разными. Для разных задач. Есть много технологий альтернативных и с успехом применяемых. К тому же нейросети имеют массу недостатков. Не все нейронные сети, например, позволяют проводить анализ чувствительности. То есть, насколько изменится скоринг заёмщика, если один из факторов изменится, скажем, на 10%? Это вопрос из разряда, можно ли на машине перевезти холодильник? На грузовой можно, на легковой – нельзя. И так далее.

Так что это вопрос многогранный, как и любая технология. Построение скоринга – сложная профессиональная деятельность, тестирование – сложная профессиональная деятельность. Антифрод – сложная профессиональная деятельность. Любое решение, которое мы применяем, это огромная ответственность. Проблема в том, что у нас сети зачастую обучаются на нерепрезентативных выборках. Вот написал один недовольный клиент отзыв и сразу все начинают его обсуждать. А сколько довольных отзывов было? Это так называемая «ошибка выжившего», когда бронировали детали самолета, которые были больше всего повреждены. В итоге самолеты продолжали сбивать, пока одни математик не подсказал, что бронировать нужно те детали и узлы, которые угрожают самолету. А узнать мы это можем по сбитым самолётам, а не по тем, которые успешно вернулись на базу, несмотря на значительные повреждения. А есть даже технология, обучения с подкреплением, когда функционирует два искусственных интеллекта: первый оценивает адекватность решений второго, исходя из самостоятельного анализа взаимодействия первого с внешним миром. Это большая трудная работа. Это не просто вам построил регрессию и готово – как у нас принято делать, к сожалению. Не хватает кадров, огромная конкуренция. Ведь не только студентов толковых мало – преподавателей толковых мало. Мало кому удалось в 90-е сохранить профессию. Не хватает руководителей.

– Которые могли бы руководить командами?

– Конечно. Потому что люди творческие, сами понимаете. Ими надо уметь управлять.

– Технари же, не гуманитарии?

– Я бы не стал проводить здесь жёсткий водораздел. Описать на математическом языке явление довольно сложно, тут нужно обладать широким кругозором.

– Мне рассказывали, что проблема так же в том, что вот есть математик, который плохо разбирается в экономике, а есть экономист, который плохо понимает в математике.

– Я с математическим дипломом получил экономическое образование. И скажу, что базовые принципы экономики математик схватывает на лету. Но есть много вещей, которые реально раздражают. Например, огромное количество оценочных суждений в экономике. Оценочные суждения очень дорого обошлись человечеству.

XX век открыл нам, что поведение человека, касающееся денег, в высшей степени иррационально. Когда дело касается денег, там такое начинается, что никто и никогда не сможет это описать.

– Я бы поспорил. Одна американская фитнес-сеть проводила эксперимент, установив очень дешёвое разовое посещение и дорогой абонемент. Потребители покупали дорогую карту и оправдывали это тем, что так у них будет стимул ходить в спортзал.

– Довольно рациональное поведение, кстати.

– Да, а на первый взгляд совсем не рациональное. Речь идёт о том, с чего мы начали разговор – с когнитивных искажений. И для этого есть машинное обучение.

Но традиционный банкинг… с его бюрократией, с его традициями, которые берут основу чуть ли не в XIV веке. Я читал лекции по вексельному праву, там попадаются курьёзные места. Что делать, если вексель кто-то порвал? А старые законы о рынке ценных бумаг? Где абсолютно серьезно обсуждается, может брокер передать свое место на бирже по наследству?

– Физическое место?

– Конечно. С молотком! От того, что вексельное право уйдёт в прошлое, цивилизация не разрушится.

– Банкиры закредитовывают хороших заемщиков, но в целом ситуация остаётся прежней: кредиты очень плохо проникают. На конференциях говорят одно, в реальности мы видим совсем другое. Когда произойдёт перелом? Когда они мне, условно, начнут выдавать кредиты? А у меня нормальный заработок, кстати.

– Кадровый вопрос. Когда кадры омолодятся. Будет больше финансовых технологий, меньше бюрократии. По-разному можно относиться к нынешней политике ЦБ, но зачистка плохих банков важна. Взять ту же кредитную историю. Кредитная история – документ тяжелый и сложный.

– И очень много ошибок, убедился на собственном опыте.

– Да. И еще момент. Если у вашего банка отзывалась лицензия или вводилась временная администрация? Или была ситуация массового увольнения IT-специалистов? Тут вероятность, что в КИ будут ошибки, высока. Я знаю скоринги, которые проверяют информацию, занесённую в КИ, и вылавливают такие ошибки.

– То есть нам не стоит следить, насколько корректны данные? Если так всё здорово?

– Нет, следить нужно. Или ещё пример. У нас неверная статистика по кредитованию малого и среднего бизнеса (МСБ). Если банк адекватно работает с малым бизнесом, то у него просрочки по этому сегменту будут меньше 10% и в такой банк стоит обратиться. А если у банка просрочки по МСБ больше 30%? Значит, он, скорее всего, использует эти кредиты для противоправной деятельности, а не для того, что записано в договоре. Мы постоянно работаем над тем, чтобы исключать недобросовестных контрагентов из расчёта скоринговых моделей. Например, в России официально банкротится около 16 тысяч предприятий в год, а теряет платежеспособность около 120 тысяч. Куда деваются эти, условно, 100 тысяч? Кого-то просто бросают, кого-то продают. Но они «зашумляют» нам статистику и машина делает неправильные выводы.

– И сколько это будет продолжаться? Вечно? Вечно вы будете вычищать базу?

– Усилия ФНС и ЦБ приводят к тому, что шумов все меньше. Но, к огромному сожалению, я должен констатировать, что люди, которые были на темной стороне силы, остаются на той стороне. Они не уходят в легальный бизнес – они придумывают новые схемы. Государство не так легко обмануть – длинные руки у него выросли. Такие, что даже добросовестные предприниматели чувствуют себя не всегда комфортно. Да, в финансах присутствует ошибки первого рода, но надо признать, что они резко сокращают количество однодневок и обналички.

– Правильно ли я понимаю, что банкиры уделяют повышенное внимание корпоративному скорингу, задвигая розницу?

– По малому бизнесу сейчас очень много данных появилось. Посмотрите базу данных ФНС. Доходы и расходы теперь мы знаем по любому бизнесу. Уровень налогов уплаченных знаем. Спецрежим – по любому бизнесу. И так дальше и тому подобное. Допустим, у меня цветочная лавка и банк хочет дать мне кредит – я с удовольствием открою ему свой шлюз с данными своей отчетнсоти в режиме реального времени и банк будет видеть все мои финансовые коэффициенты в режиме онлайн.

– Убережёт это от блокировок? От 115-ФЗ?

– Конечно. Если вы торгуете цветами, нужны ли вы банку с точки зрения 115-ФЗ? А вот если вы $100 млн начнёте платить за маркетинговые исследования, вот тогда… а так банк откроет вам кредитную линию, ставку понизит, выгодную зарплатную программу предложит.

Илья Мунерман, директор исследовательского подразделения «Интерфакс-ЛАБ»

Илья Мунерман является автором учебных программ, лекционных курсов и семинаров на темы больших данных, финтеха, скоринговых моделей, блокчейна и криптовалют. Более 20 лет Илья преподаёт в ведущих вузах страны и совмещает эту работу с научно-консультационной деятельностью.

Начиная с 2010 года совместно с Группой "Интерфакс" Илья разрабатывает индексы и скоринговые модели, основанные на информационных ресурсах «СПАРК-Интерфакс».

С 2018 года возглавляет исследовательское подразделение «Интерфакс-ЛАБ», в рамках которого отрабатываются пилотные методики и технологии в сфере скорингов, машинного обучения, искусственного интеллекта.

  • Федор Чайка
  • Finversia.ru

Finversia-TV

Горячая цифра