Георгий Кравченко: «Сделать так, чтобы голосовые технологии решали действительно насущные для потребителя задачи» A− A= A+
Голосовые технологии из модной «фишки» превращаются в необходимую часть банковского бизнеса. Как и почему происходит этот перелом, что дают голосовые технологии, какие ресурсы требуются для их внедрения сегодня, – об этом финансовые эксперты Ян Арт и Эльман Мехтиев беседуют с генеральным директором компании BSS Георгием Кравченко.
Я.А: Мое первое соприкосновение с технологиями речевой аналитики состоялось в начале нулевых, компания Nemesysco предлагала их участникам финансового рынка. Тогда это было вишенкой на торте: рынок был «жирным», потребляющим новации ради новаций, может быть, без особого бизнес-смысла. И тогда это особо не пошло. Что с тех пор изменилось, насколько сегодня компании готовы к внедрению технологий речевой аналитики?
Г.К: Голосовые технологии развиваются давно, больше 20-ти лет, но реальный прорыв произошел около 10 лет назад, когда для голосового распознавания начали использовать нейросетевые технологии. До этого технологии речевой аналитики развивались обособленно, в разных RnD-коллективах, в разных компаниях, и было это дело чрезвычайно наукоемким, требовались сложные математические решения. Голосовые технологии развивались медленно, потому что, с одной стороны, не было глобального комьюнити, которое этим занимается, а с другой стороны, технологии требовали очень больших вычислительных мощностей. Это серьезно ограничивало и объем словаря для распознавания речи, и возможности поддержки онлайн-распознавания.
Первые эксперименты и научные работы, доказывающие или предполагающие возможность более эффективной работы на нейросетях, породили сразу несколько революционных вещей. Выяснилось, что технология на нейросетях работает гораздо эффективнее – резко снизились требования к инфраструктуре и минимум на два порядка увеличился объем словаря – от 100 слов до 10 тысяч. Сейчас голосовые помощники Яндекса и Google в состоянии поддерживать гораздо больший объем, я даже не могу сказать, какой, думаю, значительно больше 100 тысяч слов. А все вместе это позволило использовать онлайн-распознавание для свободной речи.
Я.А: То есть, разговор с Алисой или Siri – это возможность понять, какой объем словаря сегодня поддерживается?
Г.К: То, о чем я говорил, это, скорее, предел технологии, сколько слов в целом может поддерживаться. А разговаривая с Алисой или Siri вы, скорее, протестируете, на каком датасете она обучена. Если она какого-то слова не знает, то она его и не распознает, но это не значит, что у нее память закончилась.
Я.А: То есть можно сказать, что сегодня в речевых технологиях потенциальная емкость словаря для распознавания не лимитирована?
Г.К: Настолько категорично я бы утверждать не стал, но емкости словаря на нынешнем уровне развития технологий достаточно для поддержания практически любого разговора.
Голосовые технологии развиваются давно, больше, чем 20 лет, но реальный прорыв произошел около 10 лет назад, когда для голосового распознавания начали использовать технологии с использованием нейросетей.
Э.М: Я не помню, чтобы в банковской сфере 2010 год был отмечен революционным прорывом речевых технологий. Когда и где в банковской сфере произошел такой перелом? Когда все осознали, что это уже реально нужно, может быть, не сегодня, но завтра?
Г.К: Когда все перешли на нейросети, изменилась парадигма: международные технологические гиганты превратили эту индустрию в глобально развивающуюся; все модели, все фреймворки для голосового распознавания находятся в публичном доступе. И я предполагаю, что многократно возросло количество людей, использующих эти технологии методом проб и ошибок. Соответственно, они стали быстрее развиваться, и, конечно, начали возникать разнообразные варианты их практического применения.
Первые три-четыре года вариантов применения речевых технологий было не так много. Вы, наверное, помните, что сначала распространение получили речевые запросы в Google и Яндексе. Они прекрасно работали. Помню, когда я их обнаружил, то, признаться, был поражен, до какой степени, оказывается, можно сделать удобным для водителя управление навигатором, если использовать голос, а не набирать нужный адрес на клавиатуре. Это было, наверное, первое практическое применение голосовых технологий. Мне сложно оценить, какую экономическую выгоду это принесло, но с точки зрения привлечения пользователей это стало огромным шагом вперед.
По мере того, как точность распознавания речи повышалась, появлялись возможности извлекать данные – возникали и способы практического применения таких технологий. С этого и начался прорыв. В России, на мой взгляд, драйвером развития речевых технологий стали крупные банки, давно оценившие пользу цифровых технологий.
Далее развитие речевых технологий ускорялось все быстрее, начали появляться технологии прикладного характера, которые приносили практическую пользу. По мере того, как точность распознавания речи повышалась, появлялись возможности извлекать данные (имена и числа, анализировать и систематизировать голосовую информацию) – возникали и способы практического применения таких технологий. С этого и начался прорыв. В России, на мой взгляд, драйвером развития речевых технологий стали крупные банки, давно оценившие пользу цифровых технологий.
Я.А: Для меня бытовое столкновения с речевой технологией, это когда тебе звонит робот, который на первых фразах неотличим от человека, а потом ты чертыхаешься и бросаешь трубку… Получается, что банки и финансовые организации заменили речевыми технологиями живых людей для того, чтобы делать холодные звонки. Но наверняка это только верхушка айсберга. А где еще и для чего они используются? Nemesysco предлагала свои технологии для распознавания голоса как часть биометрии, для идентификации. А если я простудился, сбоя не будет? Насколько вообще голос уникален – как отпечатки пальцев?
Г.К: Даже если вы простыли и кашляете, система ваш голос распознает, это не проблема. Сегодня идентификация голоса менее точна, чем идентификация по радужной оболочке глаза или по лицу, но минимальный риск ошибки для такой системы составляет 1%. То есть, всего 1% риска, что систему обманет мошенник, который подделает ваш голос, или что система не сможет вас идентифицировать, не распознает ваш голос. Конечно, наука не стоит на месте и уже существуют технологии синтеза речи на тех же нейросетях, имитирующие голоса с высокой степенью сходства. Однако голосовая биометрия использует для идентификации очень много параметров, порядка 100, так что обмануть ее крайне сложно.
Я.А: Мы все с детства помним историю о несовершенстве голосовой биометрии из сказки про волка и семерых козлят... Похоже, голосовая биометрия не может служить единственным средством идентификации для клиента банка? Ее можно использовать только в сочетании с другим способом идентификации, чтобы максимально исключить риск мошенничества?
Г.К: Учитывая, сколько усилий прикладывают на изобретение способов взлома электронных систем, я думаю, что с точки зрения безопасности и культуры обращения с данными, надо всегда использовать несколько параметров идентификации. Это, по крайней мере, либо уменьшит опасность взлома, либо увеличит усилия, которые придется прикладывать взломщикам.
Э.М: А когда сформировался массовый интерес к речевой аналитике и голосовым технологиям в российском банковском секторе? Возвращаясь к вашему примеру использования голоса для управления навигатором, можно заметить: если человек голосом начинает работать с системой, то создается запрос, то есть, фактически возникает ситуация, когда потребитель указывает, чего он хочет. Потребитель выберет ту систему навигатора, где можно управлять голосом… Вот когда такой перелом произошел на банковском рынке, когда банки осознали, что с человеком надо работать не только через операторов, но и через голосовые технологии?
Г.К: На мой взгляд, перелом начался два года назад. А искать действительно привлекательные бизнес-кейсы мы начали в 2015 году. Но только сейчас, пожалуй, начали нащупывать удобные, интересные решения, а не то, что принято называть «красивая фича». «Красивую фичу» мы сделали сразу: можно было сказать в телефон «Переведи жене деньги» и приложение, распознав голос, переводило деньги. Но, видимо, это не самый притягательный кейс.
Сегодня идентификация голоса менее точна, чем идентификация по радужной оболочке глаза или по лицу, но минимальный риск ошибки для такой системы составляет 1%. Однако голосовая биометрия использует для идентификации очень много параметров, порядка 100, так что обмануть ее крайне сложно.
Я.А: А почему не притягательный? Если человеку понравилось спрашивать: «Алиса, какая погода?», думаю, ему рано или поздно захочется и сказать в телефон: «Сбер, дай денег», чтобы оформить кредит.
Г.К: Вопрос в том, что надо сделать, так, чтобы продукт действительно решал насущные для потребителя задачи. И плюс к тому люди должны привыкнуть к новым возможностям. Я видел интересное исследование зависимости частоты голосовых запросов от возраста – молодые поколения предпочитают именно голосовые запросы. Думаю, что мало-помалу будут нарабатываться кейсы, которые действительно по-настоящему удобны, а не служат просто демонстрацией технических достижений.
Я.А: На банковском рынке это уже ощущается: в тучные годы очень многое внедряется просто потому, что модно, пусть даже и не особо нужно. А потом нередко возникает обратная ситуация – уже по-настоящему нужно, но «у нас кризис и нет на это денег». И тут наступает 2020 год, который стал «волшебным пенделем»: он перевел нас всех на дистанционку и, наверняка, повысился запрос на то, что вы делаете. И при этом, наверное, теперь всем «надо срочно»?
Г.К: Это так. И это проблема, потому что срочно что-либо делать всегда тяжело. Любая кастомная разработка, как бы мы не хотели, занимает очень много времени. Единственный способ сделать что-то быстро – это иметь какое-то коробочное решение, нечто, что можно быстро развернуть в периметре заказчика. По счастью, оно у нас уже было. Мы заметили спрос и сумели адекватным образом ответить.
Я.А: А «быстро» – это сейчас сколько? Я помню, что было время, когда на реализацию ИТ-проекта в банках уходило от полутора лет до года, потом срок сократился примерно до полугода. А как сейчас?
Г.К: Если говорить про голосовую аналитику, то быстро – это 1 день и до трех недель если необходимо настроить специфические метрики. Если говорить про виртуального консультанта, то могу привести пример, когда от момента получения заявки до запуска в эксплуатацию прошло 48 часов. Этот робот принимал и обрабатывал по 10 тысяч звонков в день. Конечно, это нетипичная история, но так можно сделать.
Э.М: Я приведу простой пример: коллекторы обязаны записывать все телефонные разговоры с должниками. Мы надеемся, что в ближайшее время будет принят закон, устанавливающий единые правила деятельности по взысканию долгов для всех – как для коллекторов, так и для банков, и для микрофинансовых организаций. Сейчас коллекторы обязаны хранить записи телефонных разговоров с должниками в течение трех лет, МФО – 6 месяцев, банки не обязаны хранить их вообще… Вот завтра примут закон – это будет как пандемия, внезапно МФО и банкам надо будет организовать запись и хранение разговоров. Дальше начинается новый рынок, дальше начинается та самая речевая аналитика. Как вы думаете, как скоро в банках поймут, что им нужна речевая аналитика?
Г.К: Мне кажется, многие уже поняли, и мы это чувствуем. Вообще речевой аналитикой все так или иначе занимаются, но не так эффективно, как это можно делать с помощью систем на базе искусственного интеллекта.
Перелом начался два года назад. А искать действительно привлекательные бизнес-кейсы мы начали в 2015 году. Но только сейчас, пожалуй, начали нащупывать удобные, интересные решения, а не то, что принято называть «красивая фича».
Возьмем для примера колл-центр. Чтобы он функционировал нормально, нужно проделать большую организационную работу: нанять операторов, составить для них скрипты, обучить работать с возражениями, объяснить, какая лексика приемлема, а какая нет, отучить их «мекать» и «бекать». Потом надо контролировать, насколько они соблюдают правила, поскольку эти правила созданы, чтобы вы получили определенный результат – привлечь клиента, продать продукт. Если желаемого результата нет, вы захотите разобраться, почему процесс не работает, как задумано, что можно улучшить...
Я.А: И речевая аналитика позволяет проводить такой аудит колл-центра?
Г.К: Разумеется. Обычно для оценки колл-центра проводят аудит примерно 10% звонков, чтобы получить статистически достоверную картину – все 100% звонков, как вы понимаете, прослушать невозможно, для этого пришлось бы нанимать еще один колл-центр. Надо прослушать разговоры, извлечь из них информацию, проанализировать ее – это серьезная задача.
Голосовые технологии позволят провести аудит всех 100% звонков колл-центра. Такие данные и есть Big Data, которые можно собрать и дополнять другими сведениями, допустим, если речь идет о клиенте банке, то известно, какие транзакции он совершает, если о клиенте оператора мобильной связи – где он бывает, какими мобильными приложениями пользуется и т.д. С помощью речевой аналитики вы получаете массив данных, из которого можете выбирать информацию, которая вам интересна. Можете, например, анализировать, что говорят операторы колл-центра, какие модели общения были успешными с точки зрения желаемой цели, а какие нет, можете выстраивать систему мотивации операторов.
Я.А: Вот вы рассказали, как с помощью технологий речевой аналитики можно оценить эффективность работы колл-центра. А как измерить эффективность самих технологий речевой аналитики? Например, для банка или финансовой организации внедрение таких технологий – это вопрос повышения КПД при существующем положении дел или внедрение технологии еще и позволяет снизить издержки? Представим, что я – банкир, а вы – RnD. Вы говорите: «Мы видим эффект». А я говорю: «Покажи, как его измерить?»…
Г.К: Если вы используете технологию речевой аналитики, КПД, безусловно, повышается, потому что люди начинают работать лучше, меньше ошибаются.
Единственный способ сделать что-то быстро – это иметь какое-то коробочное решение, нечто, что можно быстро развернуть в периметре заказчика.
Если мы знаем, чего хотим достичь, значит, можно измерить эффективность технологии, которую используем для достижения поставленной цели. Если это колл-центр, то показателями эффективности голосового робота будут служить количество обращений, которое он способен обработать по сравнению с человеком, и стоимость обработки обращений при сопоставимом качестве.
Возьмем пример с пандемией, когда чрезвычайно возрос поток обращений в колл-центры. Вручную такой объем информации имеющимися силами никак не обработать. Кто и сколько при этом потеряет – будет зависеть от бизнеса, но потери могут быть значительными. Если поставить себе задачу обрабатывать этот поток вручную, придется набрать новых операторов, обучить их, наладить за ними контроль.
А вот если у вас внедрена автоматизированная система, построенная на речевых технологиях, то будет несложно быстро масштабировать ее в ответ на любой вызов. Обладая достаточными вычислительными мощностями, вы можете практически мгновенно отреагировать на подобную ситуацию. Вот вам пример экономии, которая пришла из ниоткуда.
Если говорить про голосовую аналитику, то быстро – это означает недели три. Если говорить про виртуального консультанта, то могу привести пример, когда от момента получения заявки до запуска в эксплуатацию прошло 48 часов. Этот робот принимал и обрабатывал по 10 тысяч звонков в день. Конечно, это нетипичная история, но так можно сделать.
Один из наших первых клиентов – страховая компания – как раз открыла для себя возможность преодолеть временный наплыв клиентов в результате стихийных бедствий, когда, например, после града приходится принимать множество заявлений о понесенных убытках. Для обработки звонков надо содержать большой штат. Мы развернули систему, которая все это собирает, записывает, ставит тикеты, куда надо, – вопрос решен и затраты существенно снизились.
Это стало одним из первых увиденных нами драйверов спроса.
Я.А: Нередко приходится слышать такой расхожий аргумент в пользу автоматизации: роботы не берут больничный. Однако еще говорят об IT-зависимости финансовых организаций: программы и IT-решения надо апгрейдить, платить вендорам за обновления. То есть, по сути, роботы тоже «выходят на больничный»...
Г.К: Я не считаю этот упрек справедливым, потому что все системы постоянно развиваются. Люди, которые решили развивать IT-системы своих компаний самостоятельно, я думаю, про упреки такого рода забыли полностью…
Я.А: Потому что потеряли больше денег?
Г.К: Намного больше денег, но я не думаю, что они этим обеспокоены, потому что все постоянно участвуют в гонке за эффективностью, чтобы не отставать от конкурентов, чтобы первыми ввести новую «фичу». Еще Центробанк как регулятор финансового рынка генерирует огромное количество работы для таких компаний как наша. Сложно упрекать людей за то, что они хотят развиваться, становиться лучше и что это стоит денег.
Людям иногда кажется: смотрите, можно взять модель речевой технологии из Open Access, «натренировать» ее и получить вполне приемлемое распознавание голоса за одну-две недели. На самом деле вот тут и начинается основная работа. Теперь нужно сделать так, чтобы это все работало в действительно продуктивной среде, в условиях высокой нагрузки, когда требуется повышенная надежность, а самое главное – чтобы с этим могли работать не датасеитисты, а люди, не обладающие специальными знаниями, высокой квалификацией. Нужно позаботиться о масштабируемости, непрерывности работы, сделать огромное количество инженерных надстроек, чтобы система была удобной и доступной для пользователей. И вот это занимает несопоставимо больше ресурсов и составляет примерно 90% от общего объема работы над продуктом. Люди часто путают первую пробу («вот у меня голос распознался!») и промышленное решение. А до промышленного решения еще как до Луны…
Если у вас внедрена автоматизированная система, построенная на речевых технологиях, то будет несложно быстро масштабировать ее в ответ на любой вызов. Обладая достаточными вычислительными мощностями, вы можете практически мгновенно отреагировать на подобную ситуацию.
Мы в нашей компании проводим в год около 50 экспериментов, разрабатываем огромное количество моделей просто для RnD. Недавно был очередной технологический прорыв, подход к распознаванию речи слегка изменился, стал более простым, и нам удалось реализовать и повышение качества, и снижение количества данных, необходимых для тренировки модели, причем – кратное снижение. Это очень здорово.
Э.М: Где вы видите в ближайшем будущем возможность использования голосовых роботов, речевой аналитики? Что можно придумать нового, еще не ставшего мейнстримом?
Я.А: …И насколько близко будущее, когда вы будете давать интервью не журналисту, а роботу?
Г.К: Можно сделать робота-интервьюера и он сможет поддерживать связную беседу. Но технологии, о которых я рассказываю, не стоит называть искусственным интеллектом, – это скорее робот, который «притворяется» интеллектуальным. У такого робота возможности ограничены информацией, которую мы в него заложили, он может лишь воспроизводить образцы поведения, которым обучен. Но он не способен к творчеству, не способен создавать что-то принципиально новое. Всё это системы, которые обучаются на примерах, они позволяют очень быстро реагировать, отвечать на вопросы, но в них полностью отсутствует способность думать и принимать логические решения.
Создание супермозга, который может поддержать диалог по любой тематике и делать это интересно, не кажется мне правильным путем развития искусственного интеллекта. Я считаю, что нужно концентрироваться на том, что можно внедрять для решения практических задач, и поэтому я смотрю, что действительно сейчас нужно потребителю. А потребности в эмоциональном роботе, способном принимать самостоятельные решения, я не вижу.