В этой статье я объясню взаимосвязь между задачами бизнеса и извлечением данных (data mining) на примере анализа экономических последствий определенной бизнес-стратегии, в которой используется технология data mining. Мы рассмотрим случай расследования претензий. Вы увидите, что извлечение данных, будучи корректно примененным, может обеспечить повышение эффективности и доходности бизнес-процессов, позволяя вам понять действительные издержки и выгоды от принимаемых деловых решений. (Эта статья предназначена для менеджеров, обладающих техническими знаниями, а не тех, кто занимается анализом данных.) В сущности, использование извлечения данных для прогнозирования ключевых событий в будущем позволяет получить более четкую картину плюсов и минусов бизнес-стратегии. Таким образом, создание бизнес-стратегии становится столь же простым, как выбор между операциями, приносящими доход, и действиями, влекущими за собой убытки.

При расследовании претензий, ориентированные на бизнес процедуры извлечения данных могут повысить прибыльность, позволяя оценить, сколько денег сэкономит компании такое расследование. Здесь существуют два метода. Согласно первому, дополнительный доход можно получить от расследования претензий, которые изначально не намечались для расследования, и отказа от возмещений, неправомочно требуемых клиентами, а во втором методе экономия заключается в отказе от расследований, которые не принесут ощутимой экономии средств.

В страховой отрасли очень часто расследуется правомочность претензий, хотя такие расследования практикуются и в других отраслях. Например, в системе здравоохранения расследуются требования выплат по медицинским страховкам; в компаниях, обслуживающих кредитные карточки, расследуются требования возврата уплаченных сумм; автомобильные компании расследуют претензии по гарантии; розничные магазины изучают данные о продажах. Кроме того, в этих отраслях есть множество других типов расследований, способных обеспечить определенный экономический эффект. В одном только страховании есть несколько видов расследований, в том числе независимая медицинская экспертиза (independent medical examination, IME), специальные расследования, надзор и аудит медицинских записей.

Различные виды расследований требуют различных усилий, а получаемые данные существенно разнятся. Тем не менее описываемая в этой статье общая схема применима к любому из указанных типов расследований во всех перечисленных отраслях, до тех пор пока они касаются материальных затрат и предоставляют достаточное количество данных для data mining (большинство методов удовлетворяют этому условию).

Знаете ли вы, что...

уже во время второй мировой войны американское правительство применяло методы извлечения данных при сборе сведений и в военных целях.

Плюсы и минусы деловых решений

Чтобы достичь поставленной цели — повышения рентабельности (return on investment, ROI) бизнес-процессов, технологии извлечения данных должны приводить к определенным изменениям в процессах принятия решений в бизнесе. Таким образом, первый шаг на пути создания общей схемы ориентированного на бизнес извлечения данных заключается в осознании экономического эффекта от конкретных деловых решений. Мы начнем с определения сведений о доходах и расходах, которые можно получить на основании имеющихся данных.

Расследование претензий стоит денег. Источники расходов лежат как внутри, так и вне компании, расследующей претензию. Деньги, выплачиваемые сторонним компаниям за услуги по расследованию, мы назовем явными затратами (hard costs), так как они в явном виде представлены в счетах и договорах. Сторонние компании используются как для независимой оценки требований (например, проведения IME), так и для выполнения определенных операций в удаленных местах (например, надзор в других городах или местах, удаленных от штаб-квартиры компании). Затраты, источник которых находится внутри компании, называются неявными, или скрытыми затратами (soft costs), так как они обычно включаются в общий объем накладных расходов.

Явные затраты на оплату услуг сторонних компаний обычно превышают неявные внутренние расходы. Например, в некоторых полисах по страхованию телесных повреждений оговорено право страховщика потребовать, чтобы клиент, обратившийся с претензией, прошел независимый медицинский осмотр. Как показали последние исследования, в одном из штатов расходы на IME в среднем обходятся в 350 долл. Кроме того, связанные с этим внутренние затраты составляют 150 долл.; таким образом, полная стоимость IME в среднем равна 500 долл. В указанном расследовании стоимость подавляющего большинства IME-экспертиз была одинакова, только небольшая их часть обошлась дешевле, да и то по причине неявки клиента на обследование. Поскольку стоимость большинства расследований одна и та же, для целей определения бизнес-стратегии мы будем считать затраты на обработку претензий одинаковыми.

Имеются и другие, менее очевидные источники затрат. Те, кто обращается за возмещением, не в восторге от расследований их претензий, и если они к тому же клиенты данной страховой компании, то вполне могут отказаться от ее услуг. Клиентов можно разбить на группы по их отношению к претензиям и расследованиям. Аналитики могут оценить среднюю продолжительность сотрудничества с клиентом, который:

  1. Никогда не предъявлял претензий.
  2. Предъявлял претензии, которые не расследовались.
  3. Предъявлял претензии, которые расследовались, и правомочность требований подтвердилась.
  4. Предъявлял претензии, которые расследовались, но правомочность требований не подтвердилась.

Разница между типами 1 и 2 образует издержки или прибыль системы страхования без учета всего, что связано с расследованием претензий. Этот ключевой индикатор деятельности показывает существующие расходы по выплате компенсаций по претензиям. Так как в этой статье нас прежде всего интересует решение вопроса, стоит ли расследовать предъявляемые претензии, мы будем сравнивать между собой типы 2 и 3, а также 2 и 4.

Разность между 2 и 3 представляет собой эффект от «удачного» решения провести расследование. Клиенты, чьи претензии расследовались и размер возмещения которым снижен, вероятно, чувствуют себя обиженными. Естественно, что положительный эффект (сэкономленные средства) от такого типа расследований демпфируется отказами клиентов от услуг компании. Разница между 2 и 4 составляет потери от «неудачных» решений о проведении расследования. Заказчикам, чьи претензии расследовались, а возмещение оставлено без изменений, может показаться, что компания пытается уклониться от выполнения своих обязательств, и часть из них станет пользоваться услугами других страховщиков.

Далее я расскажу о связанных с рассматриваемой темой бизнес-решениях и об их известных плюсах и минусах. Эта информация необходима для определения экономических последствий изменения решения. В следующем разделе мы поговорим о пока еще не известных доходах и расходах.

Роль технологии извлечения данных

Ожидаемую стоимость расследования можно представить следующим выражением: вероятность «удачного» решения, умноженная на экономию средств, плюс вероятность «неудачного» решения, умноженная на стоимость расследования, и минус стоимость расследования. Например, когда вы делаете в рулетке ставку на черное (мы предполагаем, что на колесе нет «зеро»), с вероятностью 50% вы выиграете, удвоив сумму своей ставки, и с такой же вероятностью проиграете ставку. Следовательно, ожидаемый результат равен 50%ґ2 + 50%ґ0 = 1, т. е. равняется исходной ставке.

Таким образом, на этом этапе нам известна цена «удачного» и «неудачного» исходов. Так как для определения вероятности плохого результата достаточно отнять от единицы вероятность хорошего результата, то нам требуется узнать лишь вероятность положительного исхода. Для решения этой задачи применяются прогнозирующие модели извлечения данных.

В сущности модель, обладающая предсказательной силой, — это «мостик» между известным и неизвестным. Она позволяет предсказать будущее на основании того, что известно на текущий момент. Модели предсказания создаются на основании уже произошедших событий, аналогичных ожидаемому. Общеизвестный пример — прогноз погоды. Метеорологи применяют компьютерные программы для прогнозирования погоды на основании текущих наблюдений и знания о моделях поведения погоды в прошлом.

В бизнесе предсказательная модель сначала создается специалистами по извлечению данных, а затем предоставляется бизнес-пользователям. Для использования этих моделей применяются программные средства бизнес-аналитики (business intelligence). В процессе разработки модели определяются отношения между тем, что известно до представляющего интерес события, и самим этим событием. После внедрения предсказательная модель используется для оценки определенного события — в нашем примере это вероятность «удачного» исхода расследования претензии.

Недавний опрос читателей журналом KDnuggets (http://www.kdnuggets.com) показал, что у них наиболее популярны такие методы, как деревья решений и правила, а также логистическая регрессия.

Наиболее продуктивные модели предсказания создаются на основании большого объема надежных и достоверных данных. Необходимые данные — это сведения о проведении расследования или отказе от него, а также результаты расследований. Любые сведения, известные до расследования, позволяют улучшить модель.

Необходимы две модели, так как отбор претензии для расследования и результат расследования — это два различных события. Модель, предсказывающая, какие претензии будут выбраны для расследования, строится на основе всех претензий, а модель, предсказывающая успешность расследования, базируется лишь на тех претензиях, результат расследования которых известен, т. е. тех, которые расследовались. В процессе внедрения эти две модели комбинируются. Применять модель, предсказывающую результат расследования, ко всем претензиям будет неправильно, так как совсем не расследуемые претензии качественно отличаются от расследуемых.

Это различие не всегда очевидно. Например, в американской юридической системе предъявление обвинения и осуждение — два разных события. Для предъявления обвинения достаточно небольшого количества улик, позволяющих доказать мотив и возможность совершения преступления. Осуждение подразумевает предъявление обвинения и существенно более весомые доказательства вины. Естественно, было бы неправильно пропускать этап предъявления обвинения и сразу же пытаться осудить подозреваемого. Точно так же нельзя сразу переходить к оценке успешности расследования, пропустив этап отбора претензий для расследования.

Окупаемость и рекомендуемая бизнес-стратегия

Как известно, окупаемость (return of investment, ROI) равна прибыли, деленной на затраты, где прибыль — это доход за вычетом затрат. В нашем конкретном случае прибыль вычисляется как вероятность удачного расследования, умноженная на фиксированный средний доход от такой операции, минус стандартный размер затрат. Таким образом, окупаемость — это вероятность удачного результата расследования, умноженная на средний доход от расследования и деленная на средние затраты на расследование, минус единица.

Например, если вероятность успеха расследования претензии составляет 80%, средний доход от удачного расследования — 750 долл., а фиксированная стоимость расследования — 500 долл., то прибыль составит 100 долл. С другой стороны, если вероятность успеха 30%, то расследование принесет не прибыль, а потери в размере 275 долл. Единственная переменная величина в этой формуле — вероятность успеха расследования претензии, которая предоставляется прогнозирующей моделью, созданной в процессе извлечения данных. Так извлечение данных помогает оценить окупаемость расследования претензии. Важно понять, что претензии с высокой вероятностью успеха расследования характеризуются высокой окупаемостью, а с низкой вероятностью успеха — низкой или отрицательной окупаемостью.

Итак, у нас есть две бизнес-cтратегии: выполнять расследования с высокой ожидаемой окупаемостью и останавливать расследования с низкой прогнозируемой окупаемостью. Например, для получения окончательного перечня претензии, изначально выбранные для расследования оценщиком убытка, еще до начала расследования «пропускаются» через второе «сито» нашей модели. Расследования претензий с высокой вероятностью положительного результата продолжаются, а если вероятность успеха низка, решение о расследовании претензии направляется на пересмотр лицам, ответственным за надзор, или попросту отменяется. Успешность такой системы можно продемонстрировать на реальном примере, в котором реализованы обе возможности и можно сравнить результаты.

Если анализ практики назначения расследований укажет на регулярно упускаемые возможности сэкономить, можно возвращать на переоценку уже удовлетворенные претензии с высокой прогнозируемой окупаемостью расследования. Если же анализ покажет, что расследование претензий убыточно, можно останавливать расследования с низкой прогнозируемой окупаемостью. Если отдел расследований хочет на будущее сохранить число расследуемых претензий приблизительно таким же, как раньше, этого можно достичь, объединив указанные стратегии.

Объединение стратегий, с тем чтобы число дополнительных расследований, назначенных на первом этапе отбора, было равно числу остановленных расследований в соответствии с рекомендациями модели, позволяет сохранять общее число расследований претензий. Сохранение числа расследований обеспечивает и дополнительную выгоду, поддерживая «эффект надзора» и не давая предъявлять ложные или «раздутые» претензии под страхом расследования.

Преимущества для бизнеса в целом тоже очевидны. Во-первых, благодаря снижению расходов можно предлагать более конкурентные цены, что позволяет увеличивать долю на рынке, а это, в свою очередь, вызывает рост курса акций. Во-вторых, большее число успешных расследований претензий и меньшее — неудачных улучшают отношения с клиентами: меньше честных клиентов будут раздражены совершенно не нужными расследованиями.

Счастливое будущее

В этой статье объясняется, как извлечение данных может помочь повысить окупаемость бизнес-процесса. Если известны затраты и расходы, то для того, чтобы оценить прибыли или потери от принятия решения о расследовании претензии еще до начала самого расследования, нужно узнать лишь одну неизвестную величину — вероятность удачного результата расследования. Предложены две бизнес-cтратегии: одна заключается в зарабатывании дополнительных денег путем расследования претензий, которые изначально расследовать не предполагалось, а другая — в экономии средств путем остановки запланированных, но скорее всего нерентабельных расследований.

Есть хорошее выражение, которое коротко выразит идею этой статьи: «Если бы только я знал, какое событие X случится в будущем, я бы сделал Y и заработал бы кучу денег». В применении к рассматриваемому в статье примеру это выражение можно перефразировать так: «Если бы я только знал, будет ли расследование успешным, то я бы проводил лишь успешные расследования и сэкономил бы кучу денег, назначая только те расследования, которые нужно».

Это утверждение в одной фразе формулирует руководство ко всем методикам прогнозирования с применением извлечения данных. Указав относящиеся к вашему бизнесу переменные X и Y, вы можете начинать ориентированное на бизнес извлечение данных.

Дж.Т. Леман (J.T. Lehman) работает в корпорации Intelligent Technologies Corp. и занимается созданием эффективных бизнес-cтратегий, использующих результаты извлечения данных и статистического анализа. С ним можно связаться по e-mail: jtlehman@alumni.utexas.net.