База примеров

Пример использования кластерного анализа STATISTICA в автостраховании

Посмотреть видеоурок на Statistica

Постановка задачи 

Масштаб измерений

Шаг 1. Иерархическая классификация 

Шаг 2. Кластеризация методом К средних 

Шаг 3. Описательные статистики 

В STATISTICA реализованы классические методы кластерного анализа, включая методы k-средних, иерархической кластеризации и двухвходового объединения.

Данные могут поступать как в исходном виде, так и в виде матрицы расстояний между объектами.

Наблюдения и переменные можно кластеризовать, используя различные меры расстояния (евклидово, квадрат евклидова, манхэттеновское, Чебышева и др.) и различные правила объединения кластеров (одиночная, полная связь, невзвешенное и взвешенное попарное среднее по группам и др.).

Постановка задачи

Исходный файл данных содержит следующую информацию об автомобилях и их владельцах:

  • марка автомобиля – первая переменная;

  • стоимость автомобиля – вторая переменная;

  • возраст водителя – третья переменная;

  • стаж водителя – четвертая переменная;

  • возраст автомобиля – пятая переменная;

Целью данного анализа является разбиение автомобилей и их владельцев на классы, каждый из которых соответствует определенной рисковой группе. Наблюдения, попавшие в одну группу, характеризуются одинаковой вероятностью наступления страхового случая, которая впоследствии оценивается страховщиком.

Использование кластер-анализа для решения данной задачи наиболее эффективно. В общем случае кластер-анализ предназначен для объединения некоторых объектов в классы (кластеры) таким образом, чтобы в один класс попадали максимально схожие, а объекты различных классов максимально отличались друг от друга. Количественный показатель сходства рассчитывается заданным способом на основании данных, характеризующих объекты.

Масштаб измерений

Все кластерные алгоритмы нуждаются в оценках расстояний между кластерами или объектами, и ясно, что при вычислении расстояния необходимо задать масштаб измерений.

Поскольку различные измерения используют абсолютно различные типы шкал, данные необходимо стандартизовать (в меню Данные выберете пункт Стандартизовать), так что каждая переменная будет иметь среднее 0 и стандартное отклонение 1.

Таблица со стандартизованными переменными приведена ниже.

Шаг 1. Иерархическая классификация

На первом этапе выясним, формируют ли автомобили "естественные" кластеры, которые могут быть осмыслены.

Выберем Кластерный анализ в меню Анализ - Многомерный разведочный анализ для отображения стартовой панели модуля Кластерный анализ. В этом диалоге выберем Иерархическая классификация и нажмем OK.

Нажмем кнопку Переменные, выберем Все, в поле Объекты выберем Наблюдения (строки). В качестве правила объединения отметим Метод полной связи, в качестве меры близости – Евклидово расстояние. Нажмем ОК.

Метод полной связи определяет расстояние между кластерами как наибольшее расстояние между любыми двумя объектами в различных кластерах (т.е. "наиболее удаленными соседями").

Мера близости, определяемая евклидовым расстоянием, является геометрическим расстоянием в n- мерном пространстве и вычисляется следующим образом:

Наиболее важным результатом, получаемым в результате древовидной кластеризации, является иерархическое дерево. Нажмем на кнопку Вертикальная дендрограмма.

дендрограмма

Вначале древовидные диаграммы могут показаться немного запутанными, однако после некоторого изучения они становятся более понятными. Диаграмма начинается сверху (для вертикальной дендрограммы) с каждого автомобиля в своем собственном кластере.

Как только вы начнете двигаться вниз, автомобили, которые "теснее соприкасаются друг с другом" объединяются и формируют кластеры. Каждый узел диаграммы, приведенной выше, представляет объединение двух или более кластеров, положение узлов на вертикальной оси определяет расстояние, на котором были объединены соответствующие кластеры.

Шаг 2. Кластеризация методом К средних

Исходя из визуального представления результатов, можно сделать предположение, что автомобили образуют четыре естественных кластера. Проверим данное предположение, разбив исходные данные методом К средних на 4 кластера, и проверим значимость различия между полученными группами.

В Стартовой панели модуля Кластерный анализ выберем Кластеризация методом К средних.

кластеризация k-средних

Нажмем кнопку Переменные и выберем Все, в поле Объекты выберем Наблюдения (строки), зададим 4 кластера разбиения.

метод к-средних

Метод K-средних заключается в следующем: вычисления начинаются с k случайно выбранных наблюдений (в нашем случае k=4), которые становятся центрами групп, после чего объектный состав кластеров меняется с целью минимизации изменчивости внутри кластеров и максимизации изменчивости между кластерами.

Каждое следующее наблюдение (K+1) относится к той группе, мера сходства с центром тяжести которого минимальна.

После изменения состава кластера вычисляется новый центр тяжести, чаще всего как вектор средних по каждому параметру. Алгоритм продолжается до тех пор, пока состав кластеров не перестанет меняться.

Когда результаты классификации получены, можно рассчитать среднее значение показателей по каждому кластеру, чтобы оценить, насколько они различаются между собой.

В окне Результаты метода К средних выберем Дисперсионный анализ для определения значимости различия между полученными кластерами.

Итак, значение р<0.05, что говорит о значимом различии.

Нажмем кнопку Элементы кластеров и расстояния для просмотра наблюдений, входящих в каждый из кластеров. Опция также позволяет отобразить евклидовы расстояния объектов от центров (средних значений) соответствующих им кластеров.

Первый кластер:

 

Второй кластер:

Третий кластер:

Четвертый кластер:

Итак, в каждом из четырех кластеров находятся объекты со схожим влиянием на процесс убытков.

Шаг 3. Описательные статистики

Знание описательных статистик в каждой группе, безусловно, является важным для любого исследователя.

Отображение статистик для каждого кластера из диалога Результаты метода К средних в данном случае не представляет интереса, т.к. данные были стандартизованы.

Нажмем кнопку Сохранить классификацию и расстояния.

Таблица стандартизованных данных дополнилась информацией о кластере, к которому принадлежит наблюдение, евклидовом расстоянии и номере наблюдения.

Скопируем переменную КЛАСТЕР в исходную таблицу данных.

Теперь для каждого кластера можно вычислить основные описательные статистики.

В меню АнализОсновные статистики и таблицы выберем опцию Группировка и Однофакторный ДА.

Ниже приведены таблицы описательных статистик для каждого из показателей:

Знание основных описательных статистик в каждом кластере может быть использовано экспертом для оценки убытков страховой компании.

Построим график средних и доверительных интервалов для переменных в каждом кластере.

Итак, для каждого кластера экспертом может быть определена вероятность наступления страхового случая.


В начало


Узнайте больше на курсах Академии Анализа Данных StatSoft

Список курсов    Календарь    Расписание груповых занятий






                info@statsoft.ru         +7 (495) 787-77-33      +7 (499) 674-06-15          STATISTICA 13.3 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia
1999-2023

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта