В STATISTICA реализованы классические методы кластерного анализа, включая методы k-средних, иерархической кластеризации и двухвходового объединения. Кластеризация является одной из важнейших задач в геологии, с помощью которой проводится разделении территории месторождения на перспективные и неперспективные участки.
Рассматривается задача опробования месторождения по критерию содержания в рассмотренных образцах золота и меди и нахождения перспективных участков для его дальнейшего эксплуатирования, для этого применяем классический метод К-средних и его обобщенный аналог, реализованный в модуле Data Mining.
Имеется Sample.sta – таблица данных STATISTICA, в которой представлены 20.000 наблюдений проб. Пробы охарактеризованы 5 параметрами:
Все кластерные алгоритмы нуждаются в оценках расстояний между кластерами или объектами, и ясно, что при вычислении расстояния необходимо задать масштаб измерений.
Поскольку различные измерения используют абсолютно различные типы шкал, данные необходимо стандартизовать (в меню Данные выберете пункт Стандартизовать), так что каждая переменная будет иметь среднее 0 и стандартное отклонение 1.
Фрагмент таблицы со стандартизованными переменными приведен ниже.
Как правило, использованию классического метода К-средних предшествует иерархическая кластеризация, которая позволяет визуально оценить оптимальное для исследователя количество кластеров, исходя из расстояний между элементами, но в данном случае иерархическую кластеризацию использовать нельзя из-за достаточно большого количества наблюдений, поэтому начнем перебор количества кластеров.
Выберем Кластерный анализ в меню Анализ - Многомерный разведочный анализ для отображения стартовой панели модуля Кластерный анализ. В Стартовой панели модуля Кластерный анализ выберем Кластеризация методом К средних.
Нажмем кнопку Переменные и выберем Все, в поле Объекты выберем Наблюдения (строки), зададим количество кластеров разбиения. После выполнения анализа для различного количества кластеров было решено использовать 4 кластера.
В окне Результаты метода К средних выберем Дисперсионный анализ для определения значимости различия между полученными кластерами.
Итак, значение р<0.05, что говорит о значимом различии.
Также в окне Результаты метода К средних можно выбрать пункты График Средних и Статистики для каждого кластера.
В геологии очень важна визуализация полученных результатов, поэтому очень важно территориальное различие между кластерами. Для этого на диаграмме рассеяния рассмотрим полученные результаты. Для этого нам необходима таблица с указанным разделением элементов на кластеры. В окне Результаты метода К средних выберем Сохранить Классификацию и расстояния.
Для полученной таблицы выберем пункт Диаграмма рассеяния в меню Графика. Во вкладке Дополнительно нажмем Отметить выбранные подгруппы.
Результаты кластеризации сохранились в седьмой переменной, поэтому для каждой подгруппы прописываем номер соответствующего кластера.
Полученная диаграмма рассеяния имеет вид:
Data Mining позволяет проводить модифицированные виды классических анализов, в том числе Кластерный анализ. Отличие от классического метода К-средних заключается в том, что дополнительно проводится кросс-проверка на тестовых множествах, которая позволяет минимизировать ошибку и подобрать оптимальное число кластеров для данной модели.
В модуле Добыча Данных выберем Обобщенные методы Кластерного анализа. В окне Variables – Continuous Variables снова выберем все переменные и откроем вкладку Validation. В окне V-fold Cross Validation поставим галочку и подберем минимальное и максимальное желаемое число кластеров.
Нажимаем кнопку ОК и через некоторое время появится окно результатов.
В итоге мы получили 9 кластеров.
В окне Generalized Cluster Analysis реализованы аналогичные методы представления результатов, что и в окне результатов классического метода К-средних.
Аналогично предыдущему пункту, построим Диаграмму рассеяния для полученных кластеров.
Примечания к ограничениям использования классического метода К-средних: возможно использование максимум порядка 1.000.000 наблюдений и порядка 4.000 переменных.
Узнайте больше на курсах Академии Анализа Данных StatSoft
Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
|
© StatSoft Russia |
StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран. |