Объектом исследования является совокупность образцов топлива, подвергшихся лабораторному исследованию. Все переменные, содержащиеся в таблице, стандартизованы (вычитается среднее, результат поделен на стандартное отклонение). Требуется сегментировать результаты исследований с различными образцами топлива (число сегментов изначально неизвестно).
Модели прогнозирования свойств сортов топлива, построенные на исходном множестве данных лабораторных исследований, не дают необходимой точности прогноза. Основная причина – разнородность сортов топлива. В данном примере воспользуемся технологией нейросетевого анализа для решения задачи сегментации. Заметим, что обычно при сегментировании какого-то набора объектов решают две задачи: проведение кластерного анализа, решение задачи идентификации группы по результатам лабораторных исследований. В данном примере мы займемся решением первой задачи.
Необходимо построить решающее правило, позволяющее отнести спектр к определенному кластеру с высокой степенью точности.
Исходные данные представлены в таблице системы STATISTICA. Фрагмент таблицы показан на рис. 1. Данные являются модельными и иллюстрируют подход к решению задач.
Рис. 1. Таблица исходных данных
Всего в таблице имеется 228 переменных, в которых содержатся данные измерений по каждому из 1810 образцов. Здесь все переменные – входные.
Единственной выходной переменной в данной задаче будет переменная, задающая результаты классификации. Значения этой переменной нам и требуется определить.
Шаг 1. Запускаем модуль Автоматизированные Нейронные Сети из меню Анализ. Для проведения кластерного анализа (когда итоговая классификация не известна) используется архитектура Нейронной сети, которая называется Самоорганизующиеся карты Кохонена.
В качестве типа анализа выбираем Кластерный анализ и нажимаем ОК.
Рис. 2. Стартовое окно модуля Нейронные сети с необходимыми установками
Далее, заходим в диалог задания переменных и выбираем все 226 независимых переменных как непрерывные входные переменные. А также задаем разбиение на подвыборки.
При построении карт Кохонена используется фиксированная стратегия Пользовательская нейронная сеть (ПНС), поэтому просто нажимаем OK и переходим к следующему этапу: выбору сетевой архитектуры и заданию параметров.
Шаг 2. В окне Пользовательская нейронная сеть (ПНС) – вкладка Быстрый (Кохонен) (рис. 3) необходимо указать размер топологической карты. Сделаем следующие установки: ширина – 5, высота – 5.
Рис. 3. Диалоговое окно Пользовательская нейронная сеть (ПНС) – вкладка Быстрый (Кохонен)
Перейдем на вкладку Кохонен - обучение (рис. 4). На данной вкладке необходимо задать параметры обучения нейронной сети.
Рис. 4. Диалоговое окно Пользовательская нейронная сеть (ПНС) – вкладка Кохонен - обучение
В рамках данного примеры мы не будем углубляться в смысл параметров, задаваемых в этом окне.
Шаг 3. Перейдем к изучению результатов. Топологическая карта, на которой для каждой ячейки указываются частоты (и выделяются цветом) попадания наблюдений, выглядит следующим образом. С помощью данной карты можно попытаться разбить все данные на кластеры, а потом проверить классификацию на известных метках.
Рис. 5. Окно Топологическая карта
Шаг 4. После того как кластеризация проведена, мы можем классифицировать новые наблюдения, путем соотнесения их к конкретному кластеру.
Чтобы понять более четкую структуру кластеров и их количество, желательно провести ряд экспериментов по построению больших и маленьких карт. Это позволит выявить как большие, так и малые группы наблюдений.
Узнайте больше на курсах Академии Анализа Данных StatSoft
Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
|
© StatSoft Russia |
StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран. |