В самой общей формулировке под классификацией понимается разделение рассматриваемой совокупности объектов или явлений на однородные, в определенном смысле, группы либо отнесение каждого из заданного множества объектов к одному из заранее известных классов.
В последние годы было проведено большое количество широких комплексных исследований сложных социально-экономических, технических, медицинских и других процессов и систем, таких, как образ и уровень жизни населения, совершенствование организационных систем, региональная дифференциация социально-экономического развития, планирование и прогнозирование отраслевых систем, закономерности возникновения сбоев в технике или заболеваний в медицине. В связи с многоплановостью и сложностью этих объектов и процессов данные о них носят многомерный и разнотипный характер, так как до их анализа обычно бывает неясно, насколько существенно то или иное свойство для конкретной цели. В этих условиях выходят на первый план проблемы построения группировок и классификаций по многомерным данным (т.е. проблемы классификации многомерных наблюдений), причем появляется возможность оптимизации этого построения с точки зрения наибольшего соответствия получаемого результата поставленной конечной цели классификации.
STATISTICA - полностью на русском языке!
Предоставляет широкий выбор разведочных технологий анализа различных типов данных в сочетании с богатыми интерактивными средствами визуализации.
Модули этого блока могут быть использованы при решении задач, связанных с сегментацией исходных объектов в данных, снижением размерности данных, задач классификации и др. Применение многомерных статистических методов анализа позволяет снизить трудоемкость решения задачи прогнозирования.
Модуль Кластерный анализ позволяет разбить исходную, вообще говоря, неоднородную совокупность объектов на максимально однородные группы, или кластеры. Например, в крупных торговых сетях ассортимент продаваемых товаров насчитывает тысячи единиц. Мы можем разбить все множество временных рядов на однородные кластеры, которые будут содержать ряды, обладающие сходной динамикой, после чего анализировать уже не отдельные ряды, а целые кластеры. Таким образом, значительно (иногда в десятки раз) снижается размерность задачи, а следовательно и трудоемкость прогнозирования продаж.
Кроме этого, можно кластеризовать данные исходя из абсолютных значений оборота по каждому из товаров, и выделить товары, продажи которых приносят наибольшую прибыль. Как показывает опыт, часто около 20% ассортимента обеспечивают 80% оборота (так называемый принцип Парето).
Модуль Дискриминантный анализ содержит большой набор средств и статистик для классификации старых и новых наблюдений (для оценки качества модели), позволяет вычислить стандартные функции классификации для каждой группы. Дискриминантный анализ используется для принятия решения о том, какие переменные дискриминируют или разделяют объекты на две или более естественно возникающих групп (его используют как метод проверки гипотез или как метод разведочного анализа).
Предположим, исследователь в области образования хочет определить, какие переменные относят выпускника средней школы к одной из трех категорий: поступающие в колледж, поступающие в профшколу или отказывающиеся от дальнейшего образования или профессиональной подготовки. Для этой цели исследователь мог собирать данные о различных переменных до окончания учащимися школы. После выпуска большинство учащихся естественно должно попасть в одну из перечисленных выше категорий. Затем можно использовать Дискриминантный анализ для определения, какие переменные дают наилучшее предсказание о выборе учащимися их дальнейшего пути и в дальнейшем использовать эти результаты, например, для прогноза судьбы учеников следующего года выпуска.
Кроме того, StatSoft Russia ведет разработку готовых отраслевых решений, позволяющих автоматизировать процесс построения прогнозов (в том числе для сотен рядов), а также учесть всю специфику задач Заказчика.
Академия Анализа Данных предлагает широкий набор курсов по любым темам анализа данных. Перейти к списку тем
Наиболее популярные курсы по решению задачи классификации:
Многомерный анализ данных в системе STATISTICA
Углубленный курс по анализу данных для финансистов: многомерные методы
Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
|
© StatSoft Russia |
StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран. |