Методы машинного обучения, представленные в Statistica, позволяют проводить всесторонний анализ геологических данных, в частности, данных геофизического исследования скважин (ГИС), каротажа и находить зависимости в данных, которые невозможно определить традиционными методами.
Statistica содержит исчерпывающий набор современных методов интеллектуального анализа данных, включая нейронные сети и методы машинного обучения.
Реализованные в гибком графическом интерфейсе с предопределенными настройками алгоритмы Statistica позволяют пользователям из конкретной прикладной области быстро войти в анализ данных и строить адекватные предсказательные модели.
По оценке международных рейтинговых агентств в настоящее время Statistica TIBCO Software является одним из лучших программных средств в области дейта сайнс, нейронных сетей и машинного обучения, см. http://statsoft.ru/coordination/news/news_detail.php?ELEMENT_ID=1937
StatSoft открывает прорывные методы интеллектуального анализа данных для отраслей промышленности, включая геологию, нефтегазовую отрасль и другие секторы экономики.
Наши флагманские курсы доступны по ссылкам:
Введение в анализ данных с помощью нейронных сетей: теория и практика на компьютере
Отзывы на курсы Академии Анализа Данных представлены по ссылке.
Геофизические данные и модели служат основой для литологического расчленения разрезов скважин, выделения продуктивных пластов, оценки коллекторских свойств.
Контроль за разработкой нефтяных и газовых месторождений включает комплекс геофизических исследований в действующих скважинах, размещенных в пределах эксплуатируемой залежи для изучения процесса вытеснения нефти в пласте и закономерностей перемещения водонефтяного и газожидкостного контактов.
Актуальным является применение методов интеллектуального анализа данных при проведении добычи нефти по технологии гидроразрыва пласта (фрекинга).
На предприятиях накоплены большие объемы исторических данных, включающие геологические характеристики (пористость, проницаемость и др.) и технологические параметры проведения ГРП (вид технологии, фракция проппанта, темп закачки, давление и др).
На основе исторических данных методами добычи данных и нейронных сетей строятся предсказательные модели для вероятности наступления осложнений при проведении ГРП, коэффициента обводненности и др. характеристик.
Окончательные результаты использования методов машинного обучения, например, древовидных методов для классификации или регрессии ГИС могут быть обобщены в виде серии (обычно несколько) логических условий if-then (узлы дерева).
Следовательно, не существует неявного предположения о том, что лежащие в основе отношения между переменными-предикторами и зависимой переменной являются линейные связи, следуют некоторой определенной нелинейной функции связи [например, см. Обобщенные линейные / нелинейные модели (GLZ)] или что зависимости даже монотонны по своей природе.
Например, некоторая непрерывная интересующая переменная может быть положительно связана с переменной отклик (вероятность осложнения), если отклик меньше некоторой определенной величины (например, масса пропанта), но отрицательно связана, если переменная превышает эту величину.
Таким образом, древовидные методы машинного обучения особенно хорошо подходят для задач интеллектуального анализа данных, где зачастую мало априорных знаний или какого-либо связного набора эвристик относительно того, какие именно зависимости имеются между переменными.
В такого типа задачах методы интеллектуального анализа данных дают замечательные результаты и часто могут выявить отношения между несколькими переменными, которые могли бы остаться незамеченными при использовании других аналитических методов.
Особенно эффективны данные методы в геологоразведке не только нефтяных и газовых месторождений, но и рудных ископаемых, где вариабельность данных и сложность зависимостей заставляет применять сложные методы анализа.
В данном кейсе показано применение Statistica в задаче анализа данных каротажа, который является основой ГИС.
Задача прогнозирования осложнений, возникающих при ГРП и других задач геологоразведки, будет рассмотрена в отдельных материалах.
Проводится зондирование породы по глубине, необходимо провести сегментацию данных, выделить зоны, отличающиеся по поведению сигнала (переменная параметр_1).
Параметр 1 – сигналы от скважинного прибора (зонда), который передается с разной глубины на поверхность и регистрируется наземной аппаратурой, установленной обычно на передвижной каротажной станции.
Переменная Н – глубина, с которой подается сигнал.
Вначале построим график исходных данных:
Для решения задачи можно применить следующие подходы: сегментация с помощью модели кусочно-постоянной регрессии (см. M.Hutter), также классификацию с помощью деревьев регрессии C&RT. (градиентный бустинг, случайный лес).
Теоретически можно воспользоваться нейронными сетями Statistica, при условии, что будет доступна обучающая выборка из результатов, полученных ранее “вручную”.
Как показывает практика, это дает наиболее точные результаты.
Ниже рассмотрим классический метод C&RT деревьев как наиболее простой и быстрый.
Модуль Общих деревьев классификации и регрессии позволяет строить деревья классификации и регрессии для прогнозирования непрерывных зависимых переменных (регрессия) и категориальных предикторов (классификация).
Statistica поддерживает классический алгоритм C & RT, популяризированный Breiman et al. (Breiman, Friedman, Olshen, & Stone, 1984; см. Также Ripley, 1996), и включает в себя различные методы обрезания и перекрестной проверки, а также мощные методы перекрестной проверки по V-кратному критерию.
Кроме того, с помощью этого модуля вы можете задавать ANCOVA-подобные экспериментальные планы (см. MANOVA и GLM) с непрерывными и категориальными факторными эффектами и взаимодействиями, чтобы основывать вычисления на матрицах планов для предикторов.
Общее введение в древовидные классификаторы, в частности в алгоритм QUEST (быстрое, несмещенное, эффективное статистическое дерево), также представлено в контексте средств анализа.
Другой, подобный тип алгоритма построения дерева - CHAID (автоматический детектор взаимодействия хи-квадрат; см. Kass, 1980); полная реализация этого алгоритма также доступна в модуле General CHAID Models Statistica.
В окне задания параметров анализа выбираем переменные:
Зависимая переменная сигнал – параметр 1, предиктор – глубина.
Во вкладке “Остановка” вводим Minimum n of cases = 20
Это минимальное число наблюдений, которое должно быть в группе, чтобы ее можно было разбить на сегменты.
Визуально по графику исходных данных можно оценить, что самый разреженный типовой участок содержит ~20 наблюдений, поэтому чтобы этот участок попадал в класс целиком, и устанавливается указанный параметр остановки.
Правило остановки, комментарий. Если зависимая переменная для текущего анализа носит категориальный характер, и цель анализа состоит в том, чтобы классифицировать наблюдения, то доступны три правила остановки: обрезание по ошибке классификации, по отклонению и прямая остановка в стиле FACT.
Если зависимая переменная является непрерывной, доступны два правила остановки: обрезание дерева по дисперсии и прямая остановка в стиле FACT.
Один из способов проверки размера дерева - это обрезание, то есть удаление частей деревьев с целью построения дерева правильного размера.
Если зависимая переменная является непрерывной (регрессия), используемой мерой является дисперсия наблюдений в узле.
Остановка по отклонению. Отклонение - это мера соответствия, основанная на принципе правдоподобия. Эта опция будет использовать разницу между логарифмической вероятностью лучшей модели и текущей модели в качестве основы для сокращения, когда зависимая переменная является категориальной (см. Ripley, 1996).
FACT-style прямая остановка - другой способ сокращения в случае категориальной переменной (классификация) основан на доле объектов одного или нескольких классов в узле.
В модуле GC & RT это выполняется прямой остановкой в стиле FACT; разделение по переменным предиктора продолжается до тех пор, пока все конечные узлы в дереве классификации не станут «чистыми».
Нажимаем “OK”, по окончании расчета в окне результатов открываем “Структуру дерева”:
В полученной таблице нас будут интересовать переменные Split constant и Node mean. Первая переменная является разделителем на типовые участки (т.к. классификация это частный случай регрессии), вторая – средним значением на каждом участке (“классе”).
Упорядочим данные по возрастанию (для маркировки оси Ox) и построим ступенчатый график:
Полностью кейс разбирается на курсах StatSoft.
Вопросы по построению предиктивных моделей с помощью нейронных сетей и технологий машинного обучения можно задавать письменно по адресу vladimir@statsoft.ru или по телефонам StatSoft +7 (495) 787-77-33, +7 (906) 734-40-57.
Список литературы:
1. Боровиков В.П. Нейронные сети Statistica, SNN, Москва, горячая линия телеком, 2008
2. Боровиков В.П. Популярное введение в современный анализ данных и машинное обучение на Statistica, Москва, горячая линия телеком, 2019
Узнайте больше на курсах Академии Анализа Данных StatSoft
Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
|
© StatSoft Russia |
StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран. |