Подготовка исходных данных для решения задач на ЭЦВМ
После того как программа составлена и отлажена, важным этапом является подготовка исходных данных для решения задач на электронных цифровых вычислительных машинах. Этот этап весьма ответствен - ошибки и недочеты, вкравшиеся при формировании входной информации, могут совершенно исказить получаемый результат.
Обработке подлежат, как правило, разного рода массивы - числовые (количественные), логические (качественные), текстовые и др. Главную роль при решении геолого-геофизических задач в настоящее время играют числовые массивы.
При подготовке исходных данных необходимо тщательно проверить, какие массивы и отдельные числа образуют входную информацию. Для того чтобы это можно было сделать, составляются формы специальных таблиц. Проверка сводится к анализу того, соответствует ли входная информация как по форме, так и по содержанию составленным для данной, задачи таблицам. Естественно, и выходная информация ("ответ") также должна находиться в соответствии с таблицами, определяющими ее структуру.
В качестве примера рассмотрим структуру входной и выходной информации при решении задачи определения типа объекта с помощью ЭЦВМ.
Пусть дана совокупность характеристик объекта x1, х2, х3, ..., хn. Для определенности будем считать, что это - показания геофизических исследований против некоторого пласта. Определить тип пласта - это значит указать его литологию (песчаник, известняк, аргиллит и др.) или же выяснить, является ли этот пласт коллектором, продуктивным (газоносным, нефтеносным) и пр.
Ограничимся вначале случаем, когда n = 2.
При интерпретации геофизических данных нередко используют следующий прием: на графике, по осям которого отложены показания x1 и x2 на основании анализа фактического материала выделяются области, соответствующие пластам различных типов. После того как такие области выделены, определение типа пласта по заданной его характеристике (по значениям x1 и x2) технически весьма просто: на графике строится точка с координатами x1 и x2 и в зависимости то того, в какую область графика попадает эта точка, определяется тип исследуемого пласта. Так, на рис. 5 пласт с характеристикой x1, x2 принимается нефтеносным, а с характеристикой x1, x2 - водоносным.
Рис. 5. Определение типа объекта по выделенным областям пространства признаков характеристик
Следует заметить, что эффективность определения типа пласта зависит от правильности проведения границ областей, а также от того, не налегают ли эти области друг на друга. Если области частично пересекаются, то возможно получение ответов неопределенного, если зоны налегания (пересечения) областей выделяются в особую зону "неоднозначного ответа", или ошибочного, если эта зона присоединяется к областям однозначного ответа (к одной из них или, частями, к обеим).
Нередко случается, что при определении типа пласта по двум характеристикам имеется значительная область неоднозначного ответа, при использовании же трех характеристик эта область существенно сокращается или же пропадает совсем. Разумеется, если мы используем три характеристики, то различным типам пластов и неопределенному ответу будут соответствовать области в трехмерном пространстве.
Графическое построение областей в случае трехмерного пространства очень сложно, в связи с чем представляет интерес воспользоваться для определения типа пласта ЭЦВМ. Более того, в математике давно пользуются понятиями n-мерного (n может быть и более трех) пространства, уравнения различных объектов которого (например, уравнения поверхностей) являются естественными обобщениями уравнений для случая одного, двух, трех измерений. Это позволяет реализовать на ЭЦВМ выделение областей в n-мерных пространствах, т. е. осуществлять определение типа пласта, когда число характеристик достаточно большое.
Каким образом фиксируются в многомерных пространствах области, соответствующие различным типам объектов, мы здесь не можем рассматривать, методов построения областей предложено очень много.
Допустим, что области, соответствующие пластам различных типов, фиксированы и задача сводится к определению типа пластов по заданным характеристикам. В этом случае входная информация представляет массив последовательностей характеристик. Так, при диагностике продуктивности пластов по промыслово-геофизическим данным входная информация может содержать следующие характеристики:
мощность пласта (h);
кажущееся сопротивление, полученное градиент-зондом длиною 0,35 м (ρ0,85k);
то же, градиент-зондом 0,85 м (ρ2,25k);
" " " 2,25 м (ρ4,25k);
" " " 4,25 м (ρ4,25k);
" " " 8,5 м (ρ8,5k);
" потенциал-зондом 0,5 м (ρ0,5k);
приведенная амплитуда отклонения кривой ПС (E0);
показания гамма-каротажа (Iγ);
показания нейтронного гамма-каротажа (Inγ);
отношение показаний потенциал- и градиент-микрозондов (ρkПМЗ/ρkГМЗ).
Пример массива входной информации при машинном определении продуктивности пласта приведен в табл. 2 (за исключением последнего столбца, где указаны результаты диагностики). Данные материалы были предоставлены автору М. Г. Латышевой.
Таблица 2
Таблицы входной информации должны удовлетворять следующему требованию (помимо соответствия определенной форме): в показаниях не должно быть пропусков (по отдельным скважинам или интервалам могут отсутствовать диаграммы некоторых видов исследований, например, микрокаротажа, и в соответствующих местах таблицы при ее составлении оказываются прочерки). Характеристики пластов, против которых проведен не весь предусмотренный комплекс исследований, должны быть исключены из таблиц входной информации.
Если ставится задача определения областей n-мерного пространства, соответствующих продуктивным и непродуктивным пластам ("обучения"), то входная информация должна включать два эталонных массива, один из которых содержит характеристики заведомо продуктивных, а другой - заведомо водоносных пластов. Необходимо, чтобы форма таблиц этих массивов соответствовала рассмотренной выше. Длина эталонных массивов для эффективного обучения должна быть достаточно большей (несколько десятков пластов).
Если же программа рассчитана на выполнение обоих этапов обучения и диагностики, готовятся три массива: два эталонных и один массив характеристик подлежащих определению пластов. На длину последнего массива, естественно, не накладывается никаких ограничений.
Эффективность машинной диагностики для опробованных в настоящее время пластов (если оценивать эти результаты объективно), как правило, ниже, чем в тех случаях, когда определения произведены квалифицированным специалистом (хотя в ряде случаев и не намного). Это естественно, поскольку, с одной стороны, при машинном распознавании в настоящее время используется только часть информации, которой располагает специалист1, и, с другой стороны, эффективность распознавания человеком, вследствие совершенства его органов весьма велика (если объекты представлены в наглядной форме, а это практически можно сделать всегда). Преимущество машинной диагностики в том, что она объективна и, будучи проведенной формально, позволяет анализировать причины неудач и намечать пути совершенствования методики определения типа пластов.
1 (В дальнейшем при создании сложных программ, учитывающих всю информацию и все возможные приемы, которые фактически используют промысловые геологи и геофизики, этот недостаток, нужно надеяться, будет устранен.)
В качестве примера использования программ машинной диагностики для анализа методики диагноза в табл. 3 приведены результаты определения эффективности программ для различных комплексов измерений (данные сообщены автору М. Г. Латышевой и Е. А. Нейманом).
Диагностическая программа была составлена на основе алгоритма Григорьяна (Изв. АН СССР, сер. техническая кибернетика, № 2, 1964 г.). Эффективность определяется процентами правильных ответов. Следует заметить, что использовать в качестве критерия эффективности среднее число правильных ответов необходимо с крайней осторожностью, поскольку ошибки разного рода в общем случае неравноценны: приняв водоносный пласт за продуктивный, мы проведем лишнее опробование, что часто сопряжено с существенно меньшим ущербом, чем когда мы нефтеносный пласт определяем как водоносный и таким образом можем потерять его. Так что в ряде случаев предпочтение следует отдавать методам определения, имеющим более низкий средний процент правильных ответов, но при которых возможность пропуска продуктивных пластов сведена к минимуму. Именно эта особенность явилась источником приувеличенной оценки эффективности машинных методов диагностики продуктивных пластов. В табл. 3 использование в качестве критерия среднего процента правильных ответов допустимо, поскольку соотношение ошибок первого и второго рода во всех рассматриваемых случаях оставалось практически одинаковым.
Таблица 3
Из табл. 3 следует на первый взгляд парадоксальный факт: сокращая комплекс измерений, мы получаем повышение эффективности. Объясняется это следующим образом. Большое число характеристик требует для диагностики выделения областей в пространстве большого числа измерений. Чем больше измерений пространства, тем больше параметров (коэффициентов) необходимо вычислить для определения границы области. Таким образом, с ростом числа характеристик возрастают требования к объему эталонной информации. Последний же всегда ограничен в силу того, что число скважин, пробуренных на разведочных площадях, как правило, сравнительно невелико. Все это приводит к тому, что эталонная информация оказывается не достаточно представительной, на положение найденных областей в большей мере оказывают влияние случайные факторы и в конечном счете число ошибок возрастает. Эти трудности носят объективный характер и присущи как машинной, так и обычной визуальной диагностике.
Таким образом, на основе использования ЭЦВМ удается выбрать оптимальную структуру характеристик, представляемых для диагноза, в частности, сократить часть характеристик, учет которых не улучшает качество диагноза.
Несколько более сложным по своей структуре является подготовка массивов качественных характеристик, так называемых характеристических чисел, или комплексных кодов [35]. Она сводится к тому, что вместо количественной характеристики дается качественная. Например, вместо того, чтобы указать, что удельное сопротивление составляет определенную величину (2, 28, 12 ом*м), отмечают, что пласт имеет низкое, высокое, среднее сопротивление. Фактически это означает, что диапазон изменения величины разбивается на несколько интервалов - два, три, иногда и больше. Каждому интервалу ставится в соответствие некоторое число. Это число записывается обычно двоичными цифрами (0,1), в силу чего называется двоичным кодом или просто кодом.
Например, определим качественные характеристики показаний каротажа следующим образом. Значение кажущегося удельного сопротивления (ρк) будем считать высоким, если оно выше 50 ом*м, в противном случае - низким. Показания (UПС) каротажа самопроизвольной поляризации - высокими, если
где UmaxПС и UminПС - максимальная и минимальная величины потенциалов на кривой ПС.
Фактический диаметр скважины dφ будем считать увеличенным, если ой более номинального dH, наконец, приращение А на кривых микрокаротажа (разность между показаниями потенциал- и градиент-микрозондов) условимся считать большим, если оно не менее 3 ом*м. Высоким значениям будем ставить соответственно код 1, низким - 0. Записанные рядом коды, соответствующие различным характеристикам, образуют комплексный код, или характеристическое число.
Итак, характеристическое число для рассмотренных величин имеет следующую структуру:
Так, пласт, характеризующийся низкими показаниями КС и ПС, суженным диаметром и высоким приращением на кривых микрокаротажа, будет иметь характеристическое число 0001; пласту с высокими значениями КС и ПС, сокращенным или же близким к номинальному фактическим диаметром и малым приращением по данным микрокаротажа, должно соответствовать характеристическое число 1100.
Мы рассмотрели случай, когда диапазон изменения количественной характеристики делится на два интервала. В более сложных случаях число интервалов может быть три, четыре и более. Тогда код, соответствующий признаку, будет состоять не из одной двоичной цифры, а из нескольких. Кодировка в этом случае может быть произвольной (например, 00 - суженный диаметр, 10 - диаметр, практически равный номинальному, 11 - увеличенный). В ряде случаев удобно предложенное III. А. Губерманом кодирование лесенкой. При этом способе число двоичных цифр в коде принимается равным числу интервалов. И если величина численной характеристики больше нижней границы интервала, то соответствующей данному интервалу цифрой является 1, в противном случае - 0. Так, если в качестве интервалов КС взяты следующие:
0 ≤ρk< 5;
5 ≤ρk< 10;
10 ≤ρk< 20;
ρk≥20 ом*м,
то значению ρk = 17,5 ом*м соответствует код 1110, значению ρk = 6 ом*м - код 1100 и т. д.
В более простых случаях, когда число цифр в комплексном коде невелико, нетрудно установить соответствие между характеристическими числами и типом пласта (его литологией и т. п.). Например, в ряде районов имеет место соответствие, приведенное в табл. 4, где комплексные коды построены в соответствии с формой (4).
Таблица 4
Определение типа пласта в этом случае осуществляется на основе легко реализуемого на ЭЦВМ табличного поиска [36]. Если характеристические числа имеют большую длину, то соответствующие таблицы оказываются слишком большими. В этом случае используют специальные программы, например, разработанную под руководством М. М. Бонгарда программу "Кора-3".
Говоря о кодировке качественных признаков, необходимо подчеркнуть одно обстоятельство, которое часто вызывает недоумение у геологов. Дело в том, что среди лиц, мало знакомых с информационно-вычислительной техникой, распространено мнение, что ЭЦВМ можно эффективно использовать для задач с громоздкими вычислениями, например, с численным интегрированием, решением уравнений и т. п. Что же касается задач, связанных с качественными характеристиками, то будто бы к ним вычислительные машины не имеют никакого отношения. Этот взгляд совершенно неверен. Качественная информация с не меньшим успехом может обрабатываться на ЭЦВМ. Необходимо только разработать кодировку качественных признаков и алгоритмы их обработки.
Говоря о диагностических программах, мы касались определения тина пласта по промыслово-геофизическим данным. Следует заметить, что в настоящее время ведутся работы по применению машинной диагностики при решении самых разнообразных геолого-геофизических задач (определение петро-химических типов пород, палеонтологических видов, возраста отложений, перспективных с точки*зрения поисков месторождений участков и т. п.).