Кратко задачу автоматического кариотипирования можно сформулировать так: необходимо хромосомы метафазной пластинки (рис. 3, а) - распределить на группы (рис. 3, б) и выяснить, чем полученная систематизированная таблица отличается от нормальной.
Мы предполагаем, что асе необходимые вычислительные и логические операции будут выполняться на достаточно мощной (с большой оперативной памятью и высоким быстродействием) универсальной вычислительной машине, оснащенной необходимыми устройствами ввода - вывода информации. В соответствии с такой постановкой задачи процесс машинного анализа хромосом можно разделить на следующие этапы:
Ввод изображения метафазной пластинки (хромосом) в запоминающее устройство вычислительной машины.
Выделение (индивидуализация) отдельных объектов метафазной пластинки.
Анализ и измерение хромосом.
Классификация хромовом и построение кариотипа (сравнение, его с эталоном).
Все операции, -начиная со второй, выполняются в УЦВМ путем программной реализации соответствующих алгоритмов. Остановимся подробнее на отдельных этапах машинного анализа хромосом.
Ввод изображения в УЦВМ. Для ввода информации о хромосомах в вычислительную машину необходимо преобразовать оптическое изображение в совокупность электрических сигналов. Обычно это осуществляется с помощью того или иного типа -сканирующих устройств. Операция сканирования представляет собой последовательное определение интенсивности отраженного или проходящего светового потока в каждой точке исследуемого изображения. Сканирование напоминает процесс чтения: последовательно считывая одну букву за другой, вы прочитываете всю строку, затем переходите к следующей и т. д. до конца страницы. При сканировании все изображение представляется в виде набора строк. Последовательно вдоль каждой строки устройство определяет интенсивность светового потока в каждой ее точке. Описанный здесь процесс сканирования называется линейной разверткой (развертка изображения вдоль линии). Подобная система развертки находит широкое применение в обычных телевизионных системах.
В результате сканирования изменение интенсивности светового потока преобразуется, например, с помощью фотоэлемента (фотоумножителя) в электрический сигнал U(t), являющийся функцией одной переменной - времени. Таким образом, точно зная расположение линий сканирования и скорость сканирования, можно каждой точке изображения поставить в соответствие некоторый момент времени и по функции U (t) найти соответствующую ей интенсивность светового потока.
При вводе информации о хромосомах в УЦВМ обычно используют сканирующий элемент в форме круга. Его диаметр стремятся уменьшить, ограничивающим фактором при этом является допустимый уровень шумов на выходе фотоумножителя (чем меньше площадь элемента, тем больше шумы). С другой стороны, конечные размеры сканирующего элемента (зонда) ограничивают разрешение устройства ввода, так как зонд осуществляет съем информации не в одной точке строки, а в пределах некоторой области.
Очевидно, имеет смысл определять функцию U (t) в моменты времени. отстоящие друг от друга на Δt:
(1)
где t0 - разрешение сканирующего устройства (минимальное расстояний между двумя, точками, при котором устройство еще может воспринимать сигналы от них раздельно);
Из этих, же соображений следует, что расстояние менаду линиями сканирования должно быть равно ΔtV, где V - скорость развертки.
Таким образом, можно осуществить "квантование (дискретизацию) функции U(t) по времени.
Значение функции U (t) в точках отсчета можно определить с точностью, которую допускает соотношение сигнал/шум. Как следует из теории информации, при равновероятностном появлений любой амплитуды сигнала весь диапазон можно разбить на m градаций:
(2)
где Рс - мощность сигнала, Рш - мощность шума. Наличие в подкоренном выражении единицы определяется существованием некоторого уровня выходного сигнала при нулевой энергий входного сигнала (например, темновой ток фотоумножителя); К - коэффициент запаса, зависящий от статистических свойств сигнала и шума.
В результате разбиения амплитуды функции U(t) на m традиций осуществляется операция, называемая квантованием по амплитуде. При этом непрерывное световое изображение вводится к совокупности значений яркости в дискретных точках 'Изображения. Квантованные значения яркости можно закодировать, например, по системе двоичного кода и в такой форме ввести в вычислительную машину.
Если квантование электрического сигнала во времени и по амплитуде будет выполняться в соответствии с соотношениями (1) и (2) и оптимальным образом будет выбран диаметр зонда, то сканирующее устройство будет обеспечивать минимальную потерю оптической информации.
Попробуем подсчитать, какой объем информации можно снять с одной метафазной пластинки. Предположим, что электрический -сигнал квантуется в каждой точке изображения на 64 градации. Будем считать, что микроскоп может разрешить две точки, отстоящие друг от друга на расстоянии, большем 0,2 мк. Одна метафазная пластинка занимает на препарате квадрат со сторонами, равными 100 мк.
Разрешение сканирующего устройства, во всяком случае, не может быть больше разрешения микроскопа, поэтому примем его равным l0 = 0,2 мк. Тогда все изображение метафазной пластинки может быть разбито на 500 строк, а в каждой строке можно провести отсчет в 500 точках, т. е. получается прямоугольная квадратная решетка с шагом, равным 0,2 мк. Такая решетка называется растром и каждое пересечение линий является точкой отсчета. Очевидно, что всего таких точек будет: 500*500 = 25*104.
Для представления 64 градаций яркости в двоичной форме необходимо 6 разрядов (бит). Поскольку заранее не известно, какая будет яркость в той или иной точке изображения, необходимо на каждую точку отвести по 6 бит памяти вычислительной машины (из условии максимально возможной яркости). Таким образом, для представления всей метафазной пластинки потребуется 6*25*104 = 1,5*106 бит памяти УЦБМ.
Если учесть, что запись программы также занимает некоторый объем, то даже при использовании крупных машин часто ощущается дефицит памяти. Попытки анализировать растр по частям хотя и дают экономию объема памяти, но приводят к значительным программным и техническим трудностям.
Большой объем необходимой оперативной памяти связан С тем, что при простом построчном сканировании наряду с хромосомами осуществляется ввод "пустых" участков, не содержащих никакой оптической информации. Хромосомы на метафазной пластинке при достаточно хорошем разбросе занимают только 20-25% общей площади. Поэтому для записи информации только о хромосомах необходимо (3,7÷3)*105 бит. Хотя на последующих этапах обработки можно избавиться от информации о "пустых" участках программным путем, целесообразно выполнять эту операцию до ввода информации в УЦВМ. Тем самым будут сэкономлены как оперативная память, так машинное время.
Таким образом, наряду с поставленными ранее условиями по точности квантования, устройство для ввода хромосом должно удовлетворять еще одному требованию - оно должно осуществлять ввод только хромосом (без "пустых" участков). Как это можно осуществить, мы рассмотрим на примере двух конкретных устройств ввода.
Первое - устройство вода с механическим сканированием, которое предназначено для ввода изображения хромосом в УЦВМ непосредственно с препаратов, разработано в Институте биологической физики АН СССР. Оно представляет собой соединение обычного светового микроскопа с соответствующими системами механических разверток. На выходе микроскопа стадии фотоумножитель, преобразующий оптическую информацию в электрические сигналы.
Описываемое устройство может искать объект на поверхности препарата, обходить его по контуру, а также проводить строчное сканирован те внутри контура объектах Оно обеспечивает последовательный ввод в память машины информации о каждом анализируемом микрообъекте. УЦВМ. может осуществлять анализ микрообъектоз одновременно с вводом; за время поиска следующего объекта УЦВМ успевает закончить анализ Предыдущего и очистить свою оперативную память от информации об этом объекте. Такой последовательный анализ позволяет дополнительно уменьшить требуемый объем памяти при построении кариотипа примерно а 46 раз.
Сканирование позволяет получить информацию о характере объект внутри контура - о наличии отверстий, оптически более плотных включений. Пустые промежутки между объектами в память машины не вводятся.
Рассмотрим, как работает такое устройство. В начале осуществляется процесс обычного построчного сканирования. После встречи зонда с первым объектом производится обход его по контуру, где под контуром понимается линия определенной изоплотности объекта. В результате обход измеряются координаты вершин описанного прямоугольника и после во вращения в начальную точку обхода выполняется построчное сканирование внутри найденного прямоугольника. По окончании сканирование устройство переходит к поиску следующего объекта. Поиск объектов происходит в пределах квадрата, занимаемого одной метафазной пластинкой. В вычислительную машину вводятся только результаты сканирования в ну три прямоугольников.
Теперь рассмотрим еще одно устройство, предназначенное для ввода изображения хромосом с фотопленки. Оно установлено в Ново-английской больнице (Бостон, США). Устройство осуществляет поэлементно-строчную развертку одного кадра 36-миллиметровой пленки. Растр при сканировании с максимальным разрешением состоит из 640*960 точек. Развертка осуществляется с помощью электронно-лучевой трубки, поэтому устройств имеет высокое быстродействие и непосредственно соединяется с вычислительной машиной IBM 360/30, которая контролирует всю его работу.
Для экономии памяти ввод изображения происходит в два этапа. Вначале, по команде из машины, устройство ввода осуществляет грубое сканирование кадра. При этом в оперативную память машины вводится, каждая 16-я точка полного растра (каждая 4-я точка на каждой 4-я строке). По этому сокращенному растру УЦВМ в соответствии с программой определяет и запоминает координаты вершин прямоугольников, описывающих хромосомы. Затем устройство ввода осуществляет сканирование каждого прямоугольника с максимальным разрешением и последовательный ввод информации в оперативную память машины. Проанализировав "содержимое" одного прямоугольника, УЦВМ дает разрешение на ввод следующего, и так пока не будут исследованы все объекты данного кадра пленки. Затем пленка продвигается и начинается ввод следующего кадра.
Эти два примера иллюстрируют, как можно организовать ввод изображения хромосом метафазной пластинки с максимальной экономией оперативной памяти. Ввод должен происходить в два этапа: на первом этапе, определяются области расположения объектов, а на втором осуществляется непосредственно ввод информации о самих объектах
Выделение отдельных объектов метафазной пластинки. После ввода информации в оперативную память вычислительной машины производится преобразование изображения в бинарную форму. Под бинарным понимается такой вид изображения, у которого все точки, принадлежащие объектам, имеют код, равный 1, а все остальные точки фона имеют код, равный 0. Для бинарного преобразования необходимо определить все точки растра, относящиеся к объекту.
Проще всего было бы выбрать некоторый уровень плотности (пороговое значение) и всем точкам, имеющим плотность выше этого уровня, присвоить код 1, а остальным - код 0. Таким образом, границей объекта считалась бы линия изоплотности, соответствующая пороговому уровню. Если бы оптическая плотность при продвижении с периферии во внутренние области объекта нарастала резко (скачком), то изменение порога не вызывало бы перемещений линии изоплотности по объекту.
Однако как процесс получения изображения в микроскопе, так и процесс сканирования приводят к "размыванию" границ объекта. Таким образом, фронт нарастания оптической плотности на границах объекта является пологим и выбор уровня порога сильно зависит от формы объекта.
Каждое оптическое устройство, преобразующее изображение, полностью характеризуется своей точечной функцией распределения, передаточной функцией, которая показывает распределение интенсивности света в плоскости изображения при условии, что источник света является действительно точечным (дельта-функцией). Идеальное оптическое устройство воспроизводило бы точечный источник света действительно в виде точки. Однако в реальных устройствах точечному источнику света соответствует дифракционная картина (точка "размазывается", вокруг нее появляется система концентрических колец).
Распределение интенсивности изображения l (x, y), воспроизводимого устройством с передаточной функцией f (β, η), математически может быть выражено через истинное распределение интенсивности S (x, y) как интеграл свертка:
(3)
При представлении изображения на растре, состоящем из конечного числа точек, приведенная выше формула может быть преобразована к виду:
(4)
Эта формула показывает, что интенсивность света в некотором элементе изображения Ii, k с координатами i, k представляет собой точечную функцию распределения и зависит от всех окружающих элементов в пределах прямоугольника со сторонами l и m.
Принципиально формулы (3) и (4) могут быть решены относительно S (x, y), и получается выражение для восстановления изображения в следующем виде:
(5)
где g(u, v) - "компенсирующая" точечная функция распределения, которая может быть определена через f (β, η).
Чаще всего процесс получения изображения рассматривают в частотной области. Благодаря преобразованию Фурье распределение интенсивности света на изображении можно представить как результат наложения пространственных синусоидальных составляющих. В таком случае устройство ввода можно рассматривать как фильтр низких частот, который хорошо пропускает низкие пространственные частоты (т. е. крупные детали изображения) и ослабляет высокие частоты (т. е. мелкие детали и резкие изменения интенсивности).
Математически частотная характеристика изображения выражается:
(6)
Восстановление изображения в частотной области может быть осуществлено следующим образом:
(7)
где F'(ωx, ωy) - частотная характеристика восстановленного изображения; G (ωx, ωy) - преобразование Фурье от "компенсирующей" функции. Практически это означает, что для восстановления: частотной характеристики изображения необходимо соответствующим образом изменить амплитуды его частотных составляющих.
После корректирования частотной характеристики изображения необходимо сделать переход в действительную область и определить истинное распределение интенсивностей света на изображении:
(8)
Конечно, подобный способ восстановления всего изображения является, наиболее радикальным методом исключения всех искажений вызванных процессом ввода. Однако он связан с большим количеством вычислений и, следовательно, требует много машинного времени. Поэтому многие исследователи предпочитают, использовать различные методы, частичной коррекции, обеспечивающиe по крайней мере восстановление границ объектов (делающие фронт нарастания оптической плотности более крутым). Для примера мы рассмотрим один из многих подобных методов, успешно применяемый при машинном анализе хромосом.
Было доказано, что при некоторых условиях зависимость между истинным изображением S (x, y) и изображением, формируемым устройством ввода I (x, y), может быть выражена через уравнение диффузии:
(9)
где оператор Лапласа; у- некоторая положительная константа.
Корректирование изображения состоит в пересчете оптической плотности в каждой точке изображения в соответствии с формулой (9). В цифровой форме это выражается в виде суммирования с некоторыми весами оптических плотностей в данной и соседних точках (рис. 6,а). Такое преобразование, понижает до нуля уровень плотности в районе, где он был примерно постоянным.
Практически распределение весов выбирается исходя из визуального исследования результатов преобразования. Для каждого устройства ввода необходимо свое распределение весов.
Рис. 6. Коррекция изображения хромосом: а - матрица весов; б, в - некорректированное изображение хромосомы при двух разных уровнях ограничения; г, д - та же хромосома после коррекции при тех же уровнях ограничения
На рис. 6,г и д приведены результаты обработки изображения одной хромосомы. Видно, что благодаря коррекции бинарное изображение объекта становится значительно менее критичным к выбору порога. Вместе с тем преобразование с помощью весовой матрицы требует значительно меньшего количества вычислений (только 12 суммирований на каждую точку растра) по сравнению с восстановлением всего изображения по формулам (5), (7) и (8).
После коррекции изображение и преобразования его в бинарную форму приступают к выделению контуров объектов, находящихся на данном участке изображения. Это осуществляется по специальному алгоритму, называемому "клопом". Такое экзотическое "название связано с тем, что при обходе контура,в соответствии с этим алгоритмом все шаги осуществляются по "темным" точкам, принадлежащем границе объекта, и только пробные шаги направлены в "светлую" область фона. Аналогично,движется клоп, убегающий в тень.
Рис. 7. Матрица алгоритма 'клоп'
Вначале на растре находят первую точку принадлежащую границе объекта. Граничными считаются такие точки объекта, у которых имеется хотя бы по одной соседней точке, принадлежащей фону. При прямоугольном растре каждая точка имеет восемь соседних (рис. 7), расположенных на самом близком от нее расстоянии. Для того чтобы найти вторую точку, лежащую на,границе, последовательно проверяют принадлежность объекту соседних точек (с первой по шестую при обходе контура, например, по часовой стрелке). Первая из этих соседних точек, принадлежащая объекту (уровень оптической плотности выше порога), является следующей точкой контура. Далее эта точка принимается за текущую и осуществляется анализ соседних по отношению к ней точек с тем, чтобы аналогичным образом найти следующую точку границы объекта. Весь процесс продолжается до возвращения в начальную точку контура. Данный способ выделения контура является частным случаем метода следящей развертки. При реализации алгоритма "клоп" на УЦВМ порог на скорректированном изображении выбирается обычно на уровне 0,5÷0,7 от максимального значения оптической плотности данного объекта.
После определения координат всех точек контура приступают к его анализу. Если на данном участке изображения обнаружено несколько объектов (замкнутых контуров), то их анализируют последовательно один за другим.
Анализ и измерение хромосом. Целью анализа является нахождение характерных точек контура хромосомы: концов (вершин) плечей и центромеры. По этим точкам в дальнейшем осуществляется определение геометрических параметров хромосом.
Как видно из рис. 5, кривая, описывающая границу хромосомы, в области плечей является выпуклой, а в центромерном районе имеются характерные вогнутости (центромерные вогнутости). Именно на этих особенностях контура хромосомы и основан дальнейший анализ.
Если найти кривизну в каждой точке контура, то можно выделить плечи и центромерные вогнутости по значению кривизны: в районе плечей сна должна иметь достаточно большие положительное значение, а в районе центромерных вогнутостей - отрицательное значение. Вершину плеча можно определить или как середину плечевого сегмента, или как точку на плечевом сегменте, имеющую максимальную кривизну. За центромеру можно принять точку, лежащую посередине между центромерными вогнутостями.
Таким образом, описание контура хромосомы кривизной является достаточно эффективным для обнаружения всех ее характерных точек. Это описание имеет еще одно очень важное свойство - оно инвариантно (независимо) относительно поворотов фигуры. Действительно, достаточно взглянуть на метафазную пластинку (рис. 3, а), чтобы понять, насколько важно иметь описание хромосомы, не зависящее от ее ориентации. Именно благодаря свойству инвариантности кривизна как способ описания контура хромосомы нашла широкое применение при машинном анализе. Однако использовать общепринятое определение кривизны для описания дискретно-)) контура неудобно. Кроме того, на определяемую таким объемом кривизну сильно влияют ошибки, возникшие на предыдущих стадиях обработки (при вводе, выборе уровня ограничения, обходе контура).
Способ автоматического описания контура хромосомы выбирают исходя из трех основных условий: во-первых, описание должно быть инвариантным относительно поворотов объекта и обеспечивать выделение характерных участков хромосомы; во-вторых, должно быть защищено от помех и, в-третьих,- должно быть легко реализуемо на цифровой вычислительной машине. Первое условие требует, чтобы описание было близким к описанию кривизны контура.. Второе условие может быть выполнено, если описание в каждой точке будет зависеть не только от положения самой точки контура, но и прилегающих областей, благодаря этому будет, осуществляться некоторое усредненное описание. Последнее условие требует, чтобы все операции описания выполнялись только с помощью как можно меньшего количества арифметических и логических действий.
Обычно анализ контура состоит из нескольких этапов. Вначале составляется довольно подробное описание, которое в общем случае может не обладать достаточной помехозащищенностью. Затем на основе этого описания составляется вторичное описание, где каждый элемент соответствует уже не отдельным точкам контура, а целым сегментам. После этого определяются сегменты, соответствующие плечам хромосомы и центромерным вогнутостям.
Для примера мы приведем два метода анализа контура хромосомы, удовлетворяющие всем поставленным ранее условиям. Оба метода реализованы в виде комплекса программ для УЦВМ.
Рис. 8. Кодирование контура хромосомы
Первый метод, предложенный итальянским ученым Джузеппе Галлусом, основан на кодировании контура хромосомы. Как уже отмечалось, каждая точка контура может занимать по отношению к предыдущей одно из восьми положений. В соответствии с этим каждой точке присуждается один из восьми возможных кодов (рис. 8). В результата последовательного кодирования точек контура формируется кодовая или первичная цепь. Первичная цепь содержит всю информацию о контуре, и по ней, зная координаты точки, принятой за начальную, можно восстановить весь контур. Первичная цепь является очень подробным описанием и слабо защищена от помех (рис. 9, а и б). Поэтому ее преобразуют в соответствии с выражением:
(10)
где PNi - элемент новой цепи, соответствующий i-точке контура; Рi - элемент первичной цепи, соответствующий той же точке; Pi-k и Pi+k - элементы первичной цепи? соответствующее предыдущим и последующим точкам; N является параметром преобразования и выбирается в зависимости от количества точек контура. Эта новая цепь (N-цепь) обеспечивает, сглаживание шумовой составляющей контура (рис. 9, в).
Рис. 9. Прямоугольник с помехами (а), первичная (б) и N-цепь (в) при N = 2
Теперь на основе N-цепи составляется описание контура хромосомы. Описанием является кольцо элементов, где каждый элемент определяется как сумма последовательно расположенных элементов N-цепи, имеющих одинаковый знак; сумме присваивается знак элементов N-цепи; Вторичная цепь, которая образуется при этом, содержит столько элементов, сколько раз N-цепь меняла свой знак; она характеризует целые участки контура хромосомы и содержит наиболее важную информацию о них. Структурный анализ вторичной цепи позволяет определить расположение всех характерных участков хромосомы. Из рис. 10 видно, что все выпуклые участки хромосомы, а ими как раз являются плечи, соответствуют положительному значению вторичной цепи. При значение положительного элемента вторичной цепи превосходит величину порога, то участок, соответствующий этому элементу, является плечом хромосомы; Значение порога подбирается эмпирически и зависит от порядка М-цепи, по которой была построена вторичная цепь.
Рис. 10. Описание контура хромосомы: а - контур хромосомы (числа указывают номера точек по направлению обхода); б - первичная цепь; в - N-цепь при N = 2; г - N=епь при N = 3
Объекты, которые имеют меньше двух или больше четырех плечей, считаются нехромосомами и из дальнейшей обработки исключаются.
На каждом плече определяют вершину как точку контура, соответствующую центру масс N-цепи на участке данного плеча. После нахождения всех плеч хромосомы приступают к нахождению центромерного участка, Прежде всего определяют плечи, расположенные по разным сторонам от центромеры. Это осуществляется путем проверки расстояний последовательно между всеми вершинами попарно - близко-лежащие вершины расположены по одну сторону центромеры.
Центромерный участок характеризуется вогнутостью контура хромосомы, что соответствует отрицательным значениям вторичной цепи. Поскольку уже найдены вершины хромосомы, лежащие по разные стороны центромеры, то тем самым определены два сегмента контура (по одному на каждую пару вершин). В пределах этих сегментов должны находиться центромерные вогнутости. В дальнейшем на каждом заданном интервале находят наибольшее по модулю отрицательное значение N-цепи. Эти значения будут соответствовать двум противоположным точкам центромерных вогнутостей центромера определяется как середина отрезка, соединяющего эти две точки. Таким образом будут определены все характерные точки хромосомы.
Второй метод, разработанный в Институте биологической физики АН СССР, отличается от предыдущего первичным описанием контура хромосомы. Такое описание сразу обеспечивает усреднение в пределах заданного участка контура и поэтому отпадает необходимость в составлении N-цепей.
Величина, которую ставят в соответствие каждой точке контура, называется псевдокривизной. Она весьма близка к кривизне, определяемой по обычным формулам, и в пределе равна ей.
Рис. 11. Определение псевдокривизны в точке А: φ - угол между векторами
Для нахождения псевдокривизны в точке А (рис. 11) определяют два вектора ΣAk и ΣA-k, где каждый вектор соответствует сумме векторов, проведенных из точки А в k точек по направлению обхода контура A в k точек против направления обхода:
(11.1)
(11.2)
где A-1, A-2, ..., A-n - векторы, направленные в точки, взятые против направления обхода; A1, A2, ..., An - векторы, направленные в точки, взятые по направлению обхода; k - параметр, который выбирается в зависимости от общего количества точек и характера шумовой составляющей контура.
Псевдокривизна определяется как косинус угла между векторами и по известной формуле аналитической геометрии, которая в векторной форме может быть представлена как:
(12)
где φ - угол между векторами A-k и Ak , x-k, y-k и xk, yk - координаты концов векторов. На рис. 12 приведен контур хромосомы со значениями псевдокривизны в каждой точке. О характере кривизны (выпуклость, вогнутость) судят по знаку синуса:
(14)
Если синус имеет положительное значение, то данная точка принадлежит выпуклости, в противном случае - вогнутости. Таким образом сразу происходит разделение всего контура на выпуклые и вогнутые участки.
Рис. 12. Контур хромосом с проставленными значениями псевдокризизны
Затем точки с близкими значениями псевдокривизны объединяются в дуги, и каждой дуге присваивается символ. Используется алфавит, состоящий из пяти таких символов: М - малая псевдокривизна (прямой участок); С+ - средняя выпуклость; Б+ - большая выпуклость; С- - средняя вогнутость; Б- - большая вогнутость. После присуждения каждому сегменту контура символа получается кольцо (цепь) символов. Логический анализ кольца символов позволяет выделить участки контура, соответствующие плечам хромосомы и центромерным вогнутостям. Все остальные операции для определения вершин плечей и центромеры выполняются так же, как в методе Галлуса.
Описанные методы весьма схожи и примерно равноценны. Преимуществом последнего метода является его относительная независимость от используемого растра, так как псевдокривизна определяется по координатам точек, а не по их взаимному положению.
Кроме того, существуют и другие методы выделения характерных точек хромосомы.
После того как найдены все характерные точки, определяют геометрические параметры хромосомы, необходимые для построения кариотипа. При машинном анализе хромосом можно осуществить ряд измерений, которые выполнить при ручном способе не представляется возможным из-за большой трудоемкости. Например, при ручном способе фактически меряют только линейные размеры хромосомы, в то время как при машинном методе можно дополнительно измерять площадь и массу. Под площадью плеча понимают количество точек растра, принадлежащих данному плечу, а массу плеча можно определить суммированием значений оптической плотности во всех точках данного плеча.
По результатам каждого вида измерений определяются два геометрических параметра: относительный размер хромосомы и центромерный индекс. Таким образом, каждая хромосома характеризуется тремя парами параметров:
(14)
где LK - длина короткого плеча; LД - длина длинного плеча; LΣ - общая длина данного хромосомного набора.
(15)
где SK - площадь короткого плеча; SД - площадь длинного плеча; SΣ - общая площадь всех хромосом данного набора.
(16)
где МК - масса короткого плеча; МД - масса длинного плеча; МΣ - общая масса всех хромосом данного набора.
Чаще площадь и массу хромосом измеряют не в относительных, а в абсолютных единицах, поскольку они не должны сильно зависеть от степени спирализации хромосом (площадь и масса всех хромосом набора - величина примерно постоянная).
В дальнейшем хромосомы классифицируют по этим шести параметрам.
Классификация хромосом. Машинный анализ биологических объектов, в частности хромосом, тесно связан с другой, более общей проблемой кибернетики - опознаванием образов. Для пояснения приведем один наглядный пример.
Так, опознавание зрительных образов человеком основывается на выделении наиболее характерных признаков. Мы с детства наблюдаем предметы под различными ракурсами и выделяем те признаки, которые остаются постоянными и не зависят от условий наблюдения (рис. 13). Из них наше сознание формирует зрительный образ для данного класса предметов. При узнавании мы, по-видимому, сравниваем признаки изображения конкретного предмета с признаками эталонного образа. С этой точки зрения все предыдущие этапы анализа хромосом можно рассматривать как способ формирования признаков.
Рис. 13. Различные варианты изображения: одного и того же объекта (кошки), которые, по-видимому, можно, узнать по совокупности признаков (по ушам, по 'мягким', круглым линиям, по хвосту и т. д.)
В области распознавания образов (классификации) разработано большое количество методов. Здесь мы для полноты описания машинного анализа хромосом приведем один из простейших методов, который имеет в основном только иллюстративное значение.
Как мы уже говорили, каждая хромосома для случая двух измеряемых параметров может быть представлена на плоскости в виде точки, одна координата которой x1, в частности, может соответствовать центромерному индексу, а другая x2 - относительной длине хромосомы, Каждая из индивидуальных групп хромосом занимает один изолированный район, на этой плоскости, и в идеальном случае может быть отделена, от всех остальных хромосом из других групп. При этих идеальных условиях можно провести разделительные линии между каждыми двумя такими районами, отделяющие каждую группу от всех других. Математически это означает, что можно достроить функции в следующем виде:
(17)
Функции Fi показывают принадлежность хромосомы к данной группе, а полный набор функций (по одной на каждую отделяемую группу) определяет весь кариотип. Для выяснения принадлежности хромосомы к какой-либо из групп необходимо подставить, ее координаты во все n уравнений. Если наибольшее значение имеет функция Fi, то хромосома принадлежит к i-группе.
При произвольном числе параметров (k) приведенные выше формулы (17) могут быть преобразованы:
(18)
В этом случае вместо линии, отделяющей две зоны на плоскости, мы имеем (k-1)-мерную поверхность (гиперплоскость), отделяющую две области в k-мерном пространстве. Этот метод классификации образов является простейшим случаем более общего метода детерминированного распознавания с помощью эталонов.
В нашем случае пространство признаков является шестимерным. Функции принадлежности определяются по достаточно большому количеству хромосомных наборов, предварительно разложенных по группам человеком. Полученные таким образом эталоны используются для классификации хромосом в исследуемых наборах. Если в результате классификации в какой-нибудь труппе окажется отличное от нормы число хромосом, то вычислительная машина сообщает исследователю, что в кариотипе имеются нарушения.
Подобный весьма простой способ классификации хромосом, к сожалению, дает большое число сбоев, вызванных тем, что некоторые группы хромосом частично перекрываются и разделить их с помощью гиперплоскости не всегда удается. Кроме того, сказывается ограниченное число параметров, используемых для классификации. Сейчас ведутся работы для получения большего количества информативных параметров хромосомы и испытываются более эффективные методы классификации.