деления групп наиболее приспособленных последовательностей необхо
димо быстро определять расстояния между эволюционирующими после
довательностями. Для этого можно использовать либо степень гомологии,
либо величину взаимной информации (MJ), рассчитываемые для сравни
ваемых символьных последовательностей. Частным случаем таких сим
вольных последовательностей являются нуклеотидные. Они записаны в 4-
х буквенном алфавите - A,T(U),C,G (аденин, тимин (урацил), цитозин,
гуанин), который соответствует четырем типам нуклеотидов. При этом
степень подобия двух символьных последовательностей определяется по
значению взаимной информации (MJ), рассчитанной по Кульбаку [4].
При определении величины взаимной информации MJ для двух сим
вольных последовательностей Li и L 2 заполняется матрица М, размером
4x4 (в случае нуклеотидных последовательностей), элементы которой m ,j
содержат число совпадений символов типа i в последовательности Li с
символами типа j в последовательности L 2. Послечегоподсчитывается
искомое значение по формуле (I) [17]:
MJ =
- Z Xj ln(Xi ) - £ yj (yj ) - Lln(L) (1)
i j
i
j
где x
j-число символов
i-того
типа в
L i
у
j-число символов
j -того
типа в
L 2
L - длина сравниваемых последовательностей. Как видно на ри
сунке 4,
шкала
значений MJ имеет больший диапазон (от 0 до 210 при L
= 150), чем шкала уровня гомологии (от 0 до 100), что позволяет прово
дить более дифференцированное сравнение последовательностей с учетом
не только количества совпадений символов, но и типа совпадений. Так, с
помощью данного метода, например, можно оценить уровень подобия
между комплиментарными последовательностями.
О
20
40
60
80
100
уровень гомологии %
Рис. 4.
Сравнение величины уровня гомологии и величины взаимной
информации MJ для сравниваемых последовательностей длиной 150 нук
леотидов.
155