ПОИСК Статьи Чертежи Таблицы Послесловие редактора из "Биометрия " Объем сведений по биометрии, рассматриваемый в данном учебном пособии, касается главным образом классической ситуации, когда анализируют отдельный признак или несколько признаков, каждый из которых рассматривают отдельно от других. Вместе с тем в последних главах, где описаны методы корреляции и регрессии, по сути дела, вскрываются возможности биометрического анализа одновременно двух переменных. Дальнейшее развитие теории корреляции позволило разработать так называемые методы многомерной статистики, которые для биолога могут считаться составляющими особый раздел биометрии — многомерной биометрии, рассматривающей способы анализа изменчивости не одного отдельного признака, а целых их комплексов. [c.311] В рамках небольшого послесловия можно дать лишь краткий вводный обзор многомерных методов и отослать читателя к существующей специальной литературе, часть которой написана достаточно доступно для знакомящихся с этим предметом впервые. [c.311] Среди признаков, имеющих различную форму варьирования, многомерные методы лучше разработаны для количественных переменных, тогда как приемы анализа качественных показателей интенсивно разрабатывают лишь в течение последних двух десятилетий. Поэтому основное изложение будет касаться первых из них. [c.311] В соответствии с двумя элементами описания изменчивости набора признаков (вектором средних и ковариационной матрицей) многомерные статистические методы грубо можно разделить на три крупных класса. 1. Приемы, которые позволяют решать задачи, аналогичные рассматриваемым в одномерной биометрии. [c.312] Следует заметить, что обычные алгебраические символы в применении к многомерной статистике становятся малоконструктивными и не позволяют строить по формулам, выписанным в этих символах, вычислительные алгоритмы. Поэтому основным математическим аппаратом многомерной биометрии является матричная алгебра, которая позволяет записывать формулы в очень компактном виде и получать по ним алгоритмы вычислений. Для использования тех многомерных статистических методов, которые могут быть интересны для биолога, достаточно ознакомления лишь с элементарными сведениями из теории матриц, которые почти всегда приводят как приложение к книгам по многомерной статистике. [c.312] Второе обстоятельство, которое следует учитывать, касается вычислительных аспектов многомерной статистики. Действия над векторами и матрицами в основном несложны, хотя и трудоемки. Отдельные матричные вычисления (нахождение определителей, обратных матриц, собственных чисел и векторов) часто описываются в книгах по многомерной статистике [4, 11, 17] где даны рекомендации либо по ручному счету с применением калькуляторов, либо по составлению программ для ЭВМ. Матричные операции, как правило, входят в программное математическое обеспечение современных компьютеров. [c.313] Методы анализа внутригрупповой изменчивости. Приемы многомерного анализа данных, относящиеся к этому разделу, направлены на выявление закономерностей внутригрупповой вариации и коррелированности больших наборов переменных х. [c.314] Наиболее близок к традиционно используемым методам парной корреляции и регрессии раздел, включающий в себя множественную корреляцию и регрессию, который кратко рассмотрен в настоящем пособии. Уравнение множественной регрессии можно рассматривать как линейную конструкцию типа ( ), позволяющую находить на базе большого набора исходных признаков х такую новую переменную, которая была бы максимально скоррелирована с (т+1)-м признаком Хт - - Эта корреляция называется множественной. По значениям коэффициентов с/, которые в данном случае являются коэффициентами множественной регресг сии, можно из всего набора т признаков х выделить только п из них, которые обнаруживают наибольшие значения этих коэффициентов. По уменьшенному набору признаков х можно построить новое уравнение регрессии, основанное на меньшем числе переменных, которое будет более компактным. [c.314] Переменные у г и у/ должны быть скоррелированы между собой максимально тесно. Смысл переменных у может быть истолкован по значениям коэффициентов с,-. Таким образом, можно считать, что у и г// описывают наиболее важную закономерность коррелированности, которая проявляется в статистических связях признаков Хъ х ,. ... л и Хп+и Хп+2,. .., Хт. Вместе с тем эта закономерность может оказаться не единственной, которую следует рассматривать. Тогда можно выделить другие новые переменные у2 и г/г, Уз и Уз и т. д. Новые признаки у называют каноническими переменными, а коэффициенты корреляции между ними — каноническими корреляциями. [c.314] Способ анализа корреляций большого набора признаков х может быть иным, когда невозможно или нежелательно разделять его на части, а следует рассматривать как единое целое. [c.314] Наилучшим путем анализа здесь является применение компонентного или факторного анализа. Согласно целям каждого из них, по корреляционной матрице признаков х находят новые линейные переменные у, которые обычно бывают не скоррелированными друг с другом (возможно выделение и связанных переменных у) и описывают определенные закономерности вариации и коррелированности исходных признаков. Эти новые переменные называют в зависимости от используемого метода главными компонентами или факторами. По значениям коэффициентов Сг у разных признаков X можно интерпретировать смысл этих переменных. [c.315] В тех случаях, когда интерпретация оказывается затруднительной, можно трансформировать эти коэффициенты с помощью специальных приемов, что часто облегчает истолкование выделенных закономерностей коррелированности признаков х. [c.315] Весьма важным является то обстоятельство, что величина каждой главной компоненты может быть получена у любого объекта исследования (экземпляра, особи, индивида и т. д.). При этом число главных компонент или факторов, суммарно описывающих весьма значительную часть информации о закономерностях вариации и коррелированности признаков, бывает гораздо меньшим, чем количество этих исходных переменных. Таким образом, применение компонентного или факторного анализа позволяет значительно уменьшить количество анализируемых переменных. Кроме того, главные компоненты являются комплексными интегративными показателями, каждый из которых зависит от многих признаков, что также весьма ценно. [c.315] Эти методы используют весьма широко, и им посвящена значительная литература. Среди наиболее простых изложений можно отметить [2, 3, 4, 5, 10, 13, 14]. Существуют и более сложные, но и более подробные описания этих методов [И, 12, 17]. [c.315] Вопросы, связанные с вычислением и применением дискриминантных функций, относительно доступно изложены в [2, 3, 4, 15]. [c.316] Задача классификации наблюдений заключается в выявлении естественного, объективно существующего порядка, присутствующего в наборе выборок, которые относятся к различным генеральным совокупностям, причем их взаимоотношения априорно обычно неясны. При решении подобных вопросов используют методы кластерного анализа, которые также называют мето-дами распознавания образов илн числовой таксономией. [c.316] Кластерный анализ включает в себя осуществление двух этапов обработки материала. Первый из них заключается в получении представления о взаимной близости расположения центров сравниваемых выборок по значениям комплекса признаков. Для этой цели используют различные методы. Так, для измерительных количественных признаков и многих качественных показателей по любой паре анализируемых выборок может быть найдено значение таксономического расстояния. Его величина зависит от степени сходства этих выборок по значениям признаков. Чем меньше оказываются различия векторов средних, тем меньше будет величина таксономического расстояния. [c.316] Существуют различные конструкции таксономических расстояний, среди которых одной из лучших является расстояние Ма-халанобиса, выгодно отличающееся от других учетом внутригрупповых закономерностей коррелированности признаков. Хороший обзор различных конструкций таксономических расстояний дан в [19] об этом же можно прочесть в [4]. Для качественных признаков, имеющих альтернативную форму варьирования, могут быть найдены в качестве мер сходства выборок так называемые коэффициенты подобия. Здесь по всем признакам подсчитываются количества совпадающих или несовпадающих вариантов, которые затем определенным образом нормируются. [c.316] Эти таблицы являются исходными для выделения групп выборок, включающих в себя только те из них, у которых взаимные расстояния относительно невелики. Напротив, сходство выборок из разных таких групп должно быть небольшим, а расстояния — значительными. Подобные группы относительно сходных выборок называют кластерами (образами, таксонами), а процесс их выделения — кластеризацией. [c.317] Вернуться к основной статье