Индекс разнообразия - Diversity index

А индекс разнообразия (также называемый филогенетический индекс или индекс разнообразия Симпсона) - это количественная мера, которая отражает количество различных типов (например, разновидность ) присутствуют в наборе данных (сообществе) и могут одновременно учитывать филогенетический отношения между людьми, распределенными между этими типами, такими как богатство, расхождение или же ровность.[1]Эти индексы являются статистическим представлением биоразнообразия в различных аспектах (богатство, ровность и господство ).

Богатство

Богатство р просто количественно определяет, сколько различных типов содержит интересующий набор данных. Например, видовое богатство (обычно отмечается S) набора данных - это количество различных видов в соответствующем списке видов. Богатство - это простая мера, поэтому он стал популярным индексом разнообразия в экологии, где данные о численности часто недоступны для интересующих наборов данных. Поскольку богатство не принимает во внимание изобилие типов, это не то же самое, что разнообразие, которое действительно принимает во внимание изобилие. Однако, если истинное разнообразие рассчитывается с q = 0[требуется разъяснение ], эффективное количество типов (0D) равно фактическому количеству типов (р).[2][3]

Индекс Шеннона

Индекс Шеннона был популярным индексом разнообразия в экологической литературе, где он также известен как индекс разнообразия Шеннона, Шеннон–Винер индекс, Шеннон–Ткачиха индекс и энтропия Шеннона.[4] Первоначально эта мера была предложена Клод Шеннон количественно оценить энтропия (неопределенность или информационное содержание) в строках текста.[5] Идея состоит в том, что чем больше разных букв и чем больше их пропорциональное количество в интересующей строке, тем труднее правильно предсказать, какая буква будет следующей в строке. Энтропия Шеннона количественно определяет неопределенность (энтропию или степень неожиданности), связанную с этим предсказанием. Чаще всего рассчитывается так:

куда пя - доля персонажей, принадлежащих я-й тип буквы в интересующей строке. В экологии пя часто доля лиц, принадлежащих к я-го вида в интересующем наборе данных. Затем энтропия Шеннона количественно определяет неопределенность в прогнозировании видовой принадлежности особи, которая случайным образом выбирается из набора данных.

Хотя здесь уравнение записано с натуральными логарифмами, основание логарифма, используемое при вычислении энтропии Шеннона, может быть выбрано произвольно. Сам Шеннон обсуждал основания логарифма 2, 10 и е, и с тех пор они стали самыми популярными базами в приложениях, использующих энтропию Шеннона. Каждая логическая база соответствует разным единицам измерения, которые называются двоичными цифрами (битами), десятичными цифрами (decits) и натуральными цифрами (nats) для оснований 2, 10 и е, соответственно. Для сравнения значений энтропии Шеннона, которые были первоначально рассчитаны с разными базами логарифма, необходимо преобразовать их в одну и ту же базу логарифма: изменение из базы а основать б получается умножением на бревноба.[5]

Было показано, что индекс Шеннона основан на средневзвешенное геометрическое пропорциональной численности типов, и что она равна логарифму истинного разнообразия, рассчитанного с помощью q = 1:[6]

Это также можно написать

что равно

Поскольку сумма пя значения равны единице по определению, знаменатель равно средневзвешенному геометрическому значению пя ценности, с пя сами значения используются как веса (показатели в уравнении). Термин в скобках означает истинное разнообразие. 1D, и ЧАС' равно ln (1D).[7][6][3]

Когда все типы в интересующем наборе данных одинаковы, все пя значения равны 1 / р, поэтому индекс Шеннона принимает значение ln (р). Чем неравномернее численность типов, тем больше средневзвешенное геометрическое значение пя значения, и тем меньше соответствующая энтропия Шеннона. Если практически все изобилие сосредоточено на одном типе, а другие типы очень редки (даже если их много), энтропия Шеннона приближается к нулю. Когда в наборе данных только один тип, энтропия Шеннона в точности равна нулю (нет никакой неопределенности в предсказании типа следующей случайно выбранной сущности).

Энтропия Реньи

В Энтропия Реньи является обобщением энтропии Шеннона на другие значения q чем единство. Это может быть выражено:

что равно

Это означает, что логарифм истинного разнообразия на основе любого значения q дает энтропию Реньи, соответствующую тому же значению q.

Индекс Симпсона

Индекс Симпсона был введен в 1949 г. Эдвард Х. Симпсон для измерения степени концентрации, когда люди классифицируются по типам.[8] Тот же индекс был повторно открыт Оррисом К. Херфиндалом в 1950 году.[9] Квадратный корень из индекса был введен еще в 1945 году экономистом. Альберт О. Хиршман.[10] В результате та же мера обычно известна как индекс Симпсона в экологии и как Индекс Херфиндаля или индекс Херфиндаля – Хиршмана (HHI) в экономике.

Эта мера равна вероятности того, что два объекта, выбранные случайным образом из интересующего набора данных, представляют один и тот же тип.[8] Это равно:

,

куда р - богатство (общее количество типов в наборе данных). Это уравнение также равно средневзвешенному арифметическому пропорциональных количеств пя типов, представляющих интерес, при этом сами пропорциональные количества используются в качестве весов.[7] Пропорциональная численность по определению ограничена значениями от нуля до единицы, но это средневзвешенное арифметическое значение, поэтому λ ≥ 1/р, которое достигается при одинаковом изобилии всех типов.

Сравнивая уравнение, используемое для расчета λ, с уравнениями, используемыми для расчета истинного разнообразия, можно видеть, что 1 / λ равно 2D, т.е. истинное разнообразие, рассчитанное с q = 2. Таким образом, исходный индекс Симпсона равен соответствующей базовой сумме.[2]

Интерпретация λ как вероятности того, что два объекта, взятые случайным образом из интересующего набора данных, представляют один и тот же тип, предполагает, что первый объект заменяется в наборе данных перед тем, как взять второй объект. Если набор данных очень большой, выборка без замены дает примерно такой же результат, но в небольших наборах данных разница может быть значительной. Если набор данных невелик и предполагается выборка без замены, вероятность получения одного и того же типа при обоих случайных выборках составляет:

куда пя количество объектов, принадлежащих яй тип и N - общее количество объектов в наборе данных.[8] Эта форма индекса Симпсона также известна в микробиологии как индекс Хантера – Гастона.[11]

Поскольку средняя пропорциональная численность типов увеличивается с уменьшением числа типов и увеличением численности наиболее распространенного типа, λ принимает небольшие значения в наборах данных с большим разнообразием и большие значения в наборах данных с низким разнообразием. Это противоречит интуиции для индекса разнообразия, поэтому вместо этого часто использовались такие преобразования λ, которые увеличиваются с увеличением разнообразия. Самыми популярными из таких индексов были обратный индекс Симпсона (1 / λ) и индекс Джини – Симпсона (1 - λ).[7][2] Оба они также называются индексом Симпсона в экологической литературе, поэтому необходимо соблюдать осторожность, чтобы избежать случайного сравнения различных индексов, как если бы они были одинаковыми.

Обратный индекс Симпсона

Обратный индекс Симпсона равен:

Это просто равно истинному разнообразию порядка 2, то есть эффективному количеству типов, которое получается, когда взвешенное среднее арифметическое используется для количественной оценки среднего пропорционального количества типов в интересующем наборе данных.

Индекс также используется как мера эффективное количество сторон.

Индекс Джини – Симпсона

Исходный индекс Симпсона λ равен вероятности того, что два объекта, выбранные случайным образом из интересующего набора данных (с заменой), представляют один и тот же тип. Его преобразование 1 - λ, следовательно, равно вероятности того, что два объекта представляют разные типы. Эта мера также известна в экологии как вероятность межвидовой встречи (ПИРОГ)[12] и индекс Джини – Симпсона.[2] Это можно выразить как преобразование истинного разнообразия 2-го порядка:

Индекс Гиббса – Мартина исследований социологии, психологии и менеджмента,[13] который также известен как индекс Блау, является той же мерой, что и индекс Джини – Симпсона.

Количество также известно как ожидаемая гетерозиготность в популяционной генетике.

Индекс Бергера – Паркера

Бергер-Паркер[14] индекс равен максимуму пя значение в наборе данных, то есть пропорциональная численность наиболее распространенного типа. Это соответствует взвешенному обобщенное среднее из пя ценности, когда q приближается к бесконечности и, следовательно, равно обратному истинному разнообразию бесконечного порядка (1/D).

Эффективное количество видов или число холмов

Когда индексы разнообразия используются в экология, представляющими интерес типами обычно являются виды, но они также могут относиться к другим категориям, например роды, семьи, функциональные типы или же гаплотипы. Представляющими интерес объектами обычно являются отдельные растения или животные, а мерой численности может быть, например, количество особей, биомасса или покрытие. В демография, интересующими объектами могут быть люди, а интересующие типы - различные демографические группы. В информационная наука, объекты могут быть символами, а типы - разными буквами алфавита. Наиболее часто используемые индексы разнообразия - это простые преобразования эффективного числа типов (также известные как `` истинное разнообразие ''), но каждый индекс разнообразия также можно интерпретировать сам по себе как меру, соответствующую некоторому реальному явлению (но другому). для каждого индекса разнообразия).[7][2][6][3]

Многие индексы учитывают только категориальное разнообразие субъектов или субъектов. Однако такие индексы не учитывают общую вариативность (разнообразие), которая может иметь место между субъектами или объектами, которая возникает только при расчете как категориального, так и качественного разнообразия.

Истинное разнообразие, или эффективное количество типов, относится к количеству одинаково распространенных типов, необходимых для того, чтобы средняя пропорциональная численность типов была равна той, которая наблюдается в интересующем наборе данных (где все типы не могут быть одинаково многочисленными). Истинное разнообразие в наборе данных рассчитывается путем сначала взвешенного обобщенное среднее Mq−1 пропорциональной численности типов в наборе данных, а затем взяв взаимный этого. Уравнение:[6][3]

В знаменатель Mq−1 равна средней пропорциональной численности типов в наборе данных, рассчитанной с помощью взвешенного обобщенное среднее с показателем q-1. В уравнении р богатство (общее количество типов в наборе данных) и пропорциональное изобилие яй тип пя. Сами пропорциональные количества используются как номинальные веса. Цифры называются Числа Хилла порядка q или же эффективное количество видов.[15]

Когда q = 1, приведенное выше уравнение не определено. Тем не менее математический предел в качестве q подходы 1 хорошо определены, и соответствующее разнесение рассчитывается по следующему уравнению:

что является экспонентой от Энтропия Шеннона вычисляется с использованием натуральных логарифмов (см. выше). В других областях эта статистика также известна как недоумение.

Значение q часто называют порядком разнообразия. Он определяет чувствительность значения разнообразия к редким и многочисленным видам, изменяя способ расчета средневзвешенного значения пропорциональной численности видов. При некоторых значениях параметра q, значение Mq−1 предполагает знакомые виды взвешенного среднего как особые случаи. Особенно, q = 0 соответствует взвешенному гармоническое среднее, q = 1 взвешенным среднее геометрическое и q = 2 взвешенным среднее арифметическое. В качестве q подходы бесконечность, взвешенное обобщенное среднее с показателем q−1 приближается к максимуму пя значение, которое представляет собой пропорциональную численность наиболее распространенных видов в наборе данных. Как правило, увеличение значения q увеличивает эффективный вес, придаваемый наиболее многочисленным видам. Это приводит к получению большего Mq−1 значение и меньшее истинное разнообразие (qD) значение при увеличении q.

Когда q = 1, средневзвешенное геометрическое пя используются значения, и каждый вид точно взвешивается по его пропорциональной численности (в средневзвешенном геометрическом весе веса являются показателями). Когда q > 1значение, придаваемое многочисленным видам, преувеличено, а когда q < 1, удельный вес редких видов составляет. В q = 0, веса видов точно исключают пропорциональную численность видов, так что средневзвешенное значение пя ценности равны 1 / р даже если не все виды одинаково многочисленны. В q = 0, эффективное количество видов, 0D, следовательно, равно фактическому количеству видов р. В контексте разнообразия q обычно ограничивается неотрицательными значениями. Это потому, что отрицательные значения q даст редким видам гораздо больший вес, чем многочисленным, что qD превысит р.[6][3]

Общее уравнение разнообразия часто записывают в виде[7][2]

а член в круглых скобках называется базовой суммой. Некоторые популярные индексы разнообразия соответствуют базовой сумме, рассчитанной с различными значениями q.[2]

Смотрите также

Рекомендации

  1. ^ Такер, Кэролайн М .; Cadotte, Marc W .; Карвалью, Сильвия Б .; Дэвис, Т. Джонатан; Феррье, Саймон; Fritz, Susanne A .; Грениер, Рич; Helmus, Matthew R .; Джин, Ланна С. (май 2017 г.). «Руководство по филогенетическим метрикам для сохранения, экологии сообществ и макроэкологии: Руководство по филогенетическим метрикам для экологии». Биологические обзоры. 92 (2): 698–715. Дои:10.1111 / brv.12252. ЧВК  5096690. PMID  26785932.
  2. ^ а б c d е ж грамм Йост, L (2006). «Энтропия и разнообразие». Ойкос. 113 (2): 363–375. Дои:10.1111 / j.2006.0030-1299.14714.x.
  3. ^ а б c d е Туомисто, Х (2010). «Единая терминология для количественной оценки видового разнообразия? Да, существует». Oecologia. 164 (4): 853–860. Bibcode:2010Oecol.164..853T. Дои:10.1007 / s00442-010-1812-0. PMID  20978798.
  4. ^ Спеллерберг, Ян Ф. и Питер Дж. Федор. (2003) Дань уважения Клоду Шеннону (1916–2001) и призыв к более строгому использованию видового богатства, видового разнообразия и «Индекса Шеннона – Винера». Глобальная экология и биогеография 12.3, 177-179.
  5. ^ а б Шеннон, К. Э. (1948) Математическая теория коммуникации. Технический журнал Bell System, 27, 379–423 и 623–656.
  6. ^ а б c d е Туомисто, Х (2010). «Разнообразие бета-разнообразия: исправление ошибочной концепции. Часть 1. Определение бета-разнообразия как функции альфа- и гамма-разнообразия». Экография. 33: 2–22. Дои:10.1111 / j.1600-0587.2009.05880.x.
  7. ^ а б c d е Хилл, М. О. (1973). «Разнообразие и ровность: объединяющая нотация и ее последствия». Экология. 54 (2): 427–432. Дои:10.2307/1934352. JSTOR  1934352.
  8. ^ а б c Симпсон, Э. Х. (1949). «Измерение разнообразия». Природа. 163 (4148): 688. Bibcode:1949Натура.163..688С. Дои:10.1038 / 163688a0.
  9. ^ Херфиндаль, О. К. (1950) Концентрация в сталелитейной промышленности США. Неопубликованная докторская диссертация, Колумбийский университет.
  10. ^ Хиршман А. О. (1945) Национальная власть и структура внешней торговли. Беркли.
  11. ^ Хантер, PR; Гастон, Массачусетс (1988). «Числовой индекс дискриминационной способности систем набора текста: применение индекса разнообразия Симпсона». J Clin Microbiol. 26 (11): 2465–2466. Дои:10.1128 / JCM.26.11.2465-2466.1988. ЧВК  266921. PMID  3069867.
  12. ^ Hurlbert, S.H. (1971). «Непонятие видового разнообразия: критика и альтернативные параметры». Экология. 52 (4): 577–586. Дои:10.2307/1934145. JSTOR  1934145. PMID  28973811.
  13. ^ Гиббс, Джек П .; Уильям Т. Мартин (1962). «Урбанизация, технологии и разделение труда». Американский социологический обзор. 27 (5): 667–677. Дои:10.2307/2089624. JSTOR  2089624.
  14. ^ Berger, Wolfgang H .; Паркер, Фрэнсис Л. (июнь 1970 г.). «Разнообразие планктонных фораминифер в глубоководных отложениях». Наука. 168 (3937): 1345–1347. Bibcode:1970Sci ... 168.1345B. Дои:10.1126 / science.168.3937.1345. PMID  17731043.
  15. ^ Чао, Энн; Чиу, Чун-Хо; Йост, Лу (2016), «Показатели филогенетического разнообразия и их разложение: структура, основанная на числах Хилла», Сохранение биоразнообразия и филогенетическая систематика, Springer International Publishing, стр. 141–172, Дои:10.1007/978-3-319-22461-9_8, ISBN  9783319224602

дальнейшее чтение

внешняя ссылка