Проблема невидимых видов - Unseen species problem

В проблема невидимых видов обычно упоминается в экологии и имеет дело с оценкой количества видов, представленных в экосистеме, которые не наблюдались с помощью образцов. Более конкретно, это относится к тому, сколько новых видов будет обнаружено, если в экосистеме будет взято больше проб. Изучение проблемы невидимых видов было начато в начале 1940-х гг. Александр Стивен Корбет. Он провел 2 года в Британская Малайя ловил бабочек, и ему было любопытно, сколько новых видов он откроет, если проведет еще 2 года в ловушке. Было разработано множество различных методов оценки, чтобы определить, сколько новых видов будет обнаружено при увеличении количества образцов. Проблема невидимых видов также применима в более широком смысле, поскольку оценщики могут использоваться для оценки любых новых элементов набора, ранее не обнаруженных в выборках. Примером этого является определение количества слов Уильям Шекспир знал по всем его письменным работам. Математически проблема невидимых видов может быть разбита следующим образом:

Если берутся независимые пробы, , а затем, если было взято больше независимых выборок, количество невидимых видов, которые будут обнаружены дополнительными образцами, дается как

с будучи вторым набором образцы.

История

В начале 1940-х гг. Александр Стивен Корбет 2 года провел в Британской Малайе, ловя бабочек.[1] Он отслеживал, сколько видов он наблюдал, и сколько представителей каждого вида было поймано. Например, он поймал всего 2 особей 74 различных видов. Когда он вернулся в Соединенное Королевство, он обратился к статистику. Рональд Фишер и спросил, сколько новых видов бабочек он может ожидать поймать, если отправится в ловушку еще на два года.[2] По сути, Корбет спрашивал, сколько видов он наблюдал ноль раз. Фишер ответил простой оценкой: за дополнительные 2 года отлова Корбет мог рассчитывать выловить 75 новых видов. Он сделал это с помощью простого суммирования (данные Орлицкого[2] в Таблице 1 ниже в разделе Пример):

Здесь, соответствует количеству отдельных видов, которые наблюдались раз. Позднее сумма Фишера была подтверждена Гуд-Тулмином.[1]

Оценщики

Чтобы оценить количество невидимых видов, пусть быть количеством будущих образцов () деленное на количество прошлых выборок (), или же . Позволять быть количеством отдельных наблюдаемых видов раз (например, если во всех выборках было 74 вида бабочек с двумя наблюдаемыми членами, то ).

Оценка Гуда – Тулмина

Оценка Гуда – Тулмина была разработана И. Дж. Гудом и Г. Х. Тулмином в 1953 г.[3] Оценка невидимых видов на основе оценки Гуда – Тулмина дается выражением

Оценка Гуда – Тулмина оказалась хорошей оценкой значений . Оценка Гуда – Тулмина также приближает, что
Это означает, что оценки в пределах так долго как . Однако для , оценщик Гуда – Тулмина не дает точных результатов. Это потому, что если , увеличивается на за с , что означает, что если , растет сверхлинейно в , но может расти максимально линейно с . Следовательно, когда , растет быстрее, чем и не соответствует истинному значению.[2]

Чтобы компенсировать это, Эфрон и Тистед[4] показал, что усеченный Преобразование Эйлера также может быть полезной оценкой:

с
и
куда - это место, выбранное для усечения преобразования Эйлера.

Сглаженная оценка Гуда – Тулмина

Подобно подходу Эфрона и Тистеда, Алон Орлицкий, Ананда Тирта Суреш и Ихонг Ву разработали гладкий Гуд – Тулмин оценщик. Они поняли, что оценка Гуда – Тулмина не сработала из-за экспоненциального роста, а не из-за его смещения.[2] Таким образом, они оценили количество невидимых видов путем усечения ряда.

Орлицкий, Суреш и Ву также отметили, что для распределений с , ведущим членом в оценке суммирования является срок, независимо от того, какое значение выбран.[1] Чтобы решить эту проблему, они выбрали случайное неотрицательное целое число , усек серию на , а затем взяли среднее значение по распределению около .[2] Результирующая оценка
Этот метод был выбран из-за предвзятости сдвигает знаки из-за коэффициент. Усреднение по распределению поэтому снижает смещение. Это означает, что оценку можно записать как линейную комбинацию распространенности:[1]
В зависимости от распределения выбрано, результаты будут отличаться. С помощью этого метода можно сделать оценки для , и это лучшее из возможных.[2]

Кривая открытия видов

В кривая открытия видов также можно использовать. Эта кривая связывает количество видов, обнаруженных в районе, как функцию времени. Эти кривые также могут быть построены с помощью оценок (таких как оценка Гуда – Тулмина) и построения графика количества невидимых видов для каждого значения для .[5]

Кривая обнаружения видов всегда увеличивается, поскольку никогда не бывает образца, который мог бы уменьшить количество обнаруженных видов. Более того, кривая открытия видов также замедляется; чем больше образцов будет взято, тем меньше будет обнаружено невидимых видов. Кривая обнаружения видов также никогда не будет асимптотической, поскольку предполагается, что, хотя скорость обнаружения может стать бесконечно низкой, она никогда не остановится на самом деле.[5] Двумя общими моделями кривой открытия видов являются: логарифмический и экспоненциальная функция.

Пример - бабочки Корбета

В качестве примера рассмотрим данные, которые Корбет предоставил Фишеру в 1940-х годах.[2] Используя модель Гуда – Тулмина, количество невидимых видов определяется с помощью

Затем это можно использовать для создания отношений между и .

Таблица 1 - Данные, предоставленные Фишеру Корбетом[2]
Количество наблюдаемых членов, 123456789101112131415
Количество видов, 11874442429222019201512146126

Эта связь показана на графике ниже.

Количество невидимых видов как функция t, отношение новых образцов к предыдущим образцам.

Из сюжета видно, что при , что было значением которую Корбет принес Фишеру, итоговая оценка 75, что соответствует тому, что нашел Фишер. Этот график также действует как кривая открытия видов для этой экосистемы и определяет, сколько новых видов будет обнаружено как увеличивается (и берутся больше образцов).

Другое использование

Алгоритм прогнозирования имеет множество применений. Зная, что оценки точны, это позволяет ученым точно экстраполировать результаты опроса людей с коэффициентом 2. Они могут предсказать количество уникальных ответов на основе количества людей, ответивших одинаково. Этот метод также можно использовать для определения степени чьих-либо знаний. Ярким примером является определение количества уникальных слов, которые знал Шекспир, на основе письменных произведений, которые у нас есть сегодня.

Пример. Сколько слов знал Шекспир?

На основании исследования известных произведений Шекспира, проведенного Тистедом и Эфроном, всего 884 647 слов.[4] Исследование также показало, что всего разные слова, встречающиеся более 100 раз. Таким образом, общее количество уникальных слов оказалось 31 534.[4] Применяя модель Гуда – Тулмина, если было обнаружено такое же количество произведений Шекспира, то считается, что будут найдены уникальные слова. Целью было бы получить за . По оценке Тистеда и Эфрона, Это означает, что Шекспир, скорее всего, знал в два раза больше слов, чем он фактически использовал во всех своих произведениях.[4]

Смотрите также

Рекомендации

  1. ^ а б c d Орлицкий, Алон; Суреш, Ананда Тиртха; У Ихун (22.11.2016). «Оптимальный прогноз количества невидимых видов». Труды Национальной академии наук. 113 (47): 13283–13288. Дои:10.1073 / pnas.1607774113. ЧВК  5127330. PMID  27830649.
  2. ^ а б c d е ж грамм час Орлицкий, Алон; Суреш, Ананда Тиртха; У, Ихонг (2015-11-23). "Оценка количества невидимых видов: птица в руке стоит журнала п в кустах". arXiv:1511.07428 [math.ST ].
  3. ^ ХОРОШО, И. Дж .; ТУЛМИН, Г. Х. (1956). «Число новых видов и увеличение охвата населения при увеличении выборки». Биометрика. 43 (1–2): 45–63. Дои:10.1093 / biomet / 43.1-2.45. ISSN  0006-3444.
  4. ^ а б c d Эфрон, Брэдли; Тистед, Рональд (1976). «Оценка количества несуществующих видов: сколько слов знал Шекспир?». Биометрика. 63 (3): 435–447. Дои:10.2307/2335721. JSTOR  2335721.
  5. ^ а б Беббер, Д. П; Marriott, F.HC; Гастон, К. Дж; Harris, S.A; Шотландия, Р. В (7 июля 2007 г.). «Прогнозирование количества неизвестных видов с помощью кривых открытий». Труды Королевского общества B: биологические науки. 274 (1618): 1651–1658. Дои:10.1098 / rspb.2007.0464. ЧВК  2169286. PMID  17456460.