Проблема невидимых видов - Unseen species problem

В проблема невидимых видов обычно упоминается в экологии и имеет дело с оценкой количества видов, представленных в экосистеме, которые не наблюдались с помощью образцов. Более конкретно, это относится к тому, сколько новых видов будет обнаружено, если в экосистеме будет взято больше проб. Изучение проблемы невидимых видов было начато в начале 1940-х гг. Александр Стивен Корбет. Он провел 2 года в Британская Малайя ловил бабочек, и ему было любопытно, сколько новых видов он откроет, если проведет еще 2 года в ловушке. Было разработано множество различных методов оценки, чтобы определить, сколько новых видов будет обнаружено при увеличении количества образцов. Проблема невидимых видов также применима в более широком смысле, поскольку оценщики могут использоваться для оценки любых новых элементов набора, ранее не обнаруженных в выборках. Примером этого является определение количества слов Уильям Шекспир знал по всем его письменным работам. Математически проблема невидимых видов может быть разбита следующим образом:

Если ${ textstyle n}$ берутся независимые пробы, ${ textstyle X ^ {n} треугольникq X_ {1}, ldots, X_ {n}}$ , а затем, если ${ textstyle m}$ было взято больше независимых выборок, количество невидимых видов, которые будут обнаружены дополнительными образцами, дается как

{ Displaystyle U triangleq U left (X ^ {n}, X_ {n + 1} ^ {m + n} right) треугольникq left | {X_ {n + 1} ^ {m + n} } smallsetminus {X ^ {n} } right |}

с

{ textstyle X_ {n + 1} ^ {m + n} треугольник X_ {n + 1}, ldots, X_ {n + m}}

будучи вторым набором

{ displaystyle m}

образцы.

История

В начале 1940-х гг. Александр Стивен Корбет 2 года провел в Британской Малайе, ловя бабочек.^[1] Он отслеживал, сколько видов он наблюдал, и сколько представителей каждого вида было поймано. Например, он поймал всего 2 особей 74 различных видов. Когда он вернулся в Соединенное Королевство, он обратился к статистику. Рональд Фишер и спросил, сколько новых видов бабочек он может ожидать поймать, если отправится в ловушку еще на два года.^[2] По сути, Корбет спрашивал, сколько видов он наблюдал ноль раз. Фишер ответил простой оценкой: за дополнительные 2 года отлова Корбет мог рассчитывать выловить 75 новых видов. Он сделал это с помощью простого суммирования (данные Орлицкого^[2] в Таблице 1 ниже в разделе Пример):

{ displaystyle U = - sum _ {i = 1} ^ {n} (- 1) ^ {i} varphi _ {i} = 118-74 + 44-24 + cdots -12 + 6 = 75}

Здесь,

{ textstyle varphi _ {я}}

соответствует количеству отдельных видов, которые наблюдались

{ textstyle i}

раз. Позднее сумма Фишера была подтверждена Гуд-Тулмином.^[1]

Оценщики

Чтобы оценить количество невидимых видов, пусть ${ textstyle т треугольник q м / п}$ быть количеством будущих образцов ( ${ displaystyle m}$ ) деленное на количество прошлых выборок ( ${ displaystyle n}$ ), или же ${ displaystyle m = tn}$ . Позволять ${ displaystyle varphi _ {я}}$ быть количеством отдельных наблюдаемых видов ${ displaystyle i}$ раз (например, если во всех выборках было 74 вида бабочек с двумя наблюдаемыми членами, то ${ displaystyle varphi _ {2} = 74}$ ).

Оценка Гуда – Тулмина

Оценка Гуда – Тулмина была разработана И. Дж. Гудом и Г. Х. Тулмином в 1953 г.^[3] Оценка невидимых видов на основе оценки Гуда – Тулмина дается выражением

{ Displaystyle U ^ {GT} треугольник U ^ {GT} left (X ^ {n}, t right) треугольникq - sum _ {i = 1} ^ { infty} (- t) ^ { я} varphi _ {я}}

Оценка Гуда – Тулмина оказалась хорошей оценкой значений

{ textstyle т leq 1}

. Оценка Гуда – Тулмина также приближает, что

{ displaystyle operatorname {E} left (U ^ {GT} -U right) ^ {2} lesssim nt ^ {2}}

Это означает, что

{ textstyle U ^ {GT}}

оценки

{ textstyle U}

в пределах

{ textstyle { sqrt {n}} cdot t}

так долго как

{ textstyle т leq 1}

. Однако для

{ displaystyle t> 1}

, оценщик Гуда – Тулмина не дает точных результатов. Это потому, что если

{ displaystyle t> 1}

,

{ Displaystyle U ^ {GT}}

увеличивается на

{ Displaystyle (-t) ^ {я} varphi _ {я}}

за

{ displaystyle i}

с

{ displaystyle varphi _ {i}> 0}

, что означает, что если

{ displaystyle varphi _ {i}> 0}

,

{ Displaystyle U ^ {GT}}

растет сверхлинейно в

{ displaystyle t}

, но

{ displaystyle U}

может расти максимально линейно с

{ displaystyle t}

. Следовательно, когда

{ displaystyle t> 1}

,

{ Displaystyle U ^ {GT}}

растет быстрее, чем

{ displaystyle U}

и не соответствует истинному значению.^[2]

Чтобы компенсировать это, Эфрон и Тистед^[4] показал, что усеченный Преобразование Эйлера также может быть полезной оценкой:

{ Displaystyle U ^ {ET} треугольник сумма _ {я = 1} ^ {n} h_ {h} ^ {ET} cdot varphi _ {i}}

с

{ displaystyle h_ {i} ^ {ET} треугольник - (- t) ^ {i} cdot Pr left ({ text {Bin}} left (k, { frac {1} {1+) t}} right) geq i right)}

и

{ displaystyle Pr left ({ text {Bin}} left (k, { frac {1} {1 + t}} right) geq i right) = { begin {cases} sum _ {j = i} ^ {k} {k choose j} { frac {t ^ {kj}} {(1 + t) ^ {k}}} & i leq k, 0 & i> k end {случаи}}}

куда

{ displaystyle k}

- это место, выбранное для усечения преобразования Эйлера.

Сглаженная оценка Гуда – Тулмина

Подобно подходу Эфрона и Тистеда, Алон Орлицкий, Ананда Тирта Суреш и Ихонг Ву разработали гладкий Гуд – Тулмин оценщик. Они поняли, что оценка Гуда – Тулмина не сработала из-за экспоненциального роста, а не из-за его смещения.^[2] Таким образом, они оценили количество невидимых видов путем усечения ряда.

{ Displaystyle U ^ { ell} треугольникq - сумма _ {я = 1} ^ { ell} (- t) ^ {я} varphi _ {я}}

Орлицкий, Суреш и Ву также отметили, что для распределений с

{ displaystyle t> 1}

, ведущим членом в оценке суммирования является

{ displaystyle ell ^ { text {th}}}

срок, независимо от того, какое значение

{ displaystyle ell}

выбран.^[1] Чтобы решить эту проблему, они выбрали случайное неотрицательное целое число

{ displaystyle L}

, усек серию на

{ displaystyle L}

, а затем взяли среднее значение по распределению около

{ displaystyle L}

.^[2] Результирующая оценка

{ displaystyle U ^ {L} = operatorname {E} _ {L} left [- sum _ {i = 1} ^ {L} (- t) ^ {i} varphi _ {i} right ]}

Этот метод был выбран из-за предвзятости

{ Displaystyle U ^ { ell}}

сдвигает знаки из-за

{ Displaystyle (-t) ^ {я}}

коэффициент. Усреднение по распределению

{ displaystyle L}

поэтому снижает смещение. Это означает, что оценку можно записать как линейную комбинацию распространенности:^[1]

{ displaystyle U ^ {L} = operatorname {E} _ {L} left [ sum _ {i geq 1} (- t) ^ {i} varphi _ {i} mathbf {1} _ {i leq L} right] = - sum _ {i geq 1} (- t) ^ {i} Pr (L geq i) varphi _ {i}}

В зависимости от распределения

{ displaystyle L}

выбрано, результаты будут отличаться. С помощью этого метода можно сделать оценки для

{ Displaystyle т propto ln п}

, и это лучшее из возможных.^[2]

Кривая открытия видов

В кривая открытия видов также можно использовать. Эта кривая связывает количество видов, обнаруженных в районе, как функцию времени. Эти кривые также могут быть построены с помощью оценок (таких как оценка Гуда – Тулмина) и построения графика количества невидимых видов для каждого значения для ${ displaystyle t}$ .^[5]

Кривая обнаружения видов всегда увеличивается, поскольку никогда не бывает образца, который мог бы уменьшить количество обнаруженных видов. Более того, кривая открытия видов также замедляется; чем больше образцов будет взято, тем меньше будет обнаружено невидимых видов. Кривая обнаружения видов также никогда не будет асимптотической, поскольку предполагается, что, хотя скорость обнаружения может стать бесконечно низкой, она никогда не остановится на самом деле.^[5] Двумя общими моделями кривой открытия видов являются: логарифмический и экспоненциальная функция.

Пример - бабочки Корбета

В качестве примера рассмотрим данные, которые Корбет предоставил Фишеру в 1940-х годах.^[2] Используя модель Гуда – Тулмина, количество невидимых видов определяется с помощью

{ Displaystyle U = - сумма _ {я = 1} ^ { infty} (- т) ^ {я} varphi _ {я}}

Затем это можно использовать для создания отношений между

{ displaystyle t}

и

{ displaystyle U}

.

Таблица 1 - Данные, предоставленные Фишеру Корбетом^[2]
Количество наблюдаемых членов, ${ displaystyle i}$	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15
Количество видов, ${ displaystyle varphi _ {я}}$	118	74	44	24	29	22	20	19	20	15	12	14	6	12	6

Эта связь показана на графике ниже.

Количество невидимых видов как функция t, отношение новых образцов к предыдущим образцам.

Из сюжета видно, что при ${ displaystyle t = 1}$ , что было значением ${ displaystyle t}$ которую Корбет принес Фишеру, итоговая оценка ${ displaystyle U}$ 75, что соответствует тому, что нашел Фишер. Этот график также действует как кривая открытия видов для этой экосистемы и определяет, сколько новых видов будет обнаружено как ${ displaystyle t}$ увеличивается (и берутся больше образцов).

Другое использование

Алгоритм прогнозирования имеет множество применений. Зная, что оценки точны, это позволяет ученым точно экстраполировать результаты опроса людей с коэффициентом 2. Они могут предсказать количество уникальных ответов на основе количества людей, ответивших одинаково. Этот метод также можно использовать для определения степени чьих-либо знаний. Ярким примером является определение количества уникальных слов, которые знал Шекспир, на основе письменных произведений, которые у нас есть сегодня.

Пример. Сколько слов знал Шекспир?

На основании исследования известных произведений Шекспира, проведенного Тистедом и Эфроном, всего 884 647 слов.^[4] Исследование также показало, что всего ${ displaystyle N = 864}$ разные слова, встречающиеся более 100 раз. Таким образом, общее количество уникальных слов оказалось 31 534.^[4] Применяя модель Гуда – Тулмина, если было обнаружено такое же количество произведений Шекспира, то считается, что ${ displaystyle U ^ { text {words}} около 11 460}$ будут найдены уникальные слова. Целью было бы получить ${ Displaystyle U ^ { текст {слова}}}$ за ${ Displaystyle т = infty}$ . По оценке Тистеда и Эфрона, ${ Displaystyle U ^ { текст {слова}} (т rightarrow infty) около 35 000}$ Это означает, что Шекспир, скорее всего, знал в два раза больше слов, чем он фактически использовал во всех своих произведениях.^[4]