N50, L50 и связанная статистика - N50, L50, and related statistics

В вычислительная биология, N50 и L50 являются статистикой набора контиг или же строительные леса длины. В N50 похож на иметь в виду или же медиана длины, но имеет больший вес, чем более длинные контиги. Он широко используется в сборка генома, особенно в отношении длин контигов в чертеже сборки. Есть также связанные U50, UL50, UG50, UG50%, N90, NG50, и D50 статистика.

Чтобы обеспечить лучшую оценку результатов сборки для наборов данных о вирусах и микробах, появился новый показатель под названием U50 должен быть использован. В U50 идентифицирует уникальные, специфичные для мишени контиги, используя эталонный геном в качестве базового, с целью обойти некоторые ограничения, присущие N50 метрика. Использование U50 метрика позволяет более точно измерить производительность сборки, анализируя только уникальные, неперекрывающиеся контиги. Большинство вирусных и микробных секвенирований имеют высокий фоновый шум (то есть хозяин и другие нецелевые объекты), что способствует искажению, искажению N50 значение - это исправлено U50.^[1]

Определение

N50

Статистика N50 определяет качество сборки с точки зрения смежность. Учитывая набор контигов, N50 определяется как длина последовательности самого короткого контига на уровне 50% от общей длины генома. Его можно рассматривать как точку половины массы распределения; количество базы со всех контигов длиннее, чем N50 будет близко к количеству баз от всех контигов короче N50. Например, рассмотрим 9 контигов с длинами 2,3,4,5,6,7,8,9 и 10; их сумма равна 54, половина суммы равна 27, и размер генома также составляет 54. 50% этой сборки будет 10 + 9 + 8 = 27 (половина длины последовательности). Таким образом, N50 = 8, то есть размер контига, который вместе с более крупными контигами содержит половину последовательности конкретного генома. Примечание. При сравнении значений N50 из разных сборок размеры сборки должны быть одинаковыми, чтобы значение N50 было значимым.

N50 можно описать как взвешенную медианную статистику, так что 50% всей сборки содержится в контигах или каркасах, равных или превышающих это значение.

L50

Учитывая набор контигов, каждый со своей длиной, L50 count определяется как наименьшее количество контигов, сумма длин которых составляет половину размера генома. В приведенном выше примере L50 = 3.

N90

В Статистика N90 меньше или равно N50 статистика; это длина, для которой совокупность всех контигов такой или большей длины содержит не менее 90% суммы длин всех контигов.

NG50

Обратите внимание, что N50 вычисляется в контексте размера сборки, а не размера генома. Таким образом, сравнение значений N50, полученных из ансамблей существенно разной длины, обычно не является информативным, даже если для одного и того же генома. Чтобы решить эту проблему, авторы Ассемблатон конкуренция предложила новую меру, названную NG50. В Статистика NG50 такой же как N50 за исключением того, что 50% известного или предполагаемого размера генома должно иметь длину NG50 или больше. Это позволяет проводить значимые сравнения между различными сборками. В типичном случае, когда размер сборки не превышает размер генома, статистика NG50 не превышает статистику N50.

D50

В Статистика D50 (также называемый D50 тест) аналогичен N50 статистика по определению, хотя она обычно не используется для описания геномных сборок. В D50 статистика - наименьшее значение d для которого сумма длин наибольшего d длина составляет не менее 50% от суммы всех длин.^[2]

U50

U50 - это длина наименьшего контига, такая, что 50% суммы всех уникальных, специфичных для цели контигов содержится в контигах размера U50 или больше.^[1]

UL50

UL50 - количество контигов, сумма длин которых дает U50.

UG50

UG50 представляет собой длину наименьшего контига, такого что 50% эталонного генома содержится в уникальных, специфичных для мишени контигах размером UG50 или больше.

UG50%

UG50% - это предполагаемая процентная длина покрытия UG50 в прямой зависимости от длины эталонного генома. Расчет: (100 × (UG50 / длина эталонного генома). UG50%, как показатель, основанный на процентах, может использоваться для сравнения результатов сборки из разных образцов или исследований.

Примеры

Рассмотрим две вымышленные, очень упрощенные сборки генома, A и B, которые происходят от двух разных видов. Сборка A содержит шесть контигов длиной 80kbp, 70 кб, 50, 40, 30 и 20 кб. Суммарный размер сборки A составляет 290 kbp, длина контига N50 составляет 70 kbp, потому что 80 + 70 больше, чем 50% от 290, а количество контигов L50 составляет 2 контига. Длина контигов сборки B такая же, как и у сборки A, за исключением присутствия двух дополнительных контигов длиной 10 и 5 т.п. Размер сборки B составляет 305 кб, длина контига N50 падает до 50 кб, потому что 80 + 70 + 50 больше 50% от 305, а количество контигов L50 составляет 3 контига. Этот пример иллюстрирует, что иногда можно увеличить длину N50, просто удалив некоторые из самых коротких контигов или каркасов из сборки.

Если предполагаемый или известный размер генома вымышленного вида A составляет 500 кб, то NG50 Длина контига составляет 30 кб, потому что 80 + 70 + 50 + 40 + 30 больше, чем 50% от 500. Напротив, если предполагаемый или известный размер генома вида B составляет 350 кб, то он имеет длину контига NG50 50. kbp, потому что 80 + 70 + 50 больше 50% от 350.

Альтернативное вычисление

N50 можно найти математически для списка L положительных целых чисел следующим образом:

Создать еще один список L ' , что идентично L, за исключением того, что каждый элемент п в L был заменен на п копии самого себя.
Медиана L ' это N50 из L. (10% квантиль из L ' это N90 статистика.)

Например: если L = (2, 2, 2, 3, 3, 4, 8, 8), тогда L ' состоит из шести двоек, шести троек, четырех четверок и шестнадцати восьмерок. То есть, L ' имеет вдвое больше двоек, чем L; в нем в три раза больше троек, чем L; в нем в четыре раза больше четверок; и т.д. Медиана 32-элементного набора L ' - это среднее значение 16-го наименьшего элемента, 4, и 17-го наименьшего элемента, 8, поэтому N50 равно 6. Мы видим, что сумма всех значений в списке L которые меньше или равны N50 из 6 равно 16 = 2 + 2 + 2 + 3 + 3 + 4 и сумма всех значений в списке L которые больше или равны 6, также 16 = 8 + 8. Для сравнения с N50 из 6, обратите внимание, что среднее значение списка L равно 4, а медиана - 3. Чтобы резюмировать более наглядно, мы имеем:

Значения списка L = (2, 2, 2, 3, 3, 4, 8, 8)

Ценности нового списка L ' = (2 2 2 2 2 2 3 3 3 3 3 3 4 4 4 4 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8)

Ранги L ' значения = 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

Смотрите также

Индекс Херфиндаля – Хиршмана

[Castro2017-1] а ^б Кастро, Кристина Дж .; Нг, Терри Фей Фан (ноябрь 2017 г.). «U50: новая метрика для измерения выходных данных сборки на основе неперекрывающихся целевых контигов». Журнал вычислительной биологии. 24 (11): 1071–1080. Дои:10.1089 / cmb.2017.0013. ЧВК 5783553. PMID 28418726.

[2] Han, J .; Sanders, C.M .; Wang, C .; Ян, Q .; Wimbish, J .; Boone, B.E .; Thomas, S.J .; Леви, С. (25 сентября 2012 г.). Измерение разнообразия репертуара Т-клеток в периферической крови с помощью новых методов мультиплексной ПЦР и высокоэффективных методов секвенирования. MipTec. Базель, Швейцария. Архивировано из оригинал 5 октября 2015 г.. Получено 5 октября 2015.

[1]

[2]