Количественная сравнительная лингвистика - Quantitative comparative linguistics - Wikipedia

Количественная сравнительная лингвистика это использование количественный анализ применительно к сравнительное языкознание.

История

Статистические методы использовались с целью количественного анализа в сравнительное языкознание уже более века. В 1950-е гг. Список Сводеша появился: стандартизированный набор лексические понятия встречаются в большинстве языков в виде слов или фраз, которые позволяют эмпирически сравнивать и противопоставлять два или более языков.

Вероятно, первое опубликованное количественное исследование по исторической лингвистике было опубликовано Сапиром в 1916 году.[1] а Крёбер и Кретьен в 1937 г. [2] исследовал девять индоевропейских (IE) языков с использованием 74 морфологических и фонологических признаков (расширенных в 1939 г. за счет включения хеттского). Росс [3] в 1950 г. провел исследование теоретической основы таких исследований. Сводеш, используя списки слов, разработал лексикостатистика и глоттохронология в серии статей [4] опубликованы в начале 1950-х годов, но эти методы широко критиковались [5] хотя некоторые из критических замечаний были сочтены другими учеными как необоснованные. Эмблтон опубликовал книгу «Статистика в исторической лингвистике» в 1986 году, в которой был дан обзор предыдущей работы и расширен глоттохронологический метод. Дайен, Краскал и Блэк в 1992 году провели исследование лексикостатистического метода в большой базе данных IE.[6]

В 90-е годы интерес к этой теме возобновился благодаря применению методов вычислительная филогенетика и кладистика. Такие проекты часто предполагали сотрудничество ученых-лингвистов и коллег, специализирующихся в информационная наука и / или биологическая антропология. Эти проекты часто стремились достичь оптимального филогенетическое дерево (или сеть), чтобы представить гипотезу об эволюционном происхождении и, возможно, его языковых контактах. Пионерами этих методов были основатели CPHL: вычислительная филогенетика в исторической лингвистике (проект CPHL): Дональд Ринге, Тэнди Варнов, Луай Наклех и Стивен Н. Эванс.

В середине 1990-х группа из Пенсильванского университета компьютеризировала сравнительный метод и использовала другую базу данных IE с 20 древними языками.[7] Затем в области биологии было разработано несколько программ, которые могли найти применение в исторической лингвистике. В частности, группа в университете Окленда разработал метод, который дал спорное старые даты для IE языков.[8] В августе 1999 г. была проведена конференция "Глубина времени в исторической лингвистике", на которой обсуждались многие применения количественных методов.[9] Впоследствии было опубликовано множество статей об исследованиях различных языковых групп, а также о сравнении методов.

Повышенное внимание СМИ было привлечено в 2003 году после публикации антропологами. Рассел Грей и Квентин Аткинсон краткого исследования по Индоевропейские языки в Природа. Грей и Аткинсон попытались количественно оценить в вероятностном смысле возраст и родство современных индоевропейских языков, а иногда и предшествующих протоязыков.

Труды влиятельной конференции 2004 г., Филогенетические методы и предыстория языков были опубликованы в 2006 году под редакцией Питер Форстер и Колин Ренфрю.

Изучаемые языковые семьи

Вычислительная филогенетика Были проведены анализы:

Фон

Стандартным методом оценки языковых отношений был сравнительный метод. Однако у этого есть ряд ограничений. Не весь лингвистический материал подходит в качестве входных данных, и существуют проблемы с языковыми уровнями, на которых работает метод. Реконструированные языки идеализированы, и разные ученые могут дать разные результаты. Языковые генеалогические деревья часто используются в сочетании с методом, и «заимствования» должны быть исключены из данных, что затруднительно, если заимствование происходит внутри семьи. Часто утверждают, что метод ограничен по времени, в течение которого он может работать. Метод сложен в применении и не существует независимого теста.[28] Таким образом, были найдены альтернативные методы, которые имеют формализованный метод, количественно определяют взаимосвязи и могут быть протестированы.

Целью сравнительно-исторической лингвистики является выявление случаев генетического родства языков.[29] Шаги в количественном анализе: (i) разработать процедуру, основанную на теоретических основаниях, на конкретной модели или прошлом опыте, и т. Д. (Ii) для проверки процедуры, применяя ее к некоторым данным, где существует большой объем лингвистических данных. заключение для сравнения (это может привести к пересмотру процедуры этапа (i) или в крайнем случае к его полному отказу) (iii) применение процедуры к данным, по которым лингвистические заключения еще не были представлены, еще не были окончательно установлены или, возможно, даже находятся в конфликте.[30]

Применение филогенетических методов к языкам - это многоэтапный процесс: (а) этап кодирования - переход от реальных языков к некоторому выражению отношений между ними в форме числовых данных или данных состояния, чтобы эти данные затем можно было использовать в качестве входных к филогенетическим методам (б) стадия представления - применение филогенетических методов для извлечения из этих числовых и / или констатирующих данных сигнала, который преобразуется в некоторую полезную форму представления, обычно двухмерную графическую, такую ​​как деревья или сети, которые синтезируют и " свернуть "то, что часто является очень сложными многомерными отношениями в сигнале (c) на этапе интерпретации - оценка этих древовидных и сетевых представлений, чтобы извлечь из них то, что они на самом деле означают для реальных языков и их отношений во времени.[31]

Типы деревьев и сетей

Результатом количественного историко-лингвистического анализа обычно является дерево или сетевая диаграмма. Это позволяет сводную визуализацию выходных данных, но это не полный результат. Дерево - это связаны ациклический граф, состоящий из набора вершин (также известных как «узлы») и набора ребер («ветвей»), каждое из которых соединяет пару вершин.[32] Внутренний узел представляет лингвистического предка в филогенном дереве или сети. Каждый язык представлен путем, который показывает различные состояния по мере его развития. Между каждой парой вершин есть только один путь. Некорневые деревья отображают взаимосвязь между входными данными без предположений об их происхождении. Укоренившееся дерево явно идентифицирует общего предка, часто путем указания направления эволюции или включения «внешней группы», которая, как известно, только отдаленно связана с набором классифицируемых языков. Большинство деревьев бинарны, то есть у родителя есть двое детей. Дерево всегда можно создать, даже если это не всегда уместно. Другой вид дерева основан только на языковых сходствах / различиях. В этом случае внутренние узлы графа не представляют предков, а вводятся для представления конфликта между различными разбиениями («двудольными») при анализе данных. «Фенетическое расстояние» - это сумма весов (часто представленных как длины) на пути между языками. Иногда делается дополнительное предположение, что эти внутренние узлы действительно представляют предков.

Когда языки сходятся, обычно с заимствованием слов («заимствование»), более подходящей является сетевая модель. Появятся дополнительные края, отражающие двойное происхождение языка. Эти края будут двунаправленными, если оба языка заимствуют друг у друга. Таким образом, дерево представляет собой простую сеть, однако существует множество других типов сетей. Филогенетическая сеть - это сеть, в которой таксоны представлены узлами, а их эволюционные отношения представлены ветвями.[33] Другой тип основан на расщеплении и представляет собой комбинаторное обобщение дерева расщепления. Данный набор разбиений может иметь более одного представления, поэтому внутренние узлы могут не быть предками и являются лишь «неявным» представлением эволюционной истории в отличие от «явного» представления филогенетических сетей. В разветвленной сети френетическая дистанция - это кратчайший путь между двумя языками. Еще один тип - это ретикулярная сеть, которая демонстрирует несовместимость (например, из-за контакта), поскольку ретикулярные сети и ее внутренние узлы действительно представляют предков. Сеть также может быть построена путем добавления к дереву контактных ребер. Последний основной тип - это консенсусная сеть, сформированная из деревьев. Эти деревья могут быть результатом бутстрап-анализа или выборок из апостериорного распределения.

Изменение языка

Изменения в языках происходят постоянно, но обычно не с постоянной скоростью,[34] с его совокупным эффектом, приводящим к разделению на диалекты, языки и языковые семьи. Обычно считается, что морфология изменяется медленнее, а фонология - быстрее всего. По мере того, как происходят изменения, остается все меньше и меньше свидетельств оригинального языка. Наконец, может быть потеря каких-либо доказательств родства. Изменения одного типа могут не влиять на другие типы, например, изменения звука не влияют на когнитивные способности. В отличие от биологии, нельзя предполагать, что все языки имеют общее происхождение, и необходимо установить родство. При моделировании для простоты часто предполагается, что символы меняются независимо, но это может быть не так. Помимо заимствований, возможны семантические сдвиги и полиморфизм.

Вход для анализа

Данные

Анализ может проводиться на «символах» языков или на «дистанциях» языков. В первом случае входные данные для классификации языков обычно принимают форму матрицы данных, где строки соответствуют различным анализируемым языкам, а столбцы соответствуют различным характеристикам или символам, с помощью которых может быть описан каждый язык. Эти признаки бывают двух типов, родственных или типологических данных. Персонажи могут принимать одну или несколько форм (гомоплазия) и могут быть лексическими, морфологическими или фонологическими. Родственные слова - это морфемы (лексические или грамматические) или более крупные конструкции. Типологические символы могут происходить из любой части грамматики или лексики. Если в данных есть пробелы, их необходимо закодировать.

В дополнение к исходной базе данных (неотобранных) во многих исследованиях подмножества формируются для определенных целей (проверенные данные).

В лексикостатистике признаками являются значения слов или, скорее, смысловые слоты. Таким образом, элементы матрицы представляют собой серию примечаний. По первоначальному замыслу Сводеша, нужно было выбрать наиболее распространенное слово для обозначения слота, что может быть трудным и субъективным из-за семантического сдвига. Более поздние методы могут позволить включить более одного значения.

Ограничения

Некоторые методы позволяют накладывать ограничения на географию языковых контактов (изоляцию по расстоянию) и время разделения подгрупп.

Базы данных

Изначально Сводеш опубликовал список из 200 слов, но позже переработал его до 100 слов.[35] Обычно используемой базой данных IE является база данных Dyen, Kruskal и Black, которая содержит данные для 95 языков, хотя известно, что в оригинале есть несколько ошибок. Помимо исходных данных, он также содержит суждения о когнитивности. Это доступно в Интернете.[36] База данных Ringe, Warnow и Taylor содержит информацию о 24 языках IE с 22 фонологическими символами, 15 морфологическими символами и 333 лексическими символами. Грей и Аткинсон использовали базу данных из 87 языков с 2449 лексическими элементами, основанную на наборе Дайен с добавлением трех древних языков. Они включали в себя суждения ряда ученых в области когнитивности. Другие базы данных были составлены, в частности, для африканских, австралийских и андских языковых семей.

Кодирование данных может быть в двоичной форме или в форме с несколькими состояниями. Первый часто используется, но действительно приводит к предвзятости. Было заявлено, что существует постоянный масштабный коэффициент между двумя методами кодирования, и что на это можно сделать поправку. Однако другое исследование предполагает, что топология может измениться. [37]

Списки слов

Слоты для слов выбраны максимально свободными от культурных особенностей и заимствований. Оригинал Списки Сводеша наиболее часто используются, но многие другие были разработаны для определенных целей. Часто они короче, чем предпочитаемый Сводешем список из 100 пунктов. Кесслер написал книгу «Значение списков слов. [38] в то время как МакМахон и МакМахон проводили исследования эффектов реконструируемости и сохраняемости.[28] Эффект увеличения количества слотов был изучен, и был найден закон убывающей отдачи, причем около 80 было признано удовлетворительным.[39] Однако в некоторых исследованиях использовалось менее половины этого числа.

Обычно каждый родственный набор представлен как отдельный символ, но различия между словами также можно измерить как измерение расстояния по звуковым изменениям. Расстояния также можно измерять по буквам.

Морфологические особенности

Традиционно они считались более важными, чем лексические, поэтому некоторые исследования придают дополнительный вес этому типу символов. Такие функции были включены, например, в базу данных Ringe, Warnow и Taylor IE. Однако в других исследованиях они не учитывались.

Типологические особенности

Примеры этих функций включают глоттализованные константы, тональные системы, винительный падеж в существительных, двойное число, соответствие числа падежей, порядок объект-глагол и местоимения первого лица единственного числа. Они будут перечислены в базе данных WALS, хотя для многих языков она пока еще не заполнена.[40]

Вероятностные модели

Некоторые методы анализа включают статистическую модель эволюции языка и используют свойства модели для оценки истории эволюции. Статистические модели также используются для моделирования данных в целях тестирования. Стохастический процесс можно использовать для описания эволюции набора символов в языке. Вероятность смены персонажа может зависеть от ветви, но не все чартеры развиваются вместе, и скорость не одинакова для всех ветвей. Часто предполагается, что каждый персонаж развивается независимо, но это не всегда так. В рамках модели можно моделировать заимствование и параллельное развитие (гомоплазию), а также полиморфизмы.

Эффекты случая

Случайные сходства создают уровень шума, на основе которого должен быть найден требуемый сигнал родства. Исследование было проведено Ringe [41] в влияние случая на массовое сравнение метод. Это показало, что случайное сходство имеет решающее значение для метода и что выводы Гринберга не могут быть оправданы, хотя математическая процедура, использованная Римге, позже подверглась критике.

С небольшими базами данных ошибки выборки могут быть важны.

В некоторых случаях с большой базой данных и исчерпывающим поиском всех возможных деревьев или сетей невозможно из-за ограничений по времени выполнения. Таким образом, существует вероятность того, что оптимальное решение не будет найдено эвристическими методами поиска в пространстве решений.

Обнаружение заимствования

Заимствованные слова могут серьезно повлиять на топологию дерева, поэтому стараются исключить заимствования. Однако необнаруженные иногда все же существуют. МакМахон и МакМахон [42] показали, что около 5% заимствований могут повлиять на топологию, в то время как 10% имеют значительные эффекты. В сетях заимствования порождают ретикуляции. Минетт и Ван [43] рассмотрены способы автоматического определения заимствования.

Сплит знакомства

Датировку языковых разделений можно определить, если известно, как персонажи развиваются вдоль каждой ветви дерева. Самое простое предположение состоит в том, что все персонажи развиваются с одной постоянной скоростью со временем и что это не зависит от ветви дерева. Это было предположение, сделанное в глоттохронологии. Однако исследования вскоре показали, что между языками существуют различия, некоторые, вероятно, из-за наличия нераспознанных заимствований.[44] Лучший подход - разрешить изменение скорости, и обычно используется гамма-распределение из-за его математического удобства. Также были проведены исследования, которые показывают, что частота замены символов зависит от частоты использования.[45] Широко распространенное заимствование может искажать оценки времени расхождения, делая языки более похожими и, следовательно, более молодыми. Однако это также увеличивает длину ветви предка, так что корень остается неизменным.[46]

Этот аспект - самая противоречивая часть количественной сравнительной лингвистики.

Виды анализа

Необходимо понять, как работает метод классификации языков, чтобы определить его допущения и ограничения. Он может быть действителен только при определенных условиях или подходить для небольших баз данных. Методы различаются по требованиям к данным, сложности и времени выполнения. Методы также различаются по критериям оптимизации.

Модели на основе персонажей

Максимальная экономия и максимальная совместимость

Эти два метода похожи, но цель метода максимальной экономии - найти дерево (или сеть), в котором происходит минимальное количество эволюционных изменений. В некоторых реализациях персонажам могут быть присвоены веса, и тогда цель состоит в том, чтобы минимизировать общую взвешенную сумму изменений. Анализ производит деревья без корней, если не используется внешняя группа или управляемые символы. Для поиска лучшего дерева используются эвристические методы, но оптимизация не гарантируется. Метод часто реализуется с помощью программ PAUP или TNT.

Максимальная совместимость также использует символы с целью найти дерево, на котором максимальное количество символов развивается без гомоплазии. Опять же, символы могут быть взвешены, и когда это происходит, цель состоит в том, чтобы максимизировать сумму весов совместимых символов. Он также производит деревья без корней, если не включена дополнительная информация. Нет доступных эвристических методов, которые были бы точны для больших баз данных. Этот метод использовался только группой Ринге.[47]

В этих двух методах часто обнаруживается несколько деревьев с одинаковой оценкой, поэтому обычная практика - найти дерево консенсуса с помощью алгоритма. Консенсус большинства имеет двудольные более чем в половине входных деревьев, в то время как жадный консенсус добавляет двудольные к дереву большинства. Дерево строгого консенсуса является наименее разрешенным и содержит те расщепления, которые есть в каждом дереве.

Самостоятельная загрузка (стратегия статистической повторной выборки) используется для предоставления значений поддержки ветвей. Этот метод случайным образом выбирает символы из матрицы входных данных, а затем используется тот же анализ. Значение поддержки доля прогонов с этой двудольностью в наблюдаемом дереве. Однако начальная загрузка занимает очень много времени.

Максимальное правдоподобие и байесовский анализ

Оба эти метода используют явные модели эволюции. Метод максимального правдоподобия оптимизирует вероятность получения наблюдаемых данных, в то время как байесовский анализ оценивает вероятность каждого дерева и, таким образом, дает распределение вероятностей. Произойдет случайное блуждание по «пространству модель-дерево». И то, и другое требует неопределенного времени для запуска, и остановка может быть произвольной, поэтому решение является проблемой. Однако оба предоставляют информацию о поддержке для каждой ветви.

Предположения этих методов очевидны и поддаются проверке. При необходимости сложность модели может быть увеличена. Параметры модели оцениваются непосредственно на основе входных данных, поэтому можно избежать предположений о скорости эволюции.

Совершенные филогенетические сети

Этот метод создает явную филогенную сеть, имеющую лежащее в основе дерево с дополнительными контактными ребрами. Персонажи могут быть заимствованы, но развиваться без гомоплазии. Для создания таких сетей теоретико-графовый алгоритм [48] был использован.

Метод Грея и Аткинсона

Входные лексические данные кодируются в двоичной форме, по одному символу для каждого состояния исходного символа с несколькими состояниями. Метод допускает гомоплазию и ограничения на время разделения. Используется метод анализа, основанный на правдоподобии, с эволюцией, выраженной в виде матрицы скорости. Прибыль и убыток моделируются с помощью гамма-распределения, позволяющего изменять скорость и со сглаживанием скорости. Из-за огромного количества возможных деревьев на многих языках для поиска оптимального дерева используется байесовский вывод. А Цепь Маркова Алгоритм Монте-Карло [49] генерирует выборку деревьев в качестве приближения к апостериорному распределению вероятностей. Резюме этого распределения может быть представлено в виде жадного дерева консенсуса или сети со значениями поддержки. Метод также предоставляет оценки по датам.

Этот метод является точным, когда исходные символы являются двоичными и развиваются идентично и независимо друг от друга в рамках модели скоростей между сайтами с гамма-распределением скоростей; даты точны, если скорость изменения постоянна. Понимание производительности метода, когда исходные символы имеют несколько состояний, сложнее, поскольку двоичное кодирование создает символы, которые не являются независимыми, в то время как метод предполагает независимость.

Метод Николлса и Грея

Этот способ [50] является продуктом Грея и Аткинсона. Вместо двух параметров для символа этот метод использует три. Уточняются рождаемость, смертность родственника и его заемность. Коэффициент рождаемости - это случайная величина Пуассона с единственным рождением родственного класса, но разрешены отдельные смерти ветвей (экономия Долло). Метод не допускает гомоплазию, но допускает полиморфизм и ограничения. Его основная проблема заключается в том, что он не может обрабатывать отсутствующие данные (с тех пор эта проблема была решена Райдером и Николлсом.[51] Статистические методы используются для подгонки модели к данным. Может быть включена предварительная информация, и MCMC проведет исследование возможных реконструкций. Этот метод был применен к базе данных Грея и Николая и, похоже, дает аналогичные результаты.

Модели на основе расстояния

Они используют треугольную матрицу попарных сравнений языков. Матрица входных символов используется для вычисления матрицы расстояний либо с помощью Расстояние Хэмминга или Расстояние Левенштейна. Первый измеряет долю совпадающих символов, а второй позволяет включать затраты на различные возможные преобразования. Эти методы быстры по сравнению с методами, полностью основанными на символах. Однако эти методы действительно приводят к потере информации.

UPGMA

«Невзвешенный метод попарных групп со средним арифметическим» (UPGMA ) - это метод кластеризации, который работает путем многократного объединения двух языков, между которыми существует наименьшее расстояние. Он работает точно, как часы, но в противном случае может быть ошибочным. Это метод, использованный в оригинальной лексикостатистике Сводеша.

Разбиение на части

Это метод разделения данных на естественные группы.[52] Данные могут быть символами, но чаще это меры расстояния. Количество символов или расстояния используются для генерации разделений и вычисления весов (длин ветвей) для разделений. Затем взвешенные расщепления представляются в виде дерева или сети на основе минимизации количества изменений между каждой парой таксонов. Существуют быстрые алгоритмы генерации коллекции разбиений. Веса определяются в зависимости от расстояний от таксона до таксона. Разложение на разделение эффективно, когда количество таксонов невелико или когда сигнал не слишком сложен.

Присоединение к соседу

Этот метод работает с данными о расстоянии, вычисляет преобразование входной матрицы, а затем вычисляет минимальное расстояние между парами языков.[53] Он работает правильно, даже если языки не развиваются вместе с лексическими часами. Также может использоваться взвешенная версия метода. Метод создает дерево вывода. Считается, что это наиболее близкий к ручным методам построения деревьев метод.

Соседняя сеть

Он использует алгоритм, аналогичный соединению соседей.[54] В отличие от Split Decomposition, он не объединяет узлы немедленно, а ждет, пока узел не будет соединен во второй раз. Затем узлы дерева заменяются двумя, а матрица расстояний сокращается. Он может обрабатывать большие и сложные наборы данных. Однако на выходе получается фенограмма, а не филограмма. Это самый популярный сетевой метод.

Сеть

Это был ранний сетевой метод, который использовался для некоторого языкового анализа. Первоначально он был разработан для генетических последовательностей с более чем одним возможным происхождением.[55] Сеть сворачивает альтернативные деревья в единую сеть. Если имеется несколько историй, рисуется сетка (прямоугольная форма). Он генерирует список символов, несовместимых с деревом.

ASP

При этом используется формализм декларативного представления знаний и методы программирования набора ответов.[56] Одним из таких решателей является CMODELS, который можно использовать для небольших проблем, но для более крупных требуется эвристика. Для определения информативных символов используется предварительная обработка. CMODELS превращает их в теорию высказываний, которая использует решатель SAT для вычисления моделей этой теории.

Fitch / Kitch

Fitch и Kitch - это программы PHYLIP, основанные на максимальном правдоподобии, которые позволяют изменять порядок дерева после каждого добавления, в отличие от Нью-Джерси. Kitch отличается от Fitch тем, что предполагает постоянную скорость изменения во всем дереве, в то время как Fitch допускает разные ставки для каждой ветви.[57]

Метод уровня разделения

Холм представил метод в 2000 году для решения некоторых известных проблем лексикостатистического анализа. Это «ловушка симплезиоморфии», в которой общие архаизмы трудно отличить от общих инноваций, и «ловушка соразмерности», когда более поздние изменения могут затмить ранние. Позже он представил усовершенствованный метод, названный SLD, для учета переменной распределение слов по языкам.[58] Метод не предполагает постоянной скорости изменения.

Методы быстрой сходимости

Ряд методов быстрого сходящегося анализа был разработан для использования с большими базами данных (> 200 языков). Одним из них является метод покрытия диска (DCM).[59] Это было объединено с существующими методами для повышения производительности. Статья о методе DCM-NJ + MP приведена теми же авторами в «Эффективности филогенетических методов на деревьях ограниченного диаметра», где он сравнивается с методом NJ.

Модели на основе сходства

Эти модели сравнивают буквы слов, а не их фонетику. Данн и другие. [60] изучил 125 типологических знаков на 16 австронезийских и 15 папуасских языках. Они сравнили свои результаты с деревом MP и деревом, построенным традиционным анализом. Достоверных различий не обнаружено. Точно так же Вихман и Сондерс [61] использовал 96 символов для изучения 63 американских языков.

Компьютеризированное массовое сравнение

Метод, который был предложен для первоначальной проверки набора языков, чтобы увидеть, связаны ли они, был массовое сравнение. Однако это было подвергнуто серьезной критике и вышло из употребления. Недавно Кесслер воскресил компьютеризированную версию метода, но с использованием тщательной проверки гипотез.[62] Цель состоит в том, чтобы использовать сходство более чем на двух языках одновременно. В другой статье [63] оцениваются различные критерии сравнения списков слов. Было обнаружено, что семьи IE и уральские могут быть реконструированы, но не было доказательств существования совместной суперсемьи.

Никола метод

В этом методе используются устойчивые лексические поля, такие как глаголы положения, чтобы попытаться установить отношения на расстоянии.[64] При поиске древних родственных слов учитываются конвергенция и семантические сдвиги. Обрисована модель и представлены результаты пилотного исследования.

ASJP

В Программа автоматической оценки сходства (ASJP) похож на лексикостатистика, но оценка сходства выполняется компьютерной программой, следуя последовательному набору правил.[65] Деревья генерируются стандартными филогенетическими методами. ASJP использует 7 символов гласных и 34 символа согласных. Также существуют различные модификаторы. Два слова считаются похожими, если как минимум два последовательных согласных в соответствующих словах идентичны, при этом также учитываются гласные. Доля слов с одинаковым значением, признанных похожими для пары языков, представляет собой процент лексического сходства (LSP). Также рассчитывается процент фонологического сходства (PSP). Затем PSP вычитается из LSP, что дает вычитаемый процент подобия (SSP), а расстояние ASJP составляет 100-SSP. В настоящее время в базе данных ASJP есть данные о более чем 4500 языках и диалектах.[66] из которого было создано дерево языков мира.[67]

Метод Сервы и Петрони

Это измеряет орфографическое расстояние между словами, чтобы избежать субъективности суждений о когнитивности.[68] Он определяет минимальное количество операций, необходимых для преобразования одного слова в другое, нормированное на длину более длинного слова. Дерево строится из данных о расстоянии методом UPGMA.

Методы фонетической оценки

Хеггарти предложил способ измерения степени различия между родственниками, а не просто ответы «да / нет».[69] Это основано на изучении многих (> 30) особенностей фонетики глосс по сравнению с протоязыком. Это может потребовать большого объема работы, но Хеггарти утверждает, что необходима только репрезентативная выборка звуков. Он также исследовал скорость изменения фонетики и обнаружил большое изменение скорости, так что оно не подходило для глоттохронологии. Подобная оценка фонетики ранее была проведена Граймсом и Агардом для романских языков, но при этом использовалось только шесть точек сравнения.[70]

Оценка методов

Метрики

Для измерения сходства / различия двух деревьев доступны стандартные математические методы. Для деревьев консенсуса индекс согласованности (CI) является мерой гомоплазии. Для одного символа это отношение минимально возможного количества шагов на любом одном дереве (= 1 для двоичных деревьев), деленное на количество реконструированных шагов на дереве. CI дерева - это сумма CI символов, деленная на количество символов.[71] Он представляет собой пропорцию правильно назначенных паттернов.

Индекс удержания (RI) измеряет степень сходства персонажа. Это отношение (г - с) / (г - м), где грамм - наибольшее количество шагов персонажа на любом дереве, м - минимальное количество шагов на любом дереве, и s - минимальные шаги на конкретном дереве. Существует также измененный CI, который является продуктом CI и RI.

Для бинарных деревьев стандартным способом сравнения их топологии является использование Метрика Робинсона-Фулдса.[72] Это расстояние представляет собой среднее значение количества ложных срабатываний и ложных отрицаний с точки зрения возникновения ветвей. Коэффициенты R-F выше 10% считаются плохими совпадениями. Для других видов деревьев и сетей стандартного метода сравнения пока нет.

Списки несовместимых символов создаются некоторыми методами построения дерева. Они могут быть чрезвычайно полезны при анализе вывода. При использовании эвристических методов повторяемость является проблемой. Однако для решения этой проблемы используются стандартные математические методы.

Сравнение с предыдущими анализами

Для оценки методов выбрана хорошо понятная семья языков с надежным набором данных. Часто это семейство IE, но использовались и другие. После применения методов для сравнения с базой данных полученные деревья сравниваются с эталонным деревом, определенным традиционными лингвистическими методами. Цель состоит в том, чтобы не было конфликтов в топологии, например, не было пропущенных подгрупп и совместимых дат. Семьи, предложенные для этого анализа Николсом и Варновым [73] are Germanic, Romance, Slavic, Common Turkic, Chinese, and Mixe Zoque as well as older groups such as Oceanic and IE.

Use of simulations

Although the use of real languages does add realism and provides real problems, the above method of validation suffers from the fact that the true evolution of the languages is unknown. By generating a set of data from a simulated evolution correct tree is known. However it will be a simplified version of reality. Thus both evaluation techniques should be used.

Анализ чувствительности

To assess the robustness of a solution it is desirable to vary the input data and constraints, and observe the output. Each variable is changed slightly in turn. This analysis has been carried out in a number of cases and the methods found to be robust, for example by Atkinson and Gray.[74]

Studies comparing methods

During the early 1990s, linguist Donald Ringe, with computer scientists Luay Nakhleh и Тэнди Варнов, статистик Steven N. Evans and others, began collaborating on research in quantitative comparative linguistic projects. They later founded the CHPL project, the goals of which include: "producing and maintaining real linguistic datasets, in particular of Indo-European languages", "formulating statistical models that capture the evolution of historical linguistic data", "designing simulation tools and accuracy measures for generating synthetic data for studying the performance of reconstruction methods", and "developing and implementing statistically-based as well as combinatorial methods for reconstructing language phylogenies, including phylogenetic networks".[75]

A comparison of coding methods was carried out by Rexova и другие. (2003).[76] They created a reduced data set from the Dyen database but with the addition of Hittite. They produced a standard multistate matrix where the 141 character states corresponds to individual cognate classes, allowing polymorphism. They also joined some cognate classes, to reduce subjectivity and polymorphic states were not allowed. Lastly they produced a binary matrix where each class of words was treated as a separate character. The matrices were analysed by PAUP. It was found that using the binary matrix produced changes near the root of the tree.

McMahon and McMahon (2003) used three PHYLIP programs (NJ, Fitch and Kitch) on the DKB dataset.[77] They found that the results produced were very similar. Bootstrapping was used to test the robustness of any part of the tree. Later they used subsets of the data to assess its retentiveness and reconstructability.[42] The outputs showed topological differences which were attributed to borrowing. They then also used Network, Split Decomposition, Neighbor-net and Splitstree on several data sets. Significant differences were found between the latter two methods. Neighbor-net was considered optimal for discerning language contact.

In 2005, Nakhleh, Warnow, Ringe and Evans carried out a comparison of six analysis methods using an Indo-European database.[78] The methods compared were UPGMA, NJ MP, MC, WMC and GA. The PAUP software package was used for UPGMA, NJ, and MC as well as computing the majority consensus trees. The RWT database was used but 40 characters were removed due to evidence of polymorphism. Then a screened database was produced excluding all characters that clearly exhibited parallel development, so eliminating 38 features. The trees were evaluated on the basis of the number of incompatible characters and on agreement with established sub-grouping results. They found that UPGMA was clearly worst but there was not a lot of difference between the other methods. The results depended on the data set used. It was found that weighting the characters was important, which requires linguistic judgement.

Saunders (2005) [79] compared NJ, MP, GA and Neighbor-Net on a combination of lexical and typological data. He recommended use of the GA method but Nichols and Warnow have some concerns about the study methodology.[80]

Cysouw и другие. (2006) [81] compared Holm's original method with NJ, Fitch, MP and SD. They found Holm's method to be less accurate than the others.

In 2013, François Barbancon, Warnow, Evans, Ringe and Nakleh (2013) studied various tree reconstruction methods using simulated data.[82] Their simulated data varied in the number of contact edges, the degree of homoplasy, the deviation from a lexical clock, and the deviation from the rates-across-sites assumption. It was found that the accuracy of the unweighted methods (MP, NJ, UPGMA, and GA) were consistent in all the conditions studied, with MP being the best. The accuracy of the two weighted methods (WMC and WMP) depended on the appropriateness of the weighting scheme. With low homoplasy the weighted methods generally produced the more accurate results but inappropriate weighting could make these worse than MP or GA under moderate or high homoplasy levels.

Choosing the best model

Choice of an appropriate model is critical for the production of good phylogenetic analyses. Both underparameterised or overly restrictive models may produce aberrant behaviour when their underlying assumptions are violated, while overly complex or overparameterised models require long run times and their parameters may be overfit.[83] The most common method of model selection is the "Likelihood Ratio Test" which produces an estimate of the fit between the model and the data, but as an alternative the Akaike Information Criterion or the Bayesian Information Criterion can be used. Model selection computer programs are available.

Смотрите также

Примечания

  1. ^ Сапир, Эдвард (1916). "Time Perspective in Aboriginal American Culture: A Study in Method". Geological Survey Memoir 90, No. 13. Anthropological Series. Оттава: Государственное бюро печати.
  2. ^ Kroeber, A. L.; Chrétien, C. D. (1937). "Quantitative Classification of Indo-European Languages". Язык. 13 (2): 83–103. Дои:10.2307/408715. JSTOR  408715.
  3. ^ Ross, Alan S. C. (1950). "Philological Probability Problems". Журнал Королевского статистического общества. Series B (Methodological). 12 (1): 19–59. Дои:10.1111/j.2517-6161.1950.tb00040.x. JSTOR  2983831.
  4. ^ Swadesh, Morris (1952). "Lexico-Statistic Dating of Prehistoric Ethnic Contacts: With Special Reference to North American Indians and Eskimos". Труды Американского философского общества. 96 (4): 452–463. JSTOR  3143802.
  5. ^ Bergsland, Knut; Vogt, Hans (1962). "On the Validity of Glottochronology". Современная антропология. 3 (2): 115–153. Дои:10.1086/200264. JSTOR  2739527. S2CID  144236043.
  6. ^ Дайен, Исидор; Kruskal, Joseph B.; Black, Paul (1992). "An Indoeuropean Classification: A Lexicostatistical Experiment". Труды Американского философского общества. 82 (5): iii–132. Дои:10.2307/1006517. JSTOR  1006517.
  7. ^ Ringe, Don; Warnow, Tandy; Taylor, Ann (2002). "Indo‐European and Computational Cladistics". Труды Филологического общества. 100: 59–129. Дои:10.1111/1467-968X.00091.
  8. ^ Initially announced in Грей, Рассел Д.; Аткинсон, Квентин Д. (2003). "Language-tree divergence times support the Anatolian theory of Indo-European origin". Природа. 426 (6965): 435–439. Bibcode:2003Натура 426..435Г. Дои:10.1038 / природа02029. PMID  14647380. S2CID  42340.
  9. ^ Published by Renfrew, McMahon and Trask in 2000
  10. ^ Bouckaert, R.; Lemey, P.; Dunn, M .; Greenhill, S. J.; Alekseyenko, A. V.; Drummond, A. J.; Gray, R.D .; Suchard, M. A .; Atkinson, Q. D. (2012). «Картографирование истоков и распространения индоевропейской языковой семьи». Наука. 337 (6097): 957–960. Bibcode:2012Sci ... 337..957B. Дои:10.1126 / science.1219669. ЧВК  4112997. PMID  22923579.
  11. ^ Honkola, T.; Vesakoski, O.; Korhonen, K.; Lehtinen, J.; Syrjänen, K.; Wahlberg, N. (2013). "Cultural and climatic changes shape the evolutionary history of the Uralic languages". Журнал эволюционной биологии. 26 (6): 1244–1253. Дои:10.1111/jeb.12107. PMID  23675756. S2CID  7966025.
  12. ^ Hruschka, Daniel J.; Branford, Simon; Smith, Eric D.; Wilkins, Jon; Meade, Andrew; Pagel, Mark; Bhattacharya, Tanmoy (2015). "Detecting Regular Sound Changes in Linguistics as Events of Concerted Evolution". Текущая биология. 25 (1): 1–9. Дои:10.1016/j.cub.2014.10.064. ЧВК  4291143. PMID  25532895.
  13. ^ Kolipakam, Vishnupriya; Jordan, Fiona M .; Dunn, Michael; Гринхилл, Саймон Дж .; Bouckaert, Remco; Грей, Рассел Д.; Verkerk, Annemarie (2018). "A Bayesian phylogenetic study of the Dravidian language family". Королевское общество открытой науки. 5 (3): 171504. Bibcode:2018RSOS....571504K. Дои:10.1098/rsos.171504. ЧВК  5882685. PMID  29657761.
  14. ^ Sidwell, Paul. 2015 г. A comprehensive phylogenetic analysis of the Austroasiatic languages. Presented at Diversity Linguistics: Retrospect and Prospect, 1–3 May 2015 (Leipzig, Germany), Closing conference of the Department of Linguistics at the Max Planck Institute for Evolutionary Anthropology.
  15. ^ Gray, R.D .; Drummond, A. J.; Greenhill, S. J. (2009). "Language Phylogenies Reveal Expansion Pulses and Pauses in Pacific Settlement". Наука. 323 (5913): 479–483. Bibcode:2009Sci...323..479G. Дои:10.1126/science.1166858. PMID  19164742. S2CID  29838345.
  16. ^ Bowern, Claire and Atkinson, Quentin, 2012. Computational Phylogenetics and the Internal Structure of Pama-Nyungan. Язык, Vol. 88, 817-845.
  17. ^ Bouckaert, Remco R .; Бауэрн, Клэр; Аткинсон, Квентин Д. (2018). «Происхождение и распространение пама-ньюнганских языков в Австралии». Природа, экология и эволюция. 2 (4): 741–749. Дои:10.1038 / s41559-018-0489-3. PMID  29531347. S2CID  4208351.
  18. ^ Карри, Томас Э .; Meade, Andrew; Guillon, Myrtille; Mace, Ruth (2013). "Cultural phylogeography of the Bantu Languages of sub-Saharan Africa". Труды Королевского общества B: биологические науки. 280 (1762): 20130695. Дои:10.1098/rspb.2013.0695. ЧВК  3673054. PMID  23658203.
  19. ^ Grollemund, Rebecca; Branford, Simon; Bostoen, Koen; Meade, Andrew; Venditti, Chris; Pagel, Mark (2015). "Bantu expansion shows that habitat alters the route and pace of human dispersals". Труды Национальной академии наук. 112 (43): 13296–13301. Bibcode:2015PNAS..11213296G. Дои:10.1073/pnas.1503793112. ЧВК  4629331. PMID  26371302.
  20. ^ Кухня, Андрей; Эрет, Кристофер; Ассефа, Шифероу; Mulligan, Connie J. (2009). "Bayesian phylogenetic analysis of Semitic languages identifies an Early Bronze Age origin of Semitic in the Near East". Труды Королевского общества B: биологические науки. 276 (1668): 2703–2710. Дои:10.1098/rspb.2009.0408. ЧВК  2839953. PMID  19403539.
  21. ^ Sicoli, Mark A.; Holton, Gary (2014). "Linguistic Phylogenies Support Back-Migration from Beringia to Asia". PLOS ONE. 9 (3): e91722. Bibcode:2014PLoSO...991722S. Дои:10.1371/journal.pone.0091722. ЧВК  3951421. PMID  24621925.
  22. ^ Wheeler, Ward C.; Whiteley, Peter M. (2015). "Historical linguistics as a sequence optimization problem: The evolution and biogeography of Uto-Aztecan languages" (PDF). Кладистика. 31 (2): 113–125. Дои:10.1111/cla.12078. S2CID  86030904.
  23. ^ Atkinson, Q. D. (2006). From Species to Languages – a phylogenetic approach to human history. PhD thesis, University of Auckland, Auckland.
  24. ^ Walker, Robert S.; Ribeiro, Lincoln A. (2011). "Bayesian phylogeography of the Arawak expansion in lowland South America". Труды Королевского общества B: биологические науки. 278 (1718): 2562–2567. Дои:10.1098/rspb.2010.2579. ЧВК  3136831. PMID  21247954.
  25. ^ Michael, Lev, Natalia Chousou-Polydouri, Keith Bartolomei, Erin Donnelly, Vivian Wauters, Sérgio Meira, Zachary O'Hagan. 2015 г. A Bayesian Phylogenetic Classification of Tupí-Guaraní. LIAMES 15(2):193-221.
  26. ^ Zhang, Menghan; Ян, Ши; Pan, Wuyun; Jin, Li (2019). "Phylogenetic evidence for Sino-Tibetan origin in northern China in the Late Neolithic". Природа. 569 (7754): 112–115. Bibcode:2019Natur.569..112Z. Дои:10.1038/s41586-019-1153-z. PMID  31019300. S2CID  129946000.
  27. ^ Sagart, Laurent; Jacques, Guillaume; Lai, Yunfan; Ryder, Robin; Thouzeau, Valentin; Гринхилл, Саймон Дж .; List, Johann-Mattis (2019). "Dated language phylogenies shed light on the ancestry of Sino-Tibetan". Труды Национальной академии наук Соединенных Штатов Америки. 116 (21): 10317–10322. Дои:10.1073/pnas.1817972116. ЧВК  6534992. PMID  31061123.
  28. ^ а б McMahon, April M. S.; McMahon, Robert (2005). Language Classification by Numbers. ISBN  978-0199279029.
  29. ^ Harrison, S. P. (2003). "On the Limits of the Comparative Method". In Brian D. Joseph; Richard D. Janda (eds.). The Handbook of Historical Linguistics. Блэквелл Паблишинг. pp. 213–243. Дои:10.1002/9781405166201.ch2. ISBN  9781405166201.
  30. ^ Embleton, Sheila M (1986). Statistics in Historical Linguistics. Brockmeyer. ISBN  9783883395371.
  31. ^ Heggarty, Paul (2006). "Interdiscipline Indiscipline" (PDF). In Peter Forster; Colin Renfrew (eds.). Филогенетические методы и предыстория языков. McDonald Institute Monographs. McDonald Institute for Archaeological Research.
  32. ^ Nichols, Johanna; Warnow, Tandy (2008). "Tutorial on Computational Linguistic Phylogeny". Язык и лингвистический компас. 2 (5): 760–820. Дои:10.1111/j.1749-818X.2008.00082.x.
  33. ^ Huson, Daniel H .; Bryant, David (2006). "Application of Phylogenetic Networks in Evolutionary Studies". Молекулярная биология и эволюция. 23 (2): 254–267. Дои:10.1093/molbev/msj030. PMID  16221896.
  34. ^ Аткинсон, К. Д.; Meade, A.; Venditti, C.; Greenhill, S. J.; Pagel, M. (2008). "Languages Evolve in Punctuational Bursts". Наука. 319 (5863): 588. Дои:10.1126/science.1149683. PMID  18239118. S2CID  29740420.
  35. ^ Swadesh, Morris (1955). "Towards Greater Accuracy in Lexicostatistic Dating". Международный журнал американской лингвистики. 21 (2): 121–137. Дои:10.1086/464321. JSTOR  1263939. S2CID  144581963.
  36. ^ В http://www.idc.upenn.edu[постоянная мертвая ссылка ]
  37. ^ Rexova, K. (2003). "Cladistic analysis of languages: Indo-European classification based on lexicostatistical data". Кладистика. 19 (2): 120–127. Дои:10.1016/S0748-3007(02)00147-0.
  38. ^ CSLI Publications, 2001
  39. ^ Holman, Eric W.; Wichmann, Søren; Brown, Cecil H.; Velupillai, Viveka; Müller, André; Bakker, Dik (2008). "Explorations in automated language classification". Folia Linguistica. 42 (3–4). Дои:10.1515/FLIN.2008.331. S2CID  82275473.
  40. ^ Haspelmath и другие., World Atlas of Language Structures, OUP 2005
  41. ^ On calculating the factor of chance in language comparison, Transactions of the American Philosophical Society 82 (1992)
  42. ^ а б Language Classification by Numbers
  43. ^ On detection of borrowing, Diachronia 20/2 (2003)
  44. ^ see for example Bergsland and Vogt
  45. ^ For example, Pagel, Atkinson and Meade, Frequency of word-use predicts rates of lexical evolution throughout Indo-European history, Nature 449, 11 Oct 2007
  46. ^ Atkinson and Gray, How old is the Indo-European family (in Phylogenetic Methods and the Prehistory of Languages, Forster and Renfrew, 2006
  47. ^ Indo-European and Computational Cladistics, Transactions of the Philosophical Society 100/1 (2002)
  48. ^ Nakhleh и другие. Perfect Phylogenic networks, Language 81 (2005)
  49. ^ Мегаполис и другие. 1953
  50. ^ http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.799.8282&rep=rep1&type=pdf
  51. ^ Ryder, Robin; Nicholls, Geoff (2011), "Missing data in a stochastic Dollo model for cognate data, and its application to the dating of Proto-Indo-European", Журнал Королевского статистического общества, серия C, 60 (1): 71–92, Дои:10.1111 / j.1467-9876.2010.00743.x
  52. ^ Bandelt and Dress 1992
  53. ^ Saitou and Nei (1987)
  54. ^ Bryant and Moulton : Neighbor-net, an agglomerative method for the construction of phylogenetic networks - Molecular Biology and Evolution 21 (2003)
  55. ^ Bandelt et al. 1995 г.
  56. ^ Brooks, Erdem. Minett and Ringe : Character-based cladistics and answer set programming
  57. ^ McMahon and McMahon
  58. ^ Holm : The new arboretum of Indo-European trees - Journal of Quantitative Linguistics 14 (2007)
  59. ^ Nakhleh, Roshan, St John, Sun and Warnow : Designing fast converging phylogentic methods - Bioinfomatics, OUP 2001
  60. ^ Structural Phylogenetics and the reconstruction of ancient language history, Science 309, 2072 (2005)
  61. ^ How to use typological databases in historical linguistic research[постоянная мертвая ссылка ], Diachronica 24, 373 (2007)
  62. ^ См. Например The Mathematical Assessment of Long Range Linguistic Relationships - Language and Linguistics Compass 2/5 (2008)
  63. ^ Kessler and Lehtonen : Multilateral Comparison and Significance Testing
  64. ^ Nichols : Quasi-cognates and Lexical Type Shifts (in Phylogenetics and the Prehistory of Languages, Forster and Renfrew, 2006)
  65. ^ Brown et al. : Automated classification of the world's languages, Sprachtypologie und Universalienforschung, 61.4: 285-308, 2008 В архиве 23 июня 2010 г. Wayback Machine
  66. ^ ASJP processed languages В архиве 11 мая 2010 г. Wayback Machine (March 15, 2010)
  67. ^ Müller, A., S. Wichmann, V. Velupillai et al. 2010 г. ASJP World Language Tree of Lexical Similarity: Version 3 (July 2010). В архиве July 30, 2010, at the Wayback Machine
  68. ^ Indo-European language tree by Levenstein distance
  69. ^ Quantifying change over time in phonetics (in Time-depth in Historical Linguistics, Renfrew, McMahon and Trask, 2001)
  70. ^ Linguistic diversity in Romance Languages, Language 35 1959
  71. ^ Kluge and Farris, Systematic Zoology 18, 1-32 (1969)
  72. ^ Robinson and Foulds : Comparison of phylogenetic trees - Mathematical Biosciences - 53 (1981)
  73. ^ Tutorial on Computational Linguistic Phylogeny, Language and Linguistic Compass 2/5 (2008)
  74. ^ How old is the Indo-European language family? (in Phylogenic Methods and the Prehistory of Languages, Forster and Renfrew, 2006)
  75. ^ CPHL: Computational Phylogenetics in Historical Linguistics (homepage), 2009 (17 October 2017).
  76. ^ Cladistic analysis of languages, Cladistics 19/2 (2003)
  77. ^ Finding Families, quantitative methods in language classification. Transactions of the Philological Society 101 (2003)
  78. ^ Nakhleh, Warnow, Ringe and Evans, "A Comparison of Phylogenetic Reconstruction Methods on an IE Dataset " (2005)
  79. ^ Linguistic Phylogenetics for three Austronesian family, BA Thesis Swarthmore College (2005)
  80. ^ Tutorial on Computational Linguistic Phylogeny
  81. ^ A critique of the separation base method for genealogical subgrouping, with data from Mixe-Zoquean[постоянная мертвая ссылка ], Journal of Quantitative Linguistics 13, 225 (2006)
  82. ^ Barbancon, Warnow, Evans, Ringe and Nakhleh, An Experimental Study Comparing Linguistic Phylogenetic Reconstruction Methods
  83. ^ Sullivan and Joyce, Model selection in phylogenetics[постоянная мертвая ссылка ], Annual Review of Ecology, Evolution and Systematics 36 (2005)

Библиография

внешняя ссылка