Стилометрия - Stylometry

Стилометрия это применение изучение языкового стиля, обычно в письменной речи, но успешно применяется и в музыке.[1] и художественной живописи[2] также.[3] Другая концептуализация определяет его как лингвистическую дисциплину, которая оценивает стиль автора посредством применения статистического анализа к основной части их работ.[4]

Стилометрия часто используется для атрибуции авторство к анонимный или оспариваемые документы.[5] Он имеет как юридические, так и академические и литературные приложения, начиная от вопроса о авторство произведений Шекспира к судебная лингвистика.

История

Стилометрия выросла из более ранних методов анализа текстов на предмет аутентичности, идентичности автора и других вопросов.

Современная практика дисциплины получила известность благодаря исследованию проблем авторства в английской драматургии эпохи Возрождения. Исследователи и читатели заметили, что у некоторых драматургов той эпохи были отличительные модели языковых предпочтений, и попытались использовать эти модели для определения авторов сомнительных или совместных работ. Ранние попытки не всегда были успешными: в 1901 году один исследователь попытался использовать Джона Флетчера предпочтение «⁠ ⁠’em», сокращающейся формы «они», в качестве маркера, позволяющего различать Флетчер и Филип Массинджер в их сотрудничестве - но он по ошибке использовал издание работ Массинджера, в котором редактор расширил все экземпляры «⁠ ’em» на «они».[6]

Основы стилометрии заложил польский философ. Винценты Лютославски в Принципы стилометрии (1890). Лютославский использовал этот метод для построения хронологии Диалоги Платона.[7]

Развитие компьютеров и их способности анализировать большие объемы данных увеличили этот вид усилий на порядки. Однако большие возможности компьютеров для анализа данных не гарантируют хорошего качества продукции. В начале 1960-х годов преподобный А.К. Мортон произвел компьютерный анализ четырнадцати посланий Нового Завета, приписываемых апостолу Павлу, который показал, что эти работы написали шесть разных авторов. Проверка его метода, примененного к работам Джеймс Джойс, дали результат Улисс, Многопрофильный, многостильвенный роман Джойса, был составлен пятью отдельными людьми, ни один из которых, очевидно, не принимал участия в создании первого романа Джойса, Портрет художника в молодости.[8]

Однако со временем и с практикой исследователи и ученые усовершенствовали свои методы, чтобы добиться лучших результатов. Заметный ранний успех был разрешением спорного авторства двенадцати Записки федералиста Фредерика Мостеллера и Дэвида Уоллеса.[9] Хотя вопросы относительно исходных предположений и методов все еще остаются (и, возможно, всегда будут), немногие сейчас оспаривают основную предпосылку, что лингвистический анализ письменных текстов может дать ценную информацию и понимание. (Действительно, это было очевидно даже до появления компьютеров: успешное применение текстового / лингвистического анализа к канону Флетчера Сайрус Хой и другие дали четкие результаты в конце 1950-х - начале 1960-х годов.)

Приложения

Применения стилометрии включают литературные исследования, исторические исследования, социальные исследования, а также многие судебно-медицинские исследования.[10][11] Его также можно применить к компьютерный код [12] и обнаружение внутреннего плагиата, который должен обнаруживать плагиат на основе изменений стиля письма в документе.[13] Стилометрию также можно использовать для определения того, является ли человек носителем английского языка или нет, по его скорость набора.[14]

Стилометрия как метод уязвима к искажению текста во время редактирования.[15] Также есть случай, когда автор перенимает разные стили в ходе своей карьеры, как это было продемонстрировано на примере Платон, которые выбрали разные стилистические политики, такие как те, которые были приняты для ранних и средних диалогов, посвященных проблеме Сократа.[16]

Текущее исследование

Современная стилометрия использует компьютеры за статистический анализ, и искусственный интеллект и доступ к растущим корпус текстов, доступных через Интернет.[17] Программные системы, такие как Signature[18] (бесплатное программное обеспечение, разработанное доктором Питером Милликаном из Оксфордского университета), JGAAP[19] (Программа Java Graphical Authorship Attribution Program - бесплатная программа, разработанная Dr Патрик Юола университета Дюкен), стил[20][21] (пакет R с открытым исходным кодом для различных стилометрических анализов, включая указание авторства, разработанный Мацей Эдер, Ян Рыбицки и Майк Кестемонт ) и Stylene[22] для голландского (онлайн-бесплатное ПО от профессора Уолтер Дэлеманс из Университета Антверпена и д-ра Вероник Хосте из Университета Гента) делают его использование все более практичным даже для неспециалистов.

Академические площадки и мероприятия

Стилометрические методы используются для нескольких академических тем, в основном в качестве дополнения к машинному обучению, обработке естественного языка и лексикографии.

Судебная лингвистика

В Международная ассоциация судебных лингвистов (IAFL) организует Раз в два года конференция Международной ассоциации судебных лингвистов (13-е издание в 2016 г. Порту ) и издает Международный журнал речи, языка и права с криминалистическая стилистика как одна из его центральных тем.

AAAI

В Ассоциация развития искусственного интеллекта (AAAI) провела несколько мероприятий по субъективному и стилистическому анализу текста.[23][24][25]

СКОВОРОДА

Семинары PAN (первоначально анализ плагиата, идентификация авторства и обнаружение почти дубликатов, позже - более общий семинар по выявлению плагиата, авторства и неправомерного использования программного обеспечения в социальных сетях), организованные с 2007 года в основном в связи с конференциями по доступу к информации, такими как ACM СИГИР, ОГОНЬ, и КЛЮЧ. PAN формулирует общие задачи для обнаружения плагиата,[26] идентификация авторства,[27] гендерная идентификация автора,[28] профилирование авторов,[29] обнаружение вандализма,[30] и другие задачи анализа текста, многие из которых зависят от стилометрии.

Тематические исследования, представляющие интерес

  • В 1439 г. Лоренцо Валла показал, что Дар Константина был подделка, аргумент, частично основанный на сравнении латинский с тем, что используется в подлинных документах 4-го века.
  • В 1952 году шведский священник Дик Хеландер был избран епископом Strängnäs. Кампания была конкурентной, и Хеландер был обвинен в написании серии сотен с лишним анонимных писем с клеветой на других кандидатов электорату епископства Стренгнес. Хеландер был сначала осужден за написание писем и потерял свою должность епископа, но позже был частично реабилитирован. Письма были изучены с использованием ряда стилометрических мер (а также характеристик пишущей машинки), а также различных судебных дел и дальнейших экспертиз, многие из которых были привлечены самим Хеландером в течение многих лет до его смерти в 1978 году, в которых стилометрический метод и его ценность в качестве доказательства обсуждались довольно подробно.[31][32]
  • В 1975 году после Рональд Рейган когда он был губернатором Калифорнии, он начал давать еженедельные радиокомментарии, транслируемые сотням станций. После того, как его личные записи были обнародованы в 2001 году, когда ему исполнилось 90 лет, в исследовании использовались стилостатистические методы, чтобы определить, какие из этих выступлений были написаны им, а какие - разными помощниками.[33]
  • В 1996 году стилометрический анализ противоречивой книги, написанной псевдонимом. Основные цвета, в исполнении Колледж Вассар профессор Дональд Фостер[34] привлекла к теме внимание более широкой аудитории после правильного определения автора как Джо Кляйн. (Этот случай разрешился только после того, как анализ почерка подтвердил авторство).
  • В 1996 г. стилометрические методы использовались для сравнения Унабомбер Манифест с письмами, написанными одним из подозреваемых, Теодором Качиньским, своему брату, в результате которых он был задержан, а затем осужден.[35]
  • В апреле 2015 года исследователи, использовавшие методы стилометрии, обнаружили игру, Двойная ложь, как работа Уильям Шекспир.[36] Исследователи проанализировали 54 пьесы Шекспира и Джон Флетчер и сравнили среднюю длину предложения, изучили использование необычных слов и количественно оценили сложность и психологию валентность своего языка.
  • В 2016 году Макдональд П. Джексон, почетный профессор английского языка в Оклендском университете, Новая Зеландия и член Королевского общества Новой Зеландии, который всю свою академическую карьеру посвятил анализу атрибуции авторства, написал книгу под названием «Кто написал» Ночь перед Рождеством »?: Анализируя отношения Клемента Кларка Мура против Вопрос Генри Ливингстона [20], в котором он оценивает противоположные аргументы и впервые использует методы авторской атрибуции современной вычислительной стилистики для изучения давних противоречий. Джексон использует ряд тестов и вводит новый - статистический анализ фонем; он заключает, что Ливингстон - истинный автор классического произведения.
  • В 2017 году Саймон Фуллер и Джеймс О'Салливан опубликовал исследование, утверждающее, что автор бестселлеров Джеймс Паттерсон не пишет в своих романах в соавторстве.[37][38][39] По словам О'Салливана, его сотрудничество с бывшим президентом США Билл Клинтон, Президент отсутствует, является исключением из этого правила.[40]
  • В 2017 году группа лингвистов, информатиков и ученых проанализировала авторство Елена Ферранте. На основе корпуса, созданного в Университет Падуи содержащий 150 романов, написанных 40 авторами, они проанализировали стиль Ферранте на основе семи ее романов. Они смогли сравнить ее стиль письма с 39 другими писателями, используя, например, стилус.[20] Вывод был для всех одинаков: Доменико Старноне является секретным автором Елены Ферранте.[41]
  • В 2018 г. Марк Гликман старший преподаватель статистики Гарвардского университета работал с Райаном Сонгом, бывшим студентом Гарвардского статистического факультета, и Джейсоном Брауном, профессором Университета Далхаузи в Новой Шотландии, применив стилометрию, чтобы обнаружить, что, скорее всего, Битлз ' песня "В моей жизни "была написана Джоном Ленноном, но с вероятностью 50%, что Пол Маккартни написал средняя восьмерка.[42]

Данные и методы

Поскольку стилометрия имеет как описательные варианты использования, используемые для характеристики содержимого коллекции, так и идентифицирующие варианты использования, например При определении авторов или категорий текстов методы, используемые для анализа данных и функций, перечисленных выше, варьируются от методов, созданных для классификации элементов в наборы или для распределения элементов в пространстве вариаций функций. Большинство методов являются статистическими по своей природе, например кластерный анализ и дискриминантный анализ, обычно основаны на филологический данные и функции, и являются плодотворными областями приложений для современных машинное обучение методы.

В то время как в прошлом стилометрия подчеркивала самые редкие или наиболее яркие элементы текста, современные методы могут выделить идентифицирующие шаблоны даже в общих частях речи. Большинство систем основаны на лексической статистике, то есть на использовании частотности слов и терминов в тексте для характеристики текста (или его автора). В этом контексте, в отличие от поиск информации, наблюдаемые закономерности возникновения самые распространенные слова более интересны, чем актуальные термины, которые встречаются реже.[50][51]

Первичный стилометрический метод - это писатель инвариант: свойство, которое является общим для всех текстов или, по крайней мере, для всех текстов, достаточно длинных, чтобы допустить анализ, дающий статистически значимые результаты, написанные данным автором. Примером инварианта писателя является частота служебные слова используется писателем.

В одном из таких методов текст анализируется, чтобы найти 50 наиболее употребительных слов. Затем текст делится на блоки по 5000 слов, и каждый из блоков анализируется, чтобы определить частоту встречаемости этих 50 слов в этом блоке. Это создает уникальный идентификатор из 50 номеров для каждого фрагмента. Эти числа помещают каждый кусок текста в точку в 50-мерном пространстве. Это 50-мерное пространство сплющено в плоскость с помощью анализ основных компонентов (СПС). В результате отображаются точки, соответствующие авторскому стилю. Если два литературных произведения помещены в одну плоскость, в результирующем шаблоне может быть показано, принадлежат ли оба произведения одному или разным авторам.

1. Гауссовская статистика

Стилометрические данные распределены по Закон Ципфа-Мандельброта. Распределение чрезвычайно резкое и лептокуртика, причина, по которой исследователи не могли использовать статистику для решения, например, проблемы с установлением авторства. Тем не менее, использование гауссовой статистики вполне возможно, если применить преобразование данных.[52]

2. Нейронные сети

Нейронные сети, частный случай статистических методов машинного обучения, были использованы для анализа авторства текстов. Тексты с бесспорным авторством используются для обучения нейронной сети с помощью таких процессов, как обратное распространение, так что ошибка обучения вычисляется и используется для обновления процесса для повышения точности. Посредством процесса, похожего на нелинейную регрессию, сеть получает возможность обобщать свою способность распознавания на новые тексты, с которыми она еще не сталкивалась, классифицируя их с установленной степенью уверенности. Такие методы были применены к давним заявлениям о сотрудничестве Шекспир со своими современниками Флетчером и Кристофер Марлоу,[53][54] и подтвердил мнение, основанное на более традиционных исследованиях, о том, что такое сотрудничество действительно имело место.

Исследование 1999 года показало, что программа нейронной сети достигла 70% точности в определении авторства стихотворений, которые она еще не анализировала. В этом исследовании Vrije Universiteit изучалась идентификация стихов трех голландских авторов с использованием только буквенных последовательностей, таких как «логово».[55]

В исследовании использовалось сети глубоких убеждений (DBN) для модели проверки авторства, применимой для непрерывной аутентификации (CA).[56]

Одна из проблем, связанных с этим методом анализа, заключается в том, что сеть может стать предвзятой на основе ее обучающего набора, что может привести к более частому выбору авторов, которых сеть анализирует.[55]

3. Генетические алгоритмы

В генетический алгоритм это еще один метод машинного обучения, используемый для стилометрии. Это включает метод, который начинается с набора правил. Пример правила может быть таким: «Если но появляется более 1,7 раз на каждую тысячу слов, тогда текст обозначается как автор X ". Программа представлена ​​с текстом и использует правила для определения авторства. Правила проверяются на наборе известных текстов, и каждому правилу присваивается оценка пригодности 50 правил с наименьшими оценками не используются. В оставшиеся 50 правил вносятся небольшие изменения и вводятся 50 новых правил. Это повторяется до тех пор, пока развитые правила не приписывают тексты правильно.

4. Редкие пары

Один из методов определения стиля называется «редкие пары» и основан на индивидуальных привычках словосочетание. Использование определенных слов для конкретного автора может быть идиосинкратически связано с использованием других, предсказуемых слов.

Указание авторства в мгновенных сообщениях

Распространение Интернета сместило внимание атрибуции авторства к онлайн-текстам (веб-страницы, блоги и т. Д.), Электронным сообщениям (электронная почта, твиты, посты и т. Д.) И другим типам письменной информации, которая намного короче, чем средняя книга, гораздо менее формальная и более разнообразная с точки зрения выразительных элементов, таких как цвета, макет, шрифты, графика, смайлики и т. д. Усилия по учету таких аспектов на уровне как структуры, так и синтаксиса были представлены в.[57] Кроме того, были введены специфические для контента и идиосинкразические подсказки (например, тематические модели и инструменты проверки грамматики), чтобы выявить преднамеренный стилистический выбор.[58]

Стандартные стилометрические функции использовались для категоризации содержимого чата по мгновенное сообщение,[59] или поведение участников,[60] но попыток идентифицировать участников чата пока мало и рано. Кроме того, игнорировалось сходство между разговорами и взаимодействиями в чате, но это основное различие между данными чата и любым другим типом письменной информации.

Смотрите также

Примечания

  1. ^ Уэсткотт, Ричард (15 июня 2006 г.). "Превратить хитовую музыку в науку". Новости BBC.
  2. ^ «Машина обратного пути к Интернет-архиву». 2006-06-30. Архивировано из оригинал 30 июня 2006 г.. Получено 2012-10-15.
  3. ^ Аргамон, Шломо, Кевин Бернс и Шломо Дубнов, ред. Структура стиля: алгоритмические подходы к пониманию образа и смысла. Springer Science & Business Media, 2010.
  4. ^ Ян, Кристофер С .; Чен, Синьчунь; Чау, Майкл; Чанг, Куйю; Ланг, Шо-Донг; Чен, Патрик; Карли, Кэтлин М .; Се, Раймонд; Цзэн, Даниэль (2008). Разведка и информатика безопасности: Международные семинары IEEE ISI 2008: PAISI, PACCF и SOCO 2008, Тайбэй, Тайвань, 17 июня 2008 г., Материалы. Берлин: Springer Science & Business Media. п. 252. ISBN  9783540691365.
  5. ^ Чен, Синьчунь; Ян, Кристофер С .; Чау, Майкл; Ли, Шу-Син (2009). Разведка и информатика безопасности: семинар в Азиатско-Тихоокеанском регионе, PAISI 2009, Бангкок, Таиланд, 27 апреля 2009 г. Протоколы. Берлин: Springer Science & Business Media. п. 15. ISBN  9783642013928.
  6. ^ Самуэль Шенбаум, Внутренние свидетельства и елизаветинское драматическое авторство; очерк по истории и методике литературы, п. 171.
  7. ^ Лютославский, В. (1898). "Principes de stylométrie appliqués à la chronologie des œuvres de Platon". Revue des Études Grecques. 11 (41): 61–81. Дои:10.3406 / reg.1898.5847. ISSN  0035-2039.
  8. ^ Самуэль Шенбаум, Внутренние свидетельства и елизаветинское драматическое авторство; очерк по истории и методике литературы, п. 196.
  9. ^ Ф. Мостеллер и Д. Уоллес (1964). Умозаключение и Disputed Авторство: федералистичиский. Ридинг, Массачусетс: Эддисон-Уэсли.
  10. ^ Часки, Кэрол (2012). Солан, Лоуренс М; Тиерсма, Питер М. (ред.). Идентификация автора в криминалистической среде. Оксфордский справочник по языку и праву. Издательство Оксфордского университета. Дои:10.1093 / oxfordhb / 9780199572120.001.0001. ISBN  9780199572120.
  11. ^ Часки, Кэрол (22 декабря 2005 г.). Wecht, Cyril H .; Раго, Джон Т. (ред.). Судебная медицина и право: применение расследований в уголовном, гражданском и семейном правосудии. CRC Press. ISBN  978-1-4200-5811-6.
  12. ^ Клэберн, Томас (16 марта 2018 г.). «К вашему сведению: инструменты ИИ могут разоблачать анонимных кодеров из их двоичных исполняемых файлов». Реестр. Получено 2 августа, 2018.
  13. ^ Бенсалем, Имене; Россо, Паоло; Чихи, Салим (2019). «Об использовании символьных n-граммов как единственного внутреннего доказательства плагиата». Языковые ресурсы и оценка. 53 (3): 363-396. Дои:10.1007 / s10579-019-09444-w. S2CID  86630897.
  14. ^ Бризан, Дэвид (октябрь 2015 г.). «Использование лингвистически улучшенной динамики нажатия клавиш для прогнозирования когнитивных способностей и демографии машинистки». Международный журнал человеко-компьютерных исследований. 82: 57–68. Дои:10.1016 / j.ijhcs.2015.04.005.
  15. ^ Аликан, Неджип Фикри (2012). Переосмысление Платона: картезианские поиски настоящего Платона. Амстердам: Родопи. п. 183. ISBN  9789042035379.
  16. ^ Роу, Кристофер (2000). Кембриджская история греческой и римской политической мысли. Кембридж, Великобритания: Издательство Кембриджского университета. п. 160. ISBN  0521481368.
  17. ^ Аргамон, Шломо, Юсси Карлгрен, и Джеймс Г. Шанахан. Стилистический анализ текста для доступа к информации. Материалы семинара, проведенного в связи с 28-й ежегодной Международной конференцией ACM по исследованиям и разработкам в области информационного поиска, 13–19 августа 2005 г., Сальвадор, Баия, Бразилия. Шведский институт информатики, 2005 г.
  18. ^ «Фирменная стилометрическая система». Филокомп. Получено 2014-01-03.
  19. ^ «JGAAP». JGAAP. 2012-09-04. Получено 2012-10-15.
  20. ^ а б «Стило для пакета R». Группа вычислительной стилистики. 2014-10-24. Получено 2014-10-24.
  21. ^ Эдер, Мацей; Рыбицкий, Ян; Кестемонт, Майк (2016). «Стилометрия с R: пакет для компьютерного анализа текста» (PDF). Журнал R. 8 (1): 107–121. Дои:10.32614 / RJ-2016-007.
  22. ^ Daelemans, Walter & Hoste, Véronique (2013). СТИЛЕН: среда для исследования стилометрии и читабельности для голландцев (Технический отчет). Серия технических отчетов CLiPS. ISSN  2033-3544.
  23. ^ Ян Цюй, Джеймс Шанахан, и Джанис Вибе. «Изучение отношения и влияния в тексте: теории и приложения». Технический отчет весеннего симпозиума AAAI SS-04-07. AAAI Press, Менло-Парк, Калифорния. 2004 г.
  24. ^ Юсси Карлгрен, Бьорн Гамбек, и Пентти Канерва. «Приобретение (и использование) языковых (и мировых) знаний для доступа к информации». (2002). Весенний симпозиум AAAI. Технический отчет SS-02-09. AAAI Press, Менло-Парк, Калифорния. 2002 г.
  25. ^ Шломо Аргамон, Шломо Дубнов, и Джули Джапп. «Стиль и смысл в языке, искусстве, музыке и дизайне» (2004 г.). Осенний симпозиум AAAI. Технический отчет ФС-04-07.
  26. ^ Поттаст, Мартин, Бенно Штайн, Альберто Баррон-Седеньо и Паоло Россо. «Схема оценки для обнаружения плагиата». В материалах 23-й международной конференции по компьютерной лингвистике: плакаты, стр. 997–1005. Ассоциация компьютерной лингвистики, 2010.
  27. ^ Стамататос, Эфстатиос, Вальтер Даелеманс, Бен Верховен, Патрик Юола, Аурелио Лопес-Лопес, Мартин Поттхаст и Бенно Штайн. «Обзор задачи идентификации автора на PAN 2014». В CLEF (Рабочие заметки), стр. 877–897. 2014 г.
  28. ^ Ранжель, Франциско, Паоло Россо, Мартин Поттхаст и Бенно Штайн. «Обзор 5-го задания по профилированию авторов на Pan 2017: определение гендерного и языкового разнообразия в твиттере». Рабочие записки CLEF (2017).
  29. ^ Ранжел Пардо, Франсиско Мануэль, Фабио Челли, Паоло Россо, Мартин Поттхаст, Бенно Штайн и Вальтер Даелеманс. «Обзор 3-го задания по профилированию авторов на PAN 2015». В CLEF 2015 Evaluation Labs and Work Notes Papers, pp. 1–8. 2015 г.
  30. ^ Поттаст, Мартин, Бенно Штайн и Тереза ​​Холфельд. «Обзор 1-го Международного конкурса по обнаружению вандализма в Википедии». В CLEF (Notebook Papers / LABs / Workshops). 2010 г.
  31. ^ Обработка текста, анализ и генерация текста - типология и атрибуция текста. Материалы Нобелевского симпозиума 51 / под ред. к Стуре Аллен Стокгольм: Almqvist & Wiksell International 1982 653 стр. Data linguistica; 16 Нобелевский симпозиум; 51 ISBN  91-22-00594-3
  32. ^ Карлгрен, Юсси (2003). "Хеландер: Дело об установлении авторства". Получено 4 октября 2017.
  33. ^ Эдоардо М. Аирольди; Стивен Э. Файнберг; Кирон К. Скиннер (Июль 2007 г.). «Чьи идеи? Чьи слова? Авторство радиоадресов Рональда Рейгана» (PDF). PS: Политология и политика. 40 (3): 501–506. CiteSeerX  10.1.1.190.5798. Дои:10.1017 / S1049096507070874.
  34. ^ Автор неизвестен Гэвин Макнетт Салон 2 ноября 2000 г.
  35. ^ Беллак, Пэм (10 апреля 1996 г.). «По делу Унабом - боль для семьи подозреваемого». Нью-Йорк Таймс. В архиве с оригинала 10 августа 2017 г.. Получено 5 июля, 2008.
  36. ^ «Исследование показало, что спорная пьеса Шекспира несет на себе клеймо мастера». LATimes.com. 2015-04-10. Получено 2015-04-13.
  37. ^ Фуллер, Саймон; О'Салливан, Джеймс (2017). «Структура важнее стиля: совместное авторство и возрождение литературного капитализма». Digital Humanities Quarterly. 011 (1). Получено 20 апреля, 2017.
  38. ^ Лейн, Энтони (18 июня 2018 г.). "Конкуссионное сотрудничество Билла Клинтона и Джеймса Паттерсона". Житель Нью-Йорка. Получено 2018-06-07.
  39. ^ «Почему не нужно много писать, чтобы стать самым продаваемым автором в мире». Разговор. 3 апреля 2017 г.. Получено 20 апреля, 2017.
  40. ^ О'Салливан, Джеймс (07.06.2018). «Билл Клинтон и Джеймс Паттерсон - соавторы, но кто написал?». Хранитель. Получено 2018-06-07.
  41. ^ Жак Савой. Елена Ферранте без маски. https://www.researchgate.net/publication/320131096_Elena_Ferrante_Unmasked
  42. ^ Питер Реуэлл. «Вы говорите Джон, я говорю Пол. Но что говорит стилометрия?». https://news.harvard.edu/gazette/story/2018/09/harvard-statistician-examines-beatles-mystery/
  43. ^ "Un monstruo de la naturaleza llamado Lope". abc (на испанском). 2018-11-28. Получено 2019-08-11.
  44. ^ "Rastreadores digitales en el Siglo de Oro". Эль-Норте-де-Кастилья (на испанском). 2018-12-23. Получено 2019-08-11.
  45. ^ Реал, Ла Трибуна де Сьюдад (2019-07-09). "Хуан Руис де Аларкон aumenta su obra cinco siglos después". La Tribuna de Ciudad Real (на испанском). Получено 2019-08-11.
  46. ^ Чамбери, PSOE. "PSOE | PSOE Chamberí | Chamberí | suplementoultural | domingo, 28 de julio 2019 | número 06 | Daniel Migueláñez | Pág nº 08 | El Holmes de la filología". Получено 2019-08-11.
  47. ^ "Sor Juana Inés centró las 42 Jornadas de Teatro Clásico". Lanza Digital (на испанском). 2019-07-14. Получено 2019-08-11.
  48. ^ "'La monja alférez 'ya no es de Pérez de Montalbán, sino de Ruiz de Alarcón ". Эль-Норте-де-Кастилья (на испанском). 2019-07-10. Получено 2019-08-11.
  49. ^ Маккарти, Рэйчел; О'Салливан, Джеймс (2020). «Кто написал« Грозовой перевал »?». Цифровая стипендия в области гуманитарных наук. Дои:10.1093 / llc / fqaa031.
  50. ^ Бибер, Дуглас. Различия в речи и письме. Издательство Кембриджского университета, 1991.
  51. ^ Карлгрен, Юсси; Резка, Дуглас (1994). «Распознавание текстовых жанров с помощью простых показателей с помощью дискриминантного анализа». Труды Международной конференции по компьютерной лингвистике. 2: 1071. arXiv:cmp-lg / 9410008. Bibcode:1994cmp.lg ... 10008K. Дои:10.3115/991250.991324. S2CID  1297432.
  52. ^ Ван Дроогенброк Ф.Дж., `` Существенная перефразировка закона Ципфа-Мандельброта для решения приложений атрибуции авторства с помощью гауссовой статистики '' (2019) [1]
  53. ^ [2] Нейронные вычисления в стилометрии I: приложение к произведениям Шекспира и Флетчера Мэтьюз РАДЖ и Мерриам ТВН Lit Linguist Computing (1993) 8 (4): 203–209.doi: 10.1093 / llc / 8.4.203
  54. ^ [3]Нейронные вычисления в стилометрии II: приложение к произведениям Шекспира и Марлоу Мерриам ТВН и Мэтьюз РАДЖ Lit Linguist Computing (1994) 9 (1): 1–6
  55. ^ а б JF HoornZ; С.Л. Франк; W Kowalczyk; Ф ван дер Хам (03.09.2012). «Нейросетевая идентификация поэтов по буквенным последовательностям». Литературные и лингвистические вычисления. 14 (3): 311–338. Дои:10.1093 / llc / 14.3.311. Получено 2012-10-15.
  56. ^ Брокардо, М.Л .; Траоре, I; Woungang, I; Обайдат, MS (2017). «Проверка авторства с использованием сетевых систем глубокого убеждения». Int J Commun Syst. 30 (12): e3259. Дои:10.1002 / dac.3259.
  57. ^ de Vel, O .; Андерсон, А .; Corney, M .; Мохай, Г. (2001-12-01). «Разработка содержимого электронной почты для криминалистической экспертизы идентификации авторов». SIGMOD Rec. 30 (4): 55–64. CiteSeerX  10.1.1.408.4231. Дои:10.1145/604264.604272. ISSN  0163-5808. S2CID  1623521.
  58. ^ Аргамон, Шломо; Коппель, Моше; Пеннебейкер, Джеймс У .; Шлер, Джонатан (01.02.2009). «Автоматическое профилирование автора анонимного текста». Commun. ACM. 52 (2): 119–123. CiteSeerX  10.1.1.136.9952. Дои:10.1145/1461928.1461959. ISSN  0001-0782. S2CID  5413411.
  59. ^ «Классификация обмена мгновенными сообщениями для криминалистического анализа - TechRepublic». TechRepublic. Получено 2016-01-26.
  60. ^ Чжоу, L .; Чжан, Дунсун (01.01.2004). Может ли поведение в сети выявить обманщиков? - предварительное расследование обмана при обмене мгновенными сообщениями. Материалы 37-й ежегодной Гавайской международной конференции по системным наукам, 2004 г.. С. 9 с. Дои:10.1109 / HICSS.2004.1265079. ISBN  978-0-7695-2056-8. S2CID  7154702.

Рекомендации

дальнейшее чтение

См. Также академический журнал Литературные и лингвистические вычисления (опубликовано Оксфордский университет ) и Языковые ресурсы и оценка журнал.

внешняя ссылка