Нормализация текста - Text normalization

Нормализация текста это процесс преобразования текст в один каноническая форма что, возможно, не было раньше. Нормализация текста перед сохранением или обработкой позволяет разделение проблем, поскольку входные данные гарантированно согласованы до того, как над ними будут выполняться операции. Нормализация текста требует знания того, какой тип текста следует нормализовать и как он будет обрабатываться впоследствии; не существует универсальной процедуры нормализации.[1]

Приложения

Нормализация текста часто используется при преобразовании текст в речь. Числа, даты, акронимы, и сокращения - нестандартные «слова», которые нужно произносить по-разному в зависимости от контекста.[2] Например:

  • «200 долларов» будет произноситься как «двести долларов» на английском языке, но как «lua selau tālā» на самоанском языке.[3]
  • "vi" может произноситься как "соперничать," "Ви," или же "шестой "в зависимости от окружающих слов.[4]

Текст также можно нормализовать для хранения и поиска в базе данных. Например, если поисковый запрос «резюме» должен соответствовать слову «резюме», тогда текст будет нормализован путем удаления диакритические знаки; и если «john» соответствует «John», текст будет преобразован в один дело. Чтобы подготовить текст к поиску, его также можно остановлен (например, преобразование "летал" и "летал" в "летать"), канонизированный (например, постоянно используя Правописание американского или британского английского ) или иметь стоп слова удаленный.

Методы

Для простой контекстно-независимой нормализации, такой как удаление небуквенно-цифровой персонажи или диакритические знаки, обычные выражения хватит. Например, sed сценарий sed ‑e "с / с + / / г"входной файл нормализует прогоны пробельные символы в единое пространство. Более сложная нормализация требует соответственно сложных алгоритмов, включая базовые знания нормализации языка и словарного запаса. Среди других подходов нормализация текста была смоделирована как проблема токенизации и маркировки потоков текста.[5] и как частный случай машинного перевода.[6][7]

Смотрите также

Рекомендации

  1. ^ Ричард Спроут и Стивен Бедрик (сентябрь 2011 г.). "CS506 / 606: Txt Nrmlztn". Получено Второе октября, 2012.
  2. ^ Sproat, R .; Черный, А .; Chen, S .; Kumar, S .; Остендорфк, М .; Ричардс, К. (2001). «Нормализация нестандартных слов». Компьютерная речь и язык 15; 287–333. Дои:10.1006 / csla.2001.0169.
  3. ^ "Самоанские числа". MyLanguages.org. Получено Второе октября, 2012.
  4. ^ "Нормализация текста в механизмах преобразования текста в речь". MSDN. Получено Второе октября, 2012.
  5. ^ Zhu, C .; Tang, J .; Li, H .; Ng, H .; Чжао, Т. (2007). «Единый подход к тегированию для нормализации текста». Материалы 45-го Ежегодного собрания Ассоциации компьютерной лингвистики; 688–695. Дои:10.1.1.72.8138.
  6. ^ Filip, G .; Krzysztof, J .; Agnieszka, W .; Миколай, В. (2006). «Нормализация текста как частный случай машинного перевода». Материалы Международной мультиконференции по компьютерным наукам и информационным технологиям 1; 51–56.
  7. ^ Москера, А .; Lloret, E .; Мореда, П. (2012). «На пути к облегчению доступности текстов Web 2.0 посредством нормализации текста» Материалы семинара LREC: Обработка естественного языка для улучшения текстовой доступности (NLP4ITA); 9-14