Программа проверки орфографии - Spell checker

В программного обеспечения, а программа проверки орфографии (или же проверка орфографии) это функция программного обеспечения которая проверяет орфографические ошибки в текст. Функции проверки орфографии часто встроены в программного обеспечения или услуги, такие как текстовый редактор, почтовый клиент, электронный толковый словарь, или же поисковый движок.

Глаз есть проверка орфографии,
Он пришел с моим Pea Sea.
Это самолет Ли отмечает четыре моего ревю
Мисс Стейкс, я могу завязать узел на море.

Глаз ударяет по набережной и набирает жужжание
И вес четыре, это два говорят
Погодный глаз, я пишу весло неправильно
Он говорит мне прямо о весе.

Глаз пробежал это стихотворение бросил,
Ваш берег действительно рад двум нет.
Его вес полируется.
Моя шашка разрешила мне шить.

Шашка - вещь благословенная,
Замораживает тисовые жилки тимьяна.
Это помогает мне исправить все стили исправления,
И помогает мне, когда глаз инеет.

Каждая драка появляется на моем экране
Глаз тоже связал джоуль.
Шашка наливает каждое слово
Правило написания двух контрольных сумм.

Первоначальная версия этого стихотворения была написана Джерролдом Х. Заром в 1992 году. Неискушенный специалист по проверке орфографии не найдет в этом стихотворении недостатка или не обнаружит его вовсе, поскольку он проверяет слова изолированно. Более сложная проверка орфографии будет использовать языковая модель рассмотреть контекст, в котором встречается слово.
Гугл Хром проверка орфографии в действии для приведенного выше стихотворения, слово «проверка» помечено как нераспознанное слово

Дизайн

Базовая проверка орфографии выполняет следующие процессы:

  • Он сканирует текст и извлекает содержащиеся в нем слова.
  • Затем он сравнивает каждое слово с известным списком правильно написанных слов (т. Е. Словарем). Он может содержать просто список слов или дополнительную информацию, такую ​​как точки переноса или лексические и грамматические атрибуты.
  • Дополнительным шагом является зависящий от языка алгоритм обработки морфология. Даже для слегка изменяемого языка вроде английский, программе проверки правописания необходимо будет учитывать разные формы одного и того же слова, такие как множественное число, глагольные формы, схватки, и собственники. Для многих других языков, таких как языки с агглютинацией и более сложным склонением и спряжением, эта часть процесса более сложна.

Неясно, дает ли морфологический анализ, допускающий множество различных форм слова в зависимости от его грамматической роли, значительную пользу для английского языка, хотя его преимущества для очень синтетические языки такие как немецкий, венгерский или турецкий понятны.

В качестве дополнения к этим компонентам программа пользовательский интерфейс позволит пользователям одобрять или отклонять замены и изменять работу программы.

Альтернативный тип проверки орфографии использует исключительно статистическую информацию, такую ​​как н-граммы, чтобы распознавать ошибки вместо правильно написанных слов. Этот подход обычно требует больших усилий для получения достаточной статистической информации. Ключевые преимущества включают необходимость меньшего объема памяти во время выполнения и возможность исправлять ошибки в словах, которые не включены в словарь.[1]

В некоторых случаях средства проверки орфографии используют фиксированный список орфографических ошибок и предложения за эти орфографические ошибки; этот менее гибкий подход часто используется в бумажных методах исправления, таких как смотрите также записи энциклопедий.

Алгоритмы кластеризации также использовались для проверки орфографии.[2] в сочетании с фонетической информацией.[3]

История

Pre-PC

В 1961 г. Les Earnest, который возглавлял исследование этой многообещающей технологии, посчитал необходимым включить первую программу проверки орфографии, которая обращалась к списку из 10 000 допустимых слов.[4] Ральф Горин, аспирант Эрнеста в то время, создал первую настоящую программу проверки орфографии, написанную как прикладную (а не исследовательскую) программу для общего английского текста: SPELL для DEC PDP-10 в Лаборатории искусственного интеллекта Стэнфордского университета в феврале. 1971 г.[5] Горин написал ЗАКЛИНАНИЕ на язык ассемблера, для более быстрого действия; он создал первый корректор орфографии, выполнив поиск в списке слов на предмет правдоподобных правильных написаний, которые различаются одной буквой или транспонированием соседних букв, и представив их пользователю. Горин сделал SPELL общедоступным, как это было сделано с большинством программ SAIL (Стэнфордская лаборатория искусственного интеллекта), и вскоре он распространился по всему миру через новый ARPAnet, примерно за десять лет до того, как персональные компьютеры стали широко использоваться.[6] SPELL, его алгоритмы и структуры данных вдохновили Unix ispell программа.

Первые средства проверки правописания были широко доступны на мэйнфреймах в конце 1970-х годов. Группа из шести лингвистов из Джорджтаунский университет разработал первую систему проверки орфографии для корпорации IBM.[7]

Генри Кучера изобрел один для машин VAX Digital Equipment Corp в 1981 году.[8]

ПК

Первые средства проверки правописания для персональных компьютеров появились в 1980 году, такие как WordCheck для систем Commodore, выпущенный в конце 1980 года к тому времени, когда в январе 1981 года появилась реклама.[9] Такие разработчики, как Мария Мариани[7] и Случайный дом[10] бросился OEM пакеты или продукты для конечных пользователей на быстро растущем рынке программного обеспечения. На компьютерах с предустановленной ОС Windows эти средства проверки орфографии были автономными программами, многие из которых можно было запускать в TSR режим из текстовых пакетов на ПК с достаточным объемом памяти.

Однако рынок автономных пакетов просуществовал недолго, поскольку к середине 1980-х разработчики популярных пакетов текстовых редакторов, таких как WordStar и WordPerfect включили в свои пакеты средства проверки орфографии, в основном лицензированные вышеупомянутыми компаниями, которые быстро расширили поддержку всего за английский слишком много Европейский и в конце концов даже Азиатские языки. Однако это потребовало повышения уровня сложности морфологических процедур программного обеспечения, особенно в отношении сильно-агглютинативный языки как Венгерский и Финский. Хотя размер рынка текстовых редакторов в такой стране, как Исландия могли не оправдать вложения во внедрение средства проверки орфографии, такие компании, как WordPerfect, тем не менее, стремились локализовать свое программное обеспечение для максимально возможного количества национальных рынков в рамках своей глобальной маркетинг стратегия.

Когда Apple Macintosh разработала «общесистемную программу проверки орфографии», чтобы «операционная система взяла на себя исправления орфографии»,[11] это было первое: «не нужно было поддерживать отдельную проверку орфографии для каждой» программы.[12] Mac OS X Охват проверки орфографии включает практически все связанные приложения и приложения сторонних производителей.

Визуальные инструменты ' VT Speller, представленный в 1994 году, был «разработан для разработчиков приложений, поддерживающих Windows».[13][14] Он поставлялся со словарем, но имел возможность создавать и использовать вторичные словари.[15]

Браузеры

Fire Fox 2.0, а веб-браузер, поддерживает проверку орфографии для пользовательского контента,[16] например, при редактировании Wikitext, писать на многих электронная почта места, блоги, и социальная сеть веб-сайты. Веб-браузеры Гугл Хром, Konqueror, и Опера, почтовый клиент Kmail и мгновенное сообщение клиент Пиджин также предлагает поддержку проверки орфографии, прозрачно используя ранее GNU Aspell и в настоящее время Hunspell как их двигатель.

Специальности

Некоторые программы проверки орфографии имеют отдельную поддержку медицинских словарей, чтобы предотвратить медицинские ошибки.[17][18][19]

Функциональность

Первые средства проверки орфографии были «проверяющими», а не «корректорами». Они не предложили никаких предложений для неправильно написанных слов. Это было полезно для опечатки но это было не так полезно для логических или фонетических ошибок. Проблема, с которой столкнулись разработчики, заключалась в том, что трудно было предложить полезные предложения для слов с ошибками. Это требует сокращения слов до скелетной формы и применения алгоритмов сопоставления с образцом.

Может показаться логичным, что когда речь идет о словарях для проверки орфографии, «чем больше, тем лучше», чтобы правильные слова не помечались как неправильные. Однако на практике оптимальный размер для английского составляет около 90 000 статей. Если их больше, неправильно написанные слова могут быть пропущены, потому что они ошибочно приняты за другие. Например, лингвист может определить на основе корпусная лингвистика это слово бат чаще ошибочное написание ванна или же летучая мышь чем ссылка на тайскую валюту. Следовательно, обычно было бы более полезно, если бы несколько людей, которые пишут о тайской валюте, были немного неудобны, чем если бы орфографические ошибки гораздо большего числа людей, которые обсуждают ванны, были упущены.

Скриншот Зачаровывать, то AbiWord программа проверки орфографии.

Первые средства проверки орфографии MS-DOS в основном использовались в режиме проверки из текстовых пакетов. После подготовки документа пользователь сканировал текст на предмет орфографических ошибок. Однако позже пакетная обработка была предложена в таких пакетах, как Oracle недолговечный CoAuthor и позволял пользователю просматривать результаты после обработки документа и исправлять только те слова, которые были заведомо неправильными. Когда памяти и вычислительной мощности стало больше, проверка орфографии выполнялась в фоновом режиме в интерактивном режиме, как это было в случае с программой Spellbound, созданной Sector Software, выпущенной в 1987 году и Microsoft Word начиная с Word 95.

В последние годы средства проверки орфографии становятся все более изощренными; некоторые теперь способны распознавать простые грамматический ошибки. Однако даже в лучшем случае они редко обнаруживают все ошибки в тексте (например, омофон ошибки) и будет отмечать неологизмы и иностранные слова как орфографические ошибки. Тем не менее, проверку орфографии можно рассматривать как разновидность письменный помощник на иностранном языке что изучающие неродной язык могут рассчитывать на обнаружение и исправление своих орфографических ошибок на целевом языке.[20]

Проверка орфографии на неанглийских языках

Английский необычен тем, что большинство слов, используемых в формальном письме, имеют одно написание, которое можно найти в типичном словаре, за исключением некоторых жаргонов и модифицированных слов. Во многих языках слова часто соединенный в новые словосочетания. В немецком языке составные существительные часто образуются от других существующих существительных. В некоторых сценариях одно слово четко не отделяется от другого, поэтому требуются алгоритмы разделения слов. Каждый из них представляет собой уникальную проблему для средств проверки правописания, не владеющих английским языком.

Контекстно-зависимые средства проверки правописания

Были проведены исследования по разработке алгоритмов, способных распознавать слово с ошибкой, даже если само слово есть в словаре, на основе контекст окружающих слов. Это не только позволяет улавливать слова, подобные тем, что в стихотворении выше, но и смягчает пагубный эффект увеличения словарей, позволяя распознавать больше слов. Например, бат в том же абзаце, что и Тайский или же Таиланд не будет распознаваться как неправильное написание ванна. Наиболее распространенный пример ошибок, обнаруженных такой системой: омофон ошибки, например слова, выделенные жирным шрифтом в следующем предложении:

Их приходящий тоже море если это катушка.

Самым успешным алгоритмом на сегодняшний день является алгоритм Эндрю Голдинга и Дэна Рота "Winnow алгоритм исправления орфографии на основе ",[21] опубликованный в 1999 году, который способен распознавать около 96% контекстно-зависимых орфографических ошибок в дополнение к обычным орфографическим ошибкам, не относящимся к словам. Контекстно-зависимая проверка орфографии появляется в Microsoft Office 2007,[22] а также появился в ныне несуществующей Google Wave.[23]

Проверка грамматики попытаться исправить проблемы с грамматикой помимо орфографических ошибок, включая неправильный выбор слов.

Смотрите также

Рекомендации

  1. ^ Патент США 6618697, Метод исправления орфографических и грамматических ошибок на основе правил.
  2. ^ de Amorim, R.C .; Зампиери, М. (2013) Эффективные методы проверки орфографии с использованием алгоритмов кластеризации. В архиве 2017-08-17 в Wayback Machine Труды последних достижений в обработке естественного языка (RANLP2013). Хисар, Болгария. п. 172-178.
  3. ^ Zampieri, M .; де Аморим, Р. (2014) Между звуком и правописанием: сочетание фонетики и алгоритмов кластеризации для улучшения восстановления целевого слова. Материалы 9-й Международной конференции по обработке естественного языка (PolTAL). Конспект лекций по информатике (LNCS). Springer. п. 438-449.
  4. ^ Эрнест, Лес. "Первые три средства проверки правописания" (PDF). Стэндфордский Университет. Архивировано из оригинал (PDF) 22 октября 2012 г.. Получено 10 октября 2011.
  5. ^ Петерсон, Джеймс (декабрь 1980 г.). Компьютерные программы для обнаружения и исправления орфографических ошибок (PDF). Получено 2011-02-18.
  6. ^ Эрнест, Лес. Видимое наследие для Y3K (PDF). Архивировано из оригинал (PDF) на 2011-07-20. Получено 2011-02-18.
  7. ^ а б "Преподаватели и сотрудники Джорджтаунского университета: Центр языка, образования и развития". Архивировано из оригинал на 2009-02-05. Получено 2008-12-18., цитата: «Мария Мариани ... была одной из шести лингвистов из Джорджтаунского университета, которые разработали первую систему проверки орфографии для корпорации IBM».
  8. ^ Харви, Шарлотта Брюс (май – июнь 2010 г.). «Обучение компьютеров правописанию (некролог Генри Кучера)». Журнал Brown Alumni. п. 79.
  9. ^ Реклама (январь 1981 г.). "Micro Computer Industries, Ltd" (PDF). Вычислить! Журнал, Выпуск 8, Том. 3, №1. п. 119.
  10. ^ Реклама (ноябрь 1982 г.). "Орфографическая пчела закончилась". Журнал ПК. п. 165. Получено 21 октября 2013.
  11. ^ Дэвид Пог (2009). Mac OS X Snow Leopard: Пропавшее руководство.
  12. ^ Дэвид Пог (2015). Переход на Mac: отсутствующее руководство.
  13. ^ "VisualTools VT-Speller". Computerworld. 21 февраля 1994 г. с. 68.
  14. ^ "Обзор 27 сентября 1993 г.". VT-SPELLER
  15. ^ Питер Г. Эйткен (8 ноября 1994 г.). «Проверка орфографии для ваших приложений». Журнал ПК. п. 299.
  16. ^ "Проверить мою электронную почту на наличие орфографических ошибок".
  17. ^ «Медицинская проверка орфографии для Firefox и Thunderbird». e-MedTools. 2017 г.. Получено 2018-08-29.
  18. ^ Кватамер, доктор Тобиас (2016). "Немецкий медицинский словарь слов". Д-р Тобиас Кватамер. Получено 2018-08-29.
  19. ^ Фридман, Ричард А .; Д, М (2003). «СЛУЧАИ; Учитываются ли орфография и почерк? В медицине вы держите пари». Нью-Йорк Таймс. Получено 2018-08-29.
  20. ^ Бэнкс, Т. (2008). Трудности изучения иностранного языка и стратегии преподавания. (стр.29). Магистерская работа, Доминиканский университет Калифорнии. Проверено 19 марта 2012 года.
  21. ^ Голдинг, Эндрю Р .; Рот, Дэн (1999). "Журнальная статья". Машинное обучение. SpringerLink. 34: 107–130. Дои:10.1023 / А: 1007545901558.
  22. ^ Уолт Моссберг (4 января 2007 г.). "Рассмотрение". Wall Street Journal. Получено 24 сентября 2010.
  23. ^ «Операционная система Google». googlesystem.blogspot.com. Получено 25 сентября 2010. "Контекстно-зависимая проверка орфографии Google". 29 мая 2009 г.. Получено 25 сентября 2010.

внешняя ссылка