Проект Нафта - Project Naptha

Проект Нафта
Оригинальный автор (ы)	Кевин Квок
Разработчики)	Гугл Хром
изначальный выпуск	апрель 2013; 7 лет назад
Стабильный выпуск	Хром:; 0.9.3 / 7 июля 2014 г.; 6 лет назад
Написано в	JavaScript
Операционная система	Хром
Размер	428 КБ
Тип	Расширение браузера
Интернет сайт	Projectnaptha.com

Проект Нафта это расширение для браузера программного обеспечения за Гугл Хром что позволяет пользователям выделять, копировать, редактировать и переведите текст из изображений.^[1] Его создал разработчик Кевин Квок,^[2] и выпущен в апреле 2014 года как надстройка Chrome. Это программное обеспечение сначала было доступно только в Google Chrome, его можно загрузить с Интернет-магазин Chrome. Затем он стал доступен на Mozilla Firefox, загружаемый из Mozilla Firefox дополнения хранилище но вскоре был удален. Причина удаления остается неизвестной.^[3]

В веб-браузер extension использует передовые технологии обработки изображений.^[4] Подобные технологии также использовались для производства печатных копий произведений искусства, а идентификация этих работ.^[5]

Путем принятия нескольких Оптическое распознавание символов (OCR) алгоритмы, включая библиотеки, разработанные Microsoft Research и Google, текст автоматически определяется на изображениях. OCR позволяет построить модель текстовых областей, слов и букв из всех изображений.^[6]

Технология OCR, которую использует Project Naptha, немного дифференцированный технология по сравнению с технологией, используемой в программном обеспечении, таком как Гугл Диск и Microsoft OneNote для облегчения и анализа текста в изображениях. В Project Naptha также используется метод, называемый Преобразование ширины штриха (SWT),^[7] разработан Microsoft Research в 2008 году как форма обнаружения текста.

Происхождение имени

Название Naptha происходит от Нафта, это общий термин, появившийся несколько тысяч лет назад и относящийся к легковоспламеняющимся жидким углеводородам. Процесс выделения текстов также вдохновил на название проекта.

Сложность перевода слов с изображений

До появления такого программного обеспечения, как Project Naptha, процесс редактирования, копирования или цитирования текста внутри изображений был трудным. Раньше единственным способом поиска или копирования предложения из изображения было вручную расшифровать текст.

История

В мае 2012 года Кевин Квок^[2] читал о резьба по шву, алгоритм который смог изменить масштаб изображения без искажения или ухудшения качества изображения. Квок заметил, что они имеют тенденцию сходиться и располагаться таким образом, чтобы прорезать промежутки между буквами. Особенно подробный комикс вдохновил его на разработку программного обеспечения который может читать изображения (с холст ), нарисуйте позиции линий и букв и нарисуйте наложения выделения, чтобы смягчить всепроникающий привычка выделения текста.

Первая попытка Квок была простой. Он проецировал изображение сбоку и вертикальный пиксель гистограмма изображения был сформирован. Значимые впадины полученных гистограмм служили подписью концов текстовых строк. При обнаружении горизонтальных линий каждая линия автоматически обрезается, и процесс гистограммы повторяется до тех пор, пока не будут идентифицированы все горизонтальные линии на изображении. Чтобы определить положение буквы, был выполнен аналогичный процесс, но на этот раз вертикально. Однако выполнение процесса по вертикали не увенчалось успехом, так как созданные прогнозы не читались. Это было менее эффективно, поскольку доказывало, что этот процесс строго применим только к горизонтальному машинному напечатанному тексту. Столкнувшись с высокими техническими трудностями, Квок решил отказаться от этого проекта в 2012 году.

Это было только до тех пор, пока Кевин Квок не пошел учиться в Массачусетский Институт Технологий (MIT) и вошел в хакатон, что он снова взял этот проект. Этот проект в итоге занял ему второе место. Для него выбор текстов на картинках был чем-то, что можно было осуществить на техническом уровне. Соответствующая технология существует и была легкодоступна в течение некоторого времени, но по необъяснимой причине она не была расширена для приложения перевода текстов с изображений. Как только Кевин Квок решил снова начать свой проект, технология для транскрипция, перевод, стирание текста и модификация происходили потом естественным образом.

Технические особенности

Перед Оптическое распознавание символов (OCR) может быть применен, он должен сначала определить, существуют ли блоки текста в изображении. После того, как блоки текста идентифицированы, OCR позволяет построить модель текстовых областей, слов и букв из любых изображений.^[6] Эта функция предоставляет пользователям возможность копировать, переведите и даже модифицировать текст прямо на каждом изображении, в реальном времени и в их Гугл Хром браузер.^[8]

Основная особенность Project Naptha - функция обнаружения текста. Работает на алгоритм называется «Преобразование ширины штриха», разработанное Microsoft Research в 2008 году,^[7] он дает возможность определять области текста в не зависящий от языка способ и обнаружение наклонного текста и текста на изображениях. Это достигается за счет использования ширины линий, составляющих буквы, в качестве средства идентификации элементов, которые потенциально могут быть текстом, а не попытки определить заранее определенные отдельные элементы в качестве маркера текста.

В этом случае программа становится очень интуитивно понятный, аналогично людям, в которых нам не нужно понимать язык, чтобы распознавать письменный текст.^[9]

Project Naptha применяется автоматически уровень развития компьютерное зрение алгоритмы на каждом изображении, доступном при просмотре веб-страниц, что позволяет пользователям выделять, копировать и вставлять, редактировать и переводить текст, который ранее был захвачен внутри изображения.

Техника, аналогичная функции Photoshop «Заливка с учетом содержимого».^[10] называется "рисование »Принимается. Эти типы алгоритмов известны как часть Adobe Photoshop "Заливка с учетом содержимого". Это предполагает использование алгоритм который автоматически заполняет пространство, ранее занимаемое текстом, цветами из окружающей области, соответствуя шрифту переведенного текста в стиле исходного изображения. Для этого сначала обнаруживается текст и извлекаются сплошные цвета из областей, окружающих текст. Затем цвета будут распространяться вокруг и внутрь, пока не будет заполнена вся область. Этот метод позволяет пользователю реконструировать изображения, а также редактировать и удалять слова из изображения с захватом и обработкой независимых цветов из областей вокруг редактируемого текста.^[8]

Чтобы обеспечить беспроблемный и интуитивно понятный интерфейс для пользователя, расширение техника отслеживает движения курсора и непрерывно экстраполирует на секунду вперед в зависимости от его положения и скорости, прогнозируя, где на изображении могут быть блики.^[1] Затем программное обеспечение Project Naptha сканирует и запускает ресурсоемкие алгоритмы распознавания символов, обрабатывая потенциальный текст, который пользователи могут захотеть выделить на изображении заранее.^[11]

Заявление

Project Naptha можно использовать в нескольких приложениях, позволяя пользователям копировать тексты с любых изображений, отображаемых в браузере. Сюда входят комиксы, фотографии, скриншоты, изображения с наложенным текстом, например интернет-мемы, анимированные Гифки, сканы, схемы с надписями и переводы.^[12]

Комиксы

В октябре 2013 г. прототип для расширения для комиксов было выпущено. Потребность в расширении для комиксов возникла из-за использования комических шрифтов, которые являются более случайными и неформальными. Персонажи часто помещаются близко друг к другу, как если бы они были связаны, и если кто-то пытается скопировать и вставить текст из комикса, скопированный текст обычно будет выглядеть беспорядочно и нечетко.

Фото

В алгоритм Project Naptha для фотографий использует Stroke Width Transform, который был специально разработан для обнаружения текста в естественных сценах и фотографиях. Это связано с тем, что фотографии обычно сложнее и технически сложнее копировать текст по сравнению с большинством обычных изображений.

Скриншоты

Для скриншотов Project Naptha преобразует статический снимки экрана во что-то более похожее на интерактивный снимок компьютера, каким он был во время захвата экрана. Курсор изменяется при наведении курсора на разные части, и блоки текста становятся доступными для выбора.

Редактирование текста на изображениях

Project Naptha позволяет стирать и редактировать тексты на изображении с помощью технологии перевода. Эта технология перевода по существу использует "Живопись ”.

При изменении текста используется тот же прием, что и перевод использует. Меню «Перевести» позволяет переводить текст в изображении на множество других языков, таких как английский, испанский, русский, французский, упрощенный китайский, традиционный китайский, японский или немецкий.^[8]

Технические ограничения

Несмотря на постоянное улучшение программного обеспечения, Project Naptha все еще сталкивается с рядом технических трудностей.

В не зависящий от языка Природа алгоритма преобразования ширины обводки, лежащего в основе Project Naptha, позволяет ему обнаруживать маленькие волнистые линии как текст. Несмотря на то, что это плюс, поскольку он способен обнаруживать незначительные детали, он также может рассматриваться как ошибка, обнаружив и включив слишком много нежелательных деталей.

Когда цвета текстов и фона изображения схожи, становится сложно распознавать слова, поскольку слова становятся менее отличительными от изображения. Это создает неточности при обнаружении и копировании текстов.^[12]

Из-за сегментации символов почерк особенно трудно распознать. Знаки в почерках часто написаны слишком близко друг к другу, что затрудняет сегментирование знаков или разделение букв. Следовательно, копирование текстов из этих типов источников приведет к высоким неточность и с перемешанный буквы.^[12]

В рамках функции улучшения Project Naptha начал работу над ним и включил поддержку повернутого текста. Однако эта функция ограничена только примерно до 30 градусов. Любой текст с поворотом более 30 градусов может стать недоступным для копирования или перевода.

Для техник, использующих рисование, есть лазейки в том, что изображения вряд ли могут заменить оригинал и могут оставить следы его редактирования. Однако это будет выглядеть так, как будто слова были безупречно удалены с изображения на большом расстоянии.

Безопасность

Проблемы безопасности

Для любого другого программного обеспечения, которое используется на сайтах, одна из самых больших проблем связана с проблемами, возникающими в отношении баланса между пользовательским интерфейсом и Конфиденциальность. Понятно, что разработчики Project Naptha делают все возможное, чтобы разрешить обработку на стороне клиента (т. Е. В браузере). Однако, поскольку текст, выбранный пользователями для извлечения из изображения, обрабатывается в облаке. Это означает, что для достижения более высоких перевод точности, по-прежнему необходимо полагаться на более эффективную облачную обработку и, следовательно, на компромисс в отношении конфиденциальности.^[4]

Существует дефолт настройка, которая помогает найти тонкий баланс между доступностью всех функций и соблюдением конфиденциальности пользователей. По умолчанию, когда пользователи начинают выбирать текст, безопасный HTTPS запрос отправлен. Он содержит только URL-адрес конкретного изображения и ничего больше - нет Пользовательские токены, нет информации о веб-сайте, нет Печенье или аналитика, и запросы не регистрируются. Сервер отвечает списком существующих переводов и языков OCR, которые были выполнены. Это позволяет распознавать текст на изображении с гораздо большей точностью, чем это было возможно в противном случае.

В зависимости от предпочтений пользователей эту функцию по умолчанию можно отключить, установив флажок «Отключить поиск» в меню «Параметры».

Конфиденциальность

При установке Project Naptha требуются разрешения и полный доступ к информации пользователя. Эта информация будет запрошена в диалоговом окне установки. Чтобы обеспечить взаимодействие со всеми изображениями, требуется разрешение пользователя для программного обеспечения на чтение всех изображений со всех сайтов. С другой стороны, если пользователь не хочет разрешать доступ Project Naptha ко всем изображениям со всех сторон, он также может отключить эту функцию в диалоговом окне установки. В этом случае Project Naptha будет работать с очень низким уровнем доступа и, в идеале, является той функциональностью, которая изначально встроена в браузеры и операционные системы.

Расширение почти полностью написано на стороне клиента JavaScript, позволяя расширению работать без доступа к удаленному серверу. Однако следует отметить, что онлайн-перевод, выполняемый в автономном режиме, противоречит, и неадекватный доступ к кэшированной службе OCR, работающей в облаке, будет означать компромисс и снижение производительности и снижение транскрипция точность.

Наконец, из-за проблем с масштабируемостью функция перевода в настоящее время находится в ограниченном развертывании. Онлайн-сервисы OCR рассчитаны на пользователя, поэтому требуется токен уникального идентификатора. Этот токен полностью анонимен и не связан ни с какими личная информация.

Будущие разработки

Помимо текущего программного обеспечения, которое позволяет манипулировать текстами внутри изображений, существует экспериментальная функция, которая планирует расширить возможности программного обеспечения. В рамках этого экспериментального расширения программное обеспечение направлено на то, чтобы позволить пользователям искать текст внутри изображений на текущей странице, что является отличной функцией для всех пользователей.^[4]

Project Naptha также ищет различные способы улучшить свои ограничения. В настоящее время текст может иметь угол поворота не более 30 градусов.^[13] иначе это было бы худшего качества. Project Naptha будет стремиться повысить качество своих будущих версий за счет использования лучше обученных моделей и алгоритмов. Также существует возможность включения служб транскрипции, которым будут помогать люди.

Кроме того, техника рисования может оставлять следы на исходном изображении, делая очевидным, что оно было отредактировано. Ожидается, что этот метод также улучшится, особенно с техникой обнаружения логики, помимо простого обнаружения шрифтов. В настоящее время inpainted читает шрифты следующим образом - если верхний регистр и полужирный шрифт, то шрифт Impact, если верхний регистр, иначе шрифт XKCD, а для всего остального - Helvetica Neue.

По признанию Квок, Project Naptha все еще нуждается в улучшении многих своих функций. Основная причина заключается в том, что с точки зрения различных подкомпонентов и алгоритмов Project Naptha на несколько лет отстает от уровень развития. Тем не менее, он твердо уверен, что со временем функции распознавания, перевода и удаления текста можно будет развивать дальше, и этот огромный потенциал определенно будет захватывающим.

Смотрите также

Копифиш - Подражатель Расширение Google Chrome решает ту же проблему, но использует другой подход к пользовательскому интерфейсу.