Апач Тика - Apache Tika
Разработчики) | Фонд программного обеспечения Apache |
---|---|
Стабильный выпуск | 1.24.1 / 21 апреля 2020 г. |
Репозиторий | Репозиторий Тика |
Написано в | Ява |
Операционная система | Кроссплатформенность |
Тип | Поиск и индекс API |
Лицензия | Лицензия Apache 2.0 |
Интернет сайт | тика |
Апач Тика это обнаружение контента и анализ рамки, написанные на Ява, приготовленный в Фонд программного обеспечения Apache.[1] Он обнаруживает и извлекает метаданные и текст из более чем тысячи различных типы файлов, а также предоставление Ява библиотека, имеет версии для сервера и командной строки, подходящие для использования с другими языками программирования.
История
Проект зародился в рамках Apache Nutch кодовая база, чтобы обеспечить идентификацию контента и извлечение, когда ползать. В 2007 году он был отделен, чтобы сделать его более расширяемым и удобным для использования. системы управления контентом, Другой Веб-сканеры, и информационно-поисковые системы. Автономная Tika была основана Жеромом Шарроном, Крис Маттманн и Юкка Циттинг.[2] В 2011 году Крис Маттманн и Юкка Зиттинг выпустили книгу Мэннинга «Тика в действии», а проект выпустил версию 1.0.
Функции
Tika предоставляет возможности для идентификации более 1400 типов файлов из Управление по присвоению номеров в Интернете таксономия MIME типы. Для большинства наиболее распространенных и популярных форматов[3] Затем Tika предоставляет возможности извлечения контента, метаданных и идентификации языка.
Он также может получать текст из изображений с помощью OCR программного обеспечения Тессеракт.[4]
Пока Тика написана на Ява, он широко используется из других языков.[5] В RESTful сервер и Инструмент командной строки разрешить программам, не относящимся к Java, доступ к функциям Tika.
Известные применения
Tika используется финансовыми учреждениями, включая Fair Isaac Corporation (FICO),[6] Голдман Сакс,[7] НАСА и академические исследователи[8] и основными системами управления контентом, включая Drupal,[9] и Alfresco (программное обеспечение)[10] анализировать большие объемы контента и делать его доступным в общих форматах с помощью методов поиска информации.
4 апреля 2016 г.[11] Forbes опубликовала статью, в которой Tika названа одной из ключевых технологий, используемых более чем 400 журналистами для анализа 11,5 миллионов просочившихся документов, раскрывающих международный скандал с участием мировых лидеров, хранящих деньги в офшорах. подставные корпорации. Утечка документов и проект по их анализу называется Панамские документы.
Смотрите также
Рекомендации
- ^ «Апач Тика». Получено 2016-04-15.
- ^ "Предложение Тика". Получено 2016-04-15.
- ^ «Фонд программного обеспечения Apache». Страница форматов Apache Tika. Получено 16 апреля 2016.
- ^ «ТикаОЦР». Апач Тика. 2019-03-26. Получено 2019-12-02.
- ^ «Привязки API для Tika». Апач Тика. Получено 2016-04-17.
- ^ «FICO привлечет сообщество Kaggle, состоящее из 180 000 специалистов по обработке данных, для внедрения инноваций в аналитическом облаке FICO | FICO®». FICO® | Решения. Архивировано из оригинал на 2016-06-03. Получено 2016-04-15.
- ^ "Goldman Sachs запускает Elasticsearch в работу - информационная неделя". Информационная неделя. Получено 2017-06-21.
- ^ «Изучение полярных данных с помощью Apache Tika». Opensource.com. Получено 2016-04-15.
- ^ "Извлечение текста для Drupal с использованием Tika | Drupal.org". www.drupal.org. Получено 2016-04-15.
- ^ «Преобразование контента и извлечение метаданных с помощью Apache Tika - alfrescowiki». wiki.alfresco.com. Получено 2016-04-15.
- ^ Фокс-Брюстер, Томас. «От зашифрованных дисков до облака Amazon - удивительный полет панамских документов». Forbes. Получено 2016-04-15.