Лемур проект - Lemur Project

В Лемур проект является результатом сотрудничества Центра интеллектуального поиска информации в Массачусетский университет в Амхерсте и Институт языковых технологий в Университет Карнеги Меллон. Проект Lemur разрабатывает поисковые системы, панели инструментов браузера, инструменты анализа текста и ресурсы данных, которые поддерживают исследования и разработку программного обеспечения для поиска информации и анализа текста. Проект наиболее известен своими поисковыми системами Indri и Galago, наборами данных ClueWeb09 и ClueWeb12 и библиотекой обучения ранжированию RankLib. Программное обеспечение и наборы данных широко используются в научных и исследовательских приложениях, а также в некоторых коммерческих приложениях.

Философия разработки программного обеспечения Lemur Project делает упор на высочайшую точность, гибкость и эффективность. Например, поисковая машина Indri обеспечивает точный поиск больших текстовых коллекций «из коробки», а данные хранятся в доступном виде для поддержки разработки новых стратегий поиска. Программное обеспечение Lemur Project распространяется по лицензиям с открытым исходным кодом, которые обеспечивают гибкость для ученых и разработчиков программного обеспечения.

Языки программирования, используемые для создания Лемура: C, C ++, и Ява, и он поставляется вместе с исходными файлами и инструкциями по сборке. Предоставленный исходный код может быть изменен с целью разработки новых библиотек. Он совместим с различными операционными системами, включая Linux и Windows.

Функции

Lemur поддерживает следующие функции:

Составные части

Lemur Project состоит из следующих компонентов:

  • Поисковая система Indri на C ++
  • Фреймворк для поисковых систем Galago на Java
  • Библиотека обучения ранжированию RankLib
  • Приложение для интеллектуального анализа данных Sifaka
  • Наборы данных ClueWeb09 и ClueWeb12
  • Панель инструментов журнала запросов

Последняя версия

Компоненты проекта Lemur Project обновляются дважды в год, в июне и декабре. Последняя версия поисковой системы Indri - 5.17. Последняя версия поисковой системы Galago - версия 3.18. Последняя версия RankLib для обучения. ранг библиотеки 2.14. Последняя версия приложения интеллектуального анализа данных Sifaka - 1.8.

Поисковая система Indri

Поисковая система Indri - один из компонентов, разработанных Lemur Project. Это открытый исходный код. Язык запросов, используемый в Indri, позволяет исследователям индексировать данные или структурировать документы с помощью простых инструкций командной строки. Indri предлагает гибкость с точки зрения адаптации к различным текущим приложениям. Он также может быть распределен по кластеру узлов для обеспечения высокой производительности. Поисковая система Indri может обрабатывать большие коллекции данных и понимать различные форматы данных, такие как HTML и XML.

Indri API поддерживает различные языки программирования и сценариев, такие как C ++, Ява, C #, и PHP.

Особенности поисковой системы Indri

  • Может использовать несколько представлений документов
  • Явное взвешивание терминов
  • Надежный язык запросов
  • Формально обоснованный
  • Высокоэффективный
  • Может быть эффективно реализован

Смотрите также

внешняя ссылка