SpaCy - SpaCy

СПАСИБО
SpaCy logo.svg
Оригинальный автор (ы)Мэтью Хоннибал
Разработчики)ИИ взрыва, разные
изначальный выпускФевраль 2015 г.; 5 лет назад (2015-02)[1]
Стабильный выпуск
2.3.4 / 26 ноября 2020; 11 дней назад (2020-11-26)[2]
Предварительный выпуск
3.0.0rc2 / 26 октября 2020; 42 дней назад (2020-10-26)[2]
Репозиторий Отредактируйте это в Викиданных
Написано вPython, Cython
Операционная системаLinux, Windows, macOS, OS X
ПлатформаКроссплатформенность
ТипОбработка естественного языка
ЛицензияЛицензия MIT
Интернет сайтпросторный.io Отредактируйте это в Викиданных

СПАСИБО (/sпˈsя/ удалять яичники-ВИДЕТЬ ) является Открытый исходный код программная библиотека для продвинутых обработка естественного языка, написанные на языках программирования Python и Cython.[3][4] Библиотека издается под Лицензия MIT и его основными разработчиками являются Мэтью Хоннибал и Инес Монтани, основатели софтверной компании Explosion.

В отличие от НЛТК, который широко используется для обучения и исследований, spaCy фокусируется на предоставлении программного обеспечения для производственного использования.[5][6] Начиная с версии 1.0, spaCy также поддерживает глубокое обучение рабочие процессы[7] которые позволяют подключать статистические модели, обученные популярными машинное обучение библиотеки вроде TensorFlow, PyTorch или MXNet через собственную библиотеку машинного обучения Thinc.[8][9] Используя Thinc в качестве бэкэнда, функции spaCy сверточная нейронная сеть модели для теги части речи, анализ зависимостей, категоризация текста и признание названного лица (NER). Предварительно построенная статистика нейронная сеть модели для выполнения этой задачи доступны для английского, немецкого, греческого, испанского, португальского, французского, итальянского, голландского, литовского и норвежского языков, а также существует многоязычная модель NER. Дополнительная поддержка для токенизация для более чем 50 языков позволяет пользователям обучать пользовательские модели на своих собственных наборах данных.[10]

Основные особенности

Расширения и визуализаторы

Визуализация дерева синтаксического анализа зависимостей, созданная с помощью визуализатора DISPLACY
Зависимость дерево синтаксического анализа визуализация, созданная с помощью визуализатора DISPLACY

spaCy поставляется с несколькими расширениями и визуализациями, которые доступны бесплатно, Открытый исходный код библиотеки:

Рекомендации

  1. ^ «Представляем spaCy». Explosion.ai. Получено 2016-12-18.
  2. ^ а б «Выбросы - взрыв / spaCy». Получено 26 ноября 2020 - через GitHub.
  3. ^ Choi et al. (2015). Зависит от: Сравнение анализатора зависимостей с помощью веб-инструмента оценки.
  4. ^ «Новый искусственный интеллект Google не может понять эти предложения. Вы можете?». Вашингтон Пост. Получено 2016-12-18.
  5. ^ «Факты и цифры - spaCy». spacy.io. Получено 2020-04-04.
  6. ^ Птица, Стивен; Кляйн, Юэн; Лопер, Эдвард; Болдридж, Джейсон (2008). «Междисциплинарное обучение с помощью инструментария естественного языка» (PDF). Материалы третьего семинара по вопросам обучения компьютерной лингвистике, ACL.
  7. ^ "взрыв / спаСи". GitHub. Получено 2016-12-18.
  8. ^ «PyTorch, TensorFlow и MXNet». thinc.ai. Получено 2020-04-04.
  9. ^ "взрыв / тонкий". GitHub. Получено 2016-12-30.
  10. ^ "Модели и языки | Документация по использованию spaCy". spacy.io. Получено 2020-03-10.
  11. ^ "Модели и языки - spaCy". spacy.io. Получено 2020-03-10.
  12. ^ "Модели и языки | Документация по использованию spaCy". spacy.io. Получено 2020-03-10.
  13. ^ Траск и др. (2015). sense2vec - быстрый и точный метод устранения неоднозначности слов при встраивании нейронных слов.

внешняя ссылка