SpaCy - SpaCy
Оригинальный автор (ы) | Мэтью Хоннибал |
---|---|
Разработчики) | ИИ взрыва, разные |
изначальный выпуск | Февраль 2015 г.[1] |
Стабильный выпуск | 2.3.4 / 26 ноября 2020[2] |
Предварительный выпуск | 3.0.0rc2 / 26 октября 2020[2] |
Репозиторий | |
Написано в | Python, Cython |
Операционная система | Linux, Windows, macOS, OS X |
Платформа | Кроссплатформенность |
Тип | Обработка естественного языка |
Лицензия | Лицензия MIT |
Интернет сайт | просторный |
СПАСИБО (/sпeɪˈsя/ удалять яичники-ВИДЕТЬ ) является Открытый исходный код программная библиотека для продвинутых обработка естественного языка, написанные на языках программирования Python и Cython.[3][4] Библиотека издается под Лицензия MIT и его основными разработчиками являются Мэтью Хоннибал и Инес Монтани, основатели софтверной компании Explosion.
В отличие от НЛТК, который широко используется для обучения и исследований, spaCy фокусируется на предоставлении программного обеспечения для производственного использования.[5][6] Начиная с версии 1.0, spaCy также поддерживает глубокое обучение рабочие процессы[7] которые позволяют подключать статистические модели, обученные популярными машинное обучение библиотеки вроде TensorFlow, PyTorch или MXNet через собственную библиотеку машинного обучения Thinc.[8][9] Используя Thinc в качестве бэкэнда, функции spaCy сверточная нейронная сеть модели для теги части речи, анализ зависимостей, категоризация текста и признание названного лица (NER). Предварительно построенная статистика нейронная сеть модели для выполнения этой задачи доступны для английского, немецкого, греческого, испанского, португальского, французского, итальянского, голландского, литовского и норвежского языков, а также существует многоязычная модель NER. Дополнительная поддержка для токенизация для более чем 50 языков позволяет пользователям обучать пользовательские модели на своих собственных наборах данных.[10]
Основные особенности
- Неразрушающий токенизация
- Признание именной организации
- Поддержка «альфа-токенизации» для более чем 50 языков.[11]
- Статистические модели для 11 языков[12]
- Предварительно обученный векторы слов
- Пометка части речи
- Маркированный зависимость разбор
- На основе синтаксиса сегментация предложения
- Классификация текста
- Встроенные визуализаторы для синтаксис и названные объекты
- Глубокое обучение интеграция
Расширения и визуализаторы
spaCy поставляется с несколькими расширениями и визуализациями, которые доступны бесплатно, Открытый исходный код библиотеки:
- Тонкий: A машинное обучение библиотека оптимизирована для ЦПУ использование и глубокое обучение с вводом текста.
- sense2vec: библиотека для вычисления сходства слов на основе Word2vec и sense2vec.[13]
- ДИСПЛЕЯ: An Открытый исходный код зависимость дерево синтаксического анализа визуализатор построен с JavaScript, CSS и SVG.
- отображениеЛОР: An Открытый исходный код названный объект визуализатор построен с JavaScript и CSS.
Рекомендации
- ^ «Представляем spaCy». Explosion.ai. Получено 2016-12-18.
- ^ а б «Выбросы - взрыв / spaCy». Получено 26 ноября 2020 - через GitHub.
- ^ Choi et al. (2015). Зависит от: Сравнение анализатора зависимостей с помощью веб-инструмента оценки.
- ^ «Новый искусственный интеллект Google не может понять эти предложения. Вы можете?». Вашингтон Пост. Получено 2016-12-18.
- ^ «Факты и цифры - spaCy». spacy.io. Получено 2020-04-04.
- ^ Птица, Стивен; Кляйн, Юэн; Лопер, Эдвард; Болдридж, Джейсон (2008). «Междисциплинарное обучение с помощью инструментария естественного языка» (PDF). Материалы третьего семинара по вопросам обучения компьютерной лингвистике, ACL.
- ^ "взрыв / спаСи". GitHub. Получено 2016-12-18.
- ^ «PyTorch, TensorFlow и MXNet». thinc.ai. Получено 2020-04-04.
- ^ "взрыв / тонкий". GitHub. Получено 2016-12-30.
- ^ "Модели и языки | Документация по использованию spaCy". spacy.io. Получено 2020-03-10.
- ^ "Модели и языки - spaCy". spacy.io. Получено 2020-03-10.
- ^ "Модели и языки | Документация по использованию spaCy". spacy.io. Получено 2020-03-10.
- ^ Траск и др. (2015). sense2vec - быстрый и точный метод устранения неоднозначности слов при встраивании нейронных слов.