CorCenCC - CorCenCC
CorCenCC или (валлийский: Corpws Cenedlaethol Cymraeg Cyfoes) Национальный корпус современного валлийского языка это языковой ресурс для валлийский носители языка, изучающие валлийский язык, исследователи валлийского языка и все, кто интересуется валлийским языком. CorCenCC - это свободно доступная коллекция образцов на нескольких языках, собранная в ходе реального общения и представленная в доступном для поиска в Интернете CorCenCC. текстовый корпус. Корпус сопровождается интерактивным набором инструментов для преподавания и обучения - Y Tiwtiadur[1] - который напрямую опирается на данные из корпуса, чтобы предоставить ресурсы для изучения валлийского языка для всех возрастов и уровней.
CorCenCC, запущенный в сентябре 2020 года, является первым корпусом валлийского языка, который включает в себя все три аспекта современного валлийского: разговорный, письменный и электронный (электронный).
Сочинение
CorCenCC расширяет 11 миллионов слов естественного валлийского языка (примечание: версия корпуса, доступная на веб-сайте CorCenCC, дает результаты в токенах, а не в словах). Создание CorCenCC было проектом сообщества, который предлагал пользователям валлийского языка возможность внести свой вклад в ресурс валлийского языка, отражающий то, как валлийский язык используется в настоящее время. Таким образом, набор данных предлагает моментальный снимок валлийского языка в различных контекстах использования, например частные беседы, групповое общение, деловые и другие рабочие ситуации, в образовании, в различных изданиях и в общественных местах. Полный список контекстов, жанров и тем доступен на сайте проекта.
Разговоры были записаны исследовательской группой, а краудсорсинг Приложение позволило носителям валлийского языка в сообществе записывать и загружать образцы своего собственного языка в корпус. Опубликованный корпус CorCenCC был отобран от различных носителей и пользователей валлийского языка из всех регионов Уэльса, всех возрастов и полов, с широким спектром занятий и с различным лингвистическим образованием (например, как они начали говорить Валлийский), чтобы отразить разнообразие типов текстов и говорящих на валлийском языке в современном Уэльсе.[2]
Инструменты
- Набор данных на валлийском языке из 11 миллионов слов
- Основа выборки CorCenCC
- Протоколы транскрипции для разговорного валлийского языка
- Набор тегов POS и теггер на валлийском языке, CyTag[3] (Английский: /ˈkəтæɡ/): валлийский теггер POS (с индивидуальным набором тегов), разработанный и созданный для этого проекта. Он используется вместе с семантическим тегом для тегирования всех лексических элементов в корпусе.
- CySemTag (английский: /ˈkəsɛмˌтæɡ/): Валлийский семантический теггер[4][5][6] автоматически применяет аннотацию корпуса к данным на валлийском языке.
- Педагогический инструментарий валлийского языка, Y Tiwtiadur[7] (Валлийское произношение:[ə tiutˈjadɪr]), который включает:
- инструмент для заполнения зазоров (закрытия)
- инструмент Word Profiler
- инструмент идентификации слов
- инструмент Word Task Creator
- Краудсорсинговое приложение[2] для сбора данных: позволяет носителям валлийского языка записывать разговоры между собой и другими людьми в различных контекстах и загружать их с согласия участников с соблюдением этических норм для включения в окончательный корпус. Краудсорсинговый корпус данных - это относительно новое направление, которое дополняет более традиционные методы сбора языковых данных и соответствует духу сообщества, существующему среди носителей и изучающих валлийский и другие языки. миноритарные языки.
- Новая инфраструктура корпуса CorCenCC[8] инструменты запросов, которые включают следующие функции:
- Простой запрос
- Сложный запрос
- Генерация списка частот
- Анализ коллокаций
- N-граммовый анализ
- Согласование
- Анализ ключевых слов
Финансирование
Исследование, на котором был основан проект CorCenCC, финансировалось Министерством экономики и социальной защиты Великобритании. Исследовательский совет (ESRC ) и Совет по исследованиям в области искусства и гуманитарных наук (AHRC ) в качестве "Corpws Cenedlaethol Cymraeg Cyfoes (The National Corpus of Contemporary Welsh): Подход сообщества к проекту создания лингвистического корпуса »(номер гранта ES / M011348 / 1).
внешняя ссылка
- CorCenCC - Национальный корпус современного валлийского языка интернет сайт
- CorCenCC GitHub
- Y Tiwtiadur, пособие по преподаванию валлийского языка
Рекомендации
- ^ "Y Tiwtiadur - CorCenCC - Национальный корпус современного валлийского языка". Получено 2020-09-18.
- ^ а б Neale, S .; Спасич, I .; Потребности, Дж .; Watkins, G .; Morris, S .; Фитцпатрик, Т .; Marshall, L .; Найт, Д. (2017), "Краудсорсинговое приложение CorCenCC: специализированный инструмент для пользовательского создания национального корпуса современного валлийского языка", Конференция Corpus Linguistics 2017, Университет Ньюкасла
- ^ Neale, S .; Доннелли, К .; Watkins, G .; Найт, Д. (май 2018 г.). «Использование лексических ресурсов и грамматики ограничений для разметки частей речи на основе правил на валлийском языке». Стендовый доклад, представленный на конференции LREC (Language Resources Evaluation) 2018. Миядзаки, Япония.CS1 maint: дата и год (связь)
- ^ «Система семантического анализа UCREL (USAS)». ucrel.lancs.ac.uk. Получено 2020-09-18.
- ^ Piao, S .; Rayson, P .; Knight, D .; Уоткинс, Г. (май 2018 г.), «На пути к валлийской семантической системе аннотаций», Материалы конференции LREC (Language Resources Evaluation) 2018, Миядзаки, ЯпонияCS1 maint: дата и год (связь)
- ^ Piao, S .; Rayson, P .; Knight, D .; Watkins, G .; Доннелли, К. (июль 2017 г.), «К валлийскому семантическому теггеру: создание лексиконов для языка с ограниченными ресурсами», Труды конференции Corpus Linguistics 2017, Университет Бирмингема, Бирмингем, ВеликобританияCS1 maint: дата и год (связь)
- ^ Дэвис, Дж .; Thomas, E-M .; Фитцпатрик, Т .; Потребности, Дж .; Энтони, L .; Cobb, T .; Рыцарь, Д. (2020). "Y Tiwtiadur. [Цифровой ресурс]".
- ^ Knight, D .; Loizides, F .; Neale, S .; Энтони, L .; Спасич, И. (2020). «Разработка вычислительной инфраструктуры для корпуса CorCenCC: Национальный корпус современного валлийского языка». Языковые ресурсы и оценка: 1–28. Дои:10.1007 / s10579-020-09501-9.