Проект Моби - Moby Project
Эта статья поднимает множество проблем. Пожалуйста помоги Улучши это или обсудите эти вопросы на страница обсуждения. (Узнайте, как и когда удалить эти сообщения-шаблоны) (Узнайте, как и когда удалить этот шаблон сообщения)
|
В Проект Моби представляет собой набор общедоступных лексических ресурсов. Он был создан Грэди Уорд. Ресурсы были выделены в общественное достояние и теперь отображаются на Проект Гутенберг. По состоянию на 2007 г.[Обновить], он содержит самую большую бесплатную фонетическую базу данных, содержащую 177 267 слов с соответствующими вариантами произношения.[нужна цитата ]
Переносчик
В Moby Hyphenator II содержит переносы из 187 175 слов и словосочетаний (включая 9 752 словарных статей без переносов, например через и Эворир). Кодировка символов выглядит так: МакРоман, а расстановка переносов обозначается маркером (десятичное значение символа 165 или шестнадцатеричное A5). Однако некоторые записи содержат комбинацию фактических дефисов и символа 165, например, «bar • ber-sur • geon».
Документация о сделанных вариантах расстановки переносов практически отсутствует; следующие примеры могут дать некоторое представление об используемом стиле расстановки переносов: at • mos • phere; у • усы • муравей; емкость; un • col • или • a • ble.
Язык
Язык Моби II содержит словари на пяти языках: Французский, Немецкий, Итальянский, Японский, и испанский:
Язык | Слова | Размер (в байты ) |
---|---|---|
Французский | 138,257 | 1,524,757 |
Немецкий | 159,809 | 2,055,986 |
Итальянский | 60,453 | 561,981 |
Японский | 115,523 | 934,783 |
испанский | 86,059 | 850,523 |
Общий | 560,101 | 5,928,030 |
Однако некоторые списки загрязнены, например, список на японском языке содержит английские слова, такие как аномальный и не слова, такие как abcdefgh и м,. /. Есть также необычные особенности в сортировке этих списков, так как французский список содержит прямой алфавитный список, в то время как немецкий список содержит алфавитный список слов с традиционно заглавными буквами, а затем алфавитный список слов с традиционным нижним регистром. Список итальянских слов, однако, не содержит слов с заглавной буквы.
В списке иностранных языков не используются символы с диакритическими знаками, поэтому «e ^ tre» - это то, как пользователь будет искать французское слово. être ("быть").
Часть речи
Часть речи Моби содержит 233 356 слов, полностью описанных части речи, перечисленные в порядке приоритета. Формат файла слово части речи, при этом выделяются следующие части речи:
Произношений
В Moby Pronunciator II содержит 177 267 записей с соответствующим произношением. Большинство записей описывают одно слово, но примерно 79000[1] содержать через дефис или несколько словосочетаний, имен или лексемы. Дистрибутив Project Gutenberg также содержит копию судить v0.3. Файл содержит строки формата слово [/ часть речи] произношение. Каждая строка заканчивается ASCII Возврат каретки символ (CR, ' r', 0x0D, 13 в десятичной системе).
В слово поле может включать апострофы (например, не), дефисы (например, трудоспособный) и несколько слов, разделенных подчеркиванием (например, monkey_wrench). Неанглийские слова обычно отображаются, как указано в документации, без акцентов и других диакритических знаков. Однако в 36 записях (например, São_Miguel), остаются некоторые символы с диакритическими знаками, отличными от ASCII, представленные с использованием Mac OS Роман кодирование.
Поле части речи используется для устранения неоднозначности 770 слов, которые имеют разное произношение в зависимости от их части речи. Например, для написанных слов Закрыть, глагол имеет произношение /ˈkлoʊz/, тогда как прилагательное /ˈkлoʊs/. Частям речи присвоены следующие коды:
Часть речи | Код |
---|---|
Имя существительное | п |
Глагол | v |
Прилагательное | эй |
Наречие | средний |
Междометие | Interj |
Далее следует произношение. Присутствуют несколько специальных символов:
Символ | Смысл |
---|---|
_ | Используется для разделения слов |
' | Первичный стресс на следующий слог |
, | Вторичный стресс на следующий слог |
Остальные символы используются для обозначения IPA символы. Произношение в целом соответствует General American диалект английского языка, который показывает слияние отца и беспокойства, поспешное слияние и много ткани сплит, но не выставляется банальное слияние или же винное слияние. Каждая фонема представлена последовательностью из одного или нескольких символов. Некоторые последовательности разделены косой чертой «/», как показано в следующей таблице, но обратите внимание, что последовательность для /ɔɪ/ ограничен два косые черты с обоих концов:
Символ | IPA |
---|---|
/&/ | æ |
/-/ | ə |
/@/ | ʌ, ə |
/[@]/р | ɜr, ər |
/ A / | ɑ, ɑː |
/ aI / | аɪ |
/ AU / | аʊ |
б | б |
d | d |
/ D / | ð |
/ dZ / | dʒ |
/ E / | ɛ |
/ eI / | eɪ |
ж | ж |
грамм | ɡ |
час | час |
hw | hw |
/я/ | я |
/Я/ | ɪ |
/ j / | j |
/ ju / | juː |
k | k |
л | л |
м | м |
п | п |
/ N / | ŋ |
/ O / | ɔ, ɔː |
// Ой // | ɔɪ |
/ОУ/ | oʊ |
п | п |
р | р |
s | s |
/ S / | ʃ |
т | т |
/ T / | θ |
/ tS / | tʃ |
/ u / | u |
/ U / | ʊ |
v | v |
ш | ш |
z | z |
/ Z / | ʒ |
К этой коллекции добавлен ряд дополнительных последовательностей, представляющих фонемы, встречающиеся в нескольких других языках. Они используются для кодирования неанглийских слов, фраз и имен, включенных в базу данных. Следующая таблица содержит эти дополнительные фонемы, но обратите внимание, что степень, в которой некоторые из них могут существовать из-за ошибок кодирования, не ясна.
Символ | IPA |
---|---|
А | а |
е | е, ɛ |
я | я, ɪ |
N | Назализация предшествующей гласной |
о | о |
О | [намерение неясно] |
р | ʁ |
S | s |
ты | ты |
V | v, β, ʋ |
W | ш |
/Икс/ | Икс |
/ г / | ø |
Y | y |
/ z / | ts |
Z | z |
Шекспир
Моби Шекспир содержит полные несокращенные произведения Шекспир. Этот конкретный ресурс недоступен в Project Gutenberg.
Тезаурус
В Моби Тезаурус II содержит 30 260 корневых слов, из них 2,520 264 синонимы и родственные термины - в среднем 83,3 на одно корневое слово. Каждая строка состоит из списка значения, разделенные запятыми, причем первый термин является корневым словом, а все последующие слова - родственными терминами.
Грэди Уорд поместил этот тезаурус в всеобщее достояние в 1996 году. Он также доступен как Debian упаковка.
Слова
Моби Вордс II это самый большой список слов в мире.[2][требуется дополнительная ссылка (и) ] Дистрибутив состоит из следующих 16 файлов:
Имя файла | Слова | Описание |
---|---|---|
ACRONYMS.TXT | 6,213 | Общий акронимы и сокращения |
COMMON.TXT | 74,550 | Общие слова, присутствующие в двух или более опубликованных словарях |
COMPOUND.TXT | 256,772 | Фразы, имена собственные, и акронимы не включен в файл общих слов |
CROSSWD.TXT | 113,809 | Слова, включенные в первое издание Официальный словарь Scrabble Players |
CRSWD-D.TXT | 4,160 | Дополнения к официальному словарю Scrabble Players во втором издании |
FICTION.TXT | 467 | Список наиболее часто встречающихся подстроки в книге Клуб радости и удачи |
FREQ.TXT | 1,000 | Наиболее часто встречающиеся слова в английский язык, перечисленные в порядке убывания |
FREQ-INT.TXT | 1,000 | Наиболее часто встречающиеся слова на Usenet в 1992 г. указаны с соответствующим процентом в порядке убывания |
KJVFREQ.TXT | 1,185 | Наиболее часто встречающиеся подстроки в Версия Библии короля Якова, перечислены в порядке убывания |
NAMES.TXT | 21,986 | Наиболее общий имена используется в США и Великобритания |
ИМЕНА-F.TXT | 4,946 | Общий английский женский имена |
ИМЕНА-M.TXT | 3,897 | Общий английский мужчина имена |
OFTENMIS.TXT | 366 | Самые распространенные английские слова с ошибками |
PLACES.TXT | 10,196 | Названия мест в США |
SINGLE.TXT | 354,984 | Отдельные слова, исключая имена собственные, сокращения, составные слова и фразы, но включая архаичный слова и значимые варианты написания |
USACONST.TXT | 7,618 | Конституция Соединенных Штатов включая все поправки, действующие до 1993 г. |
Общий | 863,149 | Не все уникальные слова. |
Всего Uniq | 639,995 | Всего отдельных существительных, имен собственных, сокращений и составных слов и фраз (все файлы, содержащие уникальные слова). |
Рекомендации
- ^ Получается при выполнении команды UNIX grep '. * [-_]. *. *' mobypron.unc | wc -l после преобразования окончаний строк и исправления некоторых ошибок кодирования.
- ^ Электронные словари
внешняя ссылка
- Домашняя страница проекта Moby, Университет Шеффилда; копировать сделано Wayback Machine страницы, как это было на 30 сентября 2017 г. («Последнее изменение: 24 октября 2000 г.»)
- Загрузки Project Gutenberg
- Поиск рифм на Perl; соответствующий код