Наблюдатель Google Ngram - Google Ngram Viewer - Wikipedia

В Наблюдатель Google Ngram или же Программа просмотра Google Книг Ngram это поисковая система в Интернете, которая составляет график частотности любого набора поисковых строк, используя годовой подсчет н-граммы найдено в источниках, напечатанных между 1500 и 2019 гг.^[1]^[2]^[3]^[4]^[5] в Google текстовые корпуса на английском, китайском (упрощенном), французском, немецком, иврите, итальянском, русском или испанском языках.^[2]^[6] Есть также несколько специализированных корпусов английского языка, таких как американский английский, британский английский и английская художественная литература.^[7]

Программа может искать слово или фраза, включая орфографические ошибки или тарабарщина.^[6] N-граммы сопоставляются с текстом в выбранном корпусе, при необходимости используя чувствительный к регистру орфография (которая сравнивает точное использование прописных букв),^[8] и, если они найдены в 40 или более книгах, отображаются в виде графика.^[9]

Средство просмотра Google Ngram поддерживает поиск по части речи и подстановочные знаки.^[7] Он обычно используется в исследованиях.^[10]^[11]

История

Программа была разработана Джоном Орвантом и Уиллом Брокманом и выпущена в середине декабря 2010 года.^[2]^[3] Он был вдохновлен прототипом под названием "Книжный червь", созданным Жан-Батистом Мишелем и Эрез Эйден из Гарварда Культурная обсерватория и Юань Шэнь из Массачусетский технологический институт и Стивен Пинкер.^[12]

Ngram Viewer изначально был основан на издании Google Книг Ngram Corpus 2009 года. По состоянию на июль 2020 г.^{[Обновить]}, программа поддерживает корпуса 2009, 2012 и 2019 годов.

Эксплуатация и ограничения

Запятые разделяют вводимые пользователем условия поиска, указывая каждое отдельное слово или фразу для поиска.^[9] Ngram Viewer возвращает построенный линейный график в течение нескольких секунд после нажатия пользователем кнопки Введите ключ или кнопку «Поиск» на экране.

С поправкой на большее количество книг, опубликованных в течение нескольких лет, данные нормализованный, как относительный уровень, по количеству книг, издаваемых за каждый год.^[9]

Из-за ограничений на размер базы данных Ngram в базе данных индексируются только совпадения, найденные как минимум в 40 книгах; в противном случае база данных не смогла бы сохранить все возможные комбинации.^[9]

Как правило, поисковые запросы не могут заканчиваться знаками препинания, хотя отдельный полная остановка (период) можно искать.^[9] Также финал вопросительный знак (например, «Почему?») вызовет второй поиск вопросительного знака отдельно.^[9]

Пропуск точек в сокращениях позволит использовать форму сопоставления, например использование "R M S" для поиска "R.M.S." против "RMS".

Корпуса

В корпус используемые для поиска, состоят из файлов total_counts, 1-граммов, 2-граммов, 3-граммов, 4 граммов и 5 граммов для каждого языка. Формат файла каждого из файлов: данные, разделенные табуляцией. Каждая строка имеет следующий формат:^[13]

total_counts файл
год TAB match_count TAB page_count TAB volume_count NEWLINE
Файл ngram версии 1 (создан в июле 2009 г.)
ngram TAB год TAB match_count TAB page_count TAB volume_count NEWLINE
Файл ngram версии 2 (создан в июле 2012 г.)
ngram TAB год TAB match_count TAB volume_count NEWLINE

Средство просмотра Google Ngram использует match_count для построения графика.

Например, слово «Википедия» из файла версии 2 с английскими 1-граммами хранится следующим образом:^[14]

ngram	год	match_count	volume_count
Википедия	1904	1	1
Википедия	1912	11	1
Википедия	1924	1	1
Википедия	1925	11	1
Википедия	1929	11	1
Википедия	1943	11	1
Википедия	1946	11	1
Википедия	1947	11	1
Википедия	1949	11	1
Википедия	1951	11	1
Википедия	1953	22	2
Википедия	1955	11	1
Википедия	1958	1	1
Википедия	1961	22	2
Википедия	1964	22	2
Википедия	1965	11	1
Википедия	1966	15	2
Википедия	1969	33	3
Википедия	1970	129	4
Википедия	1971	44	4
Википедия	1972	22	2
Википедия	1973	1	1
Википедия	1974	2	1
Википедия	1975	33	3
Википедия	1976	11	1
Википедия	1977	13	3
Википедия	1978	11	1
Википедия	1979	112	12
Википедия	1980	13	4
Википедия	1982	11	1
Википедия	1983	3	2
Википедия	1984	48	3
Википедия	1985	37	3
Википедия	1986	6	4
Википедия	1987	13	2
Википедия	1988	14	3
Википедия	1990	12	2
Википедия	1991	8	5
Википедия	1992	1	1
Википедия	1993	1	1
Википедия	1994	23	3
Википедия	1995	4	1
Википедия	1996	23	3
Википедия	1997	6	1
Википедия	1998	32	10
Википедия	1999	39	11
Википедия	2000	43	12
Википедия	2001	59	14
Википедия	2002	105	19
Википедия	2003	149	53
Википедия	2004	803	285
Википедия	2005	2964	911
Википедия	2006	9818	2655
Википедия	2007	20017	5400
Википедия	2008	33722	6825

График, построенный программой просмотра Google Ngram Viewer с использованием приведенных выше данных, находится здесь:^[15]

Критика

Набор данных подвергся критике за то, что он полагался на неточные OCR, переизбыток научной литературы и большое количество неправильно датированных и категоризированных текстов.^[16]^[17] Из-за этих ошибок и из-за неконтролируемой предвзятости^[18] (например, увеличение количества научной литературы, что вызывает снижение популярности других терминов), рискованно использовать этот корпус для изучения языка или проверки теорий.^[19] Поскольку набор данных не включает метаданные, он может не отражать общие языковые или культурные изменения^[20] и могу только намекнуть на такой эффект.

Были предложены рекомендации по проведению исследований с данными из Google Ngram, которые решают многие из проблем, рассмотренных выше.^[21]

Проблемы с OCR

Оптическое распознавание символов, или OCR, не всегда надежно, и некоторые символы могут быть неправильно отсканированы. В частности, системные ошибки, такие как путаница «s» и «f» в текстах до XIX века (из-за использования длинные s который был похож по внешнему виду на "f") может вызвать системную ошибку. Хотя Google Ngram Viewer утверждает, что результаты являются надежными начиная с 1800 года, плохое распознавание текста и недостаточность данных означают, что частоты, указанные для таких языков, как китайский, могут быть точными только с 1970 года, при этом более ранние части корпуса не показывают результатов для общих терминов. , и данные за несколько лет, содержащие более 50% шума.^[22]^[23]

Смотрите также

Библиография

Линь Юрий; и другие. (Июль 2012 г.). "Синтаксические аннотации для корпуса Ngram Google Книг" (PDF). Труды 50-го ежегодного собрания. Демо-материалы. Чеджу, Республика Корея: Ассоциация компьютерной лингвистики. 2: 169–174. 2390499. Белая бумага представляет издание Google Книг Ngram Corpus 2012 г.

внешняя ссылка

Официальный веб-сайт

[Culturomics-1] «Количественный анализ культуры с использованием миллионов оцифрованных книг» JB Michel et al, Science 2011, DOI: 10.1126 / science.1199644[1]

[Huf-2] а ^б ^c "База данных Google Ngram отслеживает популярность 500 миллиардов слов" Huffington Post, 17 декабря 2010 г., веб-страница: HP8150.

[Cnet-3] а ^б "Google's Ngram Viewer: машина времени для игры слов", Cnet.com, 17 декабря 2010 г., веб-страница: CN93.

[SThom-4] «Картинка стоит 500 миллиардов слов - Расти С. Томпсон», HarrisburgMagazine.com, 20 сентября 2011 г., веб-страница: HBMag20^{[постоянная мертвая ссылка ]}.

[5] Google SearchLiaison. "Программа просмотра Google Книг Ngram теперь обновлена свежими данными за 2019 год". Twitter. Получено 2020-08-11.

[BufLib-6] а ^б "Программа просмотра Google Книг Ngram - Библиотеки Университета Буффало", Lib.Buffalo.edu, 22 августа 2011 г., веб-страница: Buf497 В архиве 2013-07-02 в Wayback Machine.

[Google_Books_Ngram_Viewer-7] а ^б Информационная страница Google Книг Ngram Viewer: https://books.google.com/ngrams/info

[Goog-8] "Google Ngram Viewer - Google Книги", Books.Google.com, май 2012 г., веб-страница: G-Ngrams.

[GInf-9] а ^б ^c ^d ^е ^ж "Google Ngram Viewer - Google Книги" (информация), Books.Google.com, 16 декабря 2010 г., веб-страница: G-Ngrams-info: отмечает биграммы и использование кавычек для слов с апострофами.

[10] Гринфилд П. М. (2013). Изменяющаяся психология культуры с 1800 по 2000 год. Психологическая наука, 24 (9), 1722–1731. https://doi.org/10.1177/0956797613479387

[11] Юнес, Н., Рипс, У.-Д. (2018). Изменяющаяся психология культуры в Германии: исследование Google Ngram. Международный журнал психологии, 53 (S1), 53-62. https://doi.org/10.1002/ijop.12428

[12] ЮАР (4 февраля 2010 г.). «Стивен Пинкер - Материал мысли: язык как окно в человеческую природу» - через YouTube.

[13] "Программа просмотра Google Книг Ngram".

[14] s-eng-all-1gram-20120701-w.gz по адресу http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

[15] ttps://books.google.com/ngrams/graph?content=Wikipedia&year_start=1900&year_end=2020&corpus=15&smoothing=0&share=&direct_url=t1%3B%2CWikipedia%3B%2Cc0

[16] Google Ngrams: OCR и метаданные В архиве 2016-04-27 в Wayback Machine. ResourceShelf, 19 декабря 2010 г.

[17] Нунберг, Джефф (16 декабря 2010 г.). "Гуманитарные исследования в корпусе Google Книг". Архивировано из оригинал 10 марта 2016 г.

[:0-18] Печеник, Эйтан Адам; Данфорт, Кристофер М .; Доддс, Питер Шеридан; Баррат, Ален (7 октября 2015 г.). «Характеристика корпуса Google Книги: строгие ограничения для выводов о социокультурной и лингвистической эволюции». PLOS ONE. 10 (10): e0137041. arXiv:1501.00960. Bibcode:2015PLoSO..1037041P. Дои:10.1371 / journal.pone.0137041. ЧВК 4596490. PMID 26445406.

[19] Чжан, Сара. «Проблемы использования Google Ngram для изучения языка». ПРОВОДНОЙ. Получено 2017-05-24.

[20] Коплениг, Александр (02.09.2015). «Влияние отсутствия метаданных для измерения культурных и языковых изменений с использованием наборов данных Google Ngram - реконструкция состава немецкого корпуса во времена Второй мировой войны». Цифровая стипендия в области гуманитарных наук (опубликовано 01.04.2017). 32 (1): 169–188. Дои:10.1093 / llc / fqv037. ISSN 2055-7671.

[21] Юнес, Н., Рипс, У.-Д. (2019). Рекомендации по повышению надежности исследований Google Ngram: доказательства с религиозной точки зрения. PLoS One, 14 (3): e0213554. https://doi.org/10.1371/journal.pone.0213554

[22] Google n-граммы и досовременный китайский. digitalsinology.org.

[23] Когда н-граммы портятся. digitalsinology.org.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]