Обычное сканирование - Common Crawl

Обычное сканирование
Тип бизнеса501 (с) (3) некоммерческий
Доступно ванглийский
Штаб-квартираСан - Франциско, Калифорния; Лос-Анджелес, Калифорния, Соединенные Штаты
Учредитель (и)Гил Эльбаз
Ключевые людиПитер Норвиг, Нова Спивак, Карл Маламуд, Курт Боллакер Джой Ито
URLобыкновенный краул.org

Обычное сканирование это некоммерческий 501 (с) (3) организация, которая ползет в Интернете и бесплатно предоставляет свои архивы и наборы данных общественности.[1][2] Common Crawl's веб-архив состоит из петабайт данных, собранных с 2011 года.[3] Как правило, сканирование выполняется каждый месяц.[4]

Common Crawl была основана Гил Эльбаз.[5] Советники некоммерческой организации включают Питер Норвиг и Джой Ито.[6] Сканеры организации уважают не следует и robots.txt политики. Открытый исходный код для обработки набора данных Common Crawl общедоступен.

История

Веб-сервисы Amazon начал размещать архив Common Crawl в рамках своей программы Public Data Sets в 2012 году.[7]

Организация начала выпуск метаданные файлы и текстовый вывод сканеров вместе с .arc файлы в июле того же года.[8] Ранее архивы Common Crawl включали только файлы .arc.[8]

В декабре 2012 г. Блекко пожертвовано поисковой системе Common Crawl метаданные blekko собрана во время сканирования, проведенного с февраля по октябрь 2012 года.[9] Донорские данные помогли Common Crawl «улучшить его ползать, избегая при этом спам, порно и влияние чрезмерного SEO."[9]

В 2013 году Common Crawl начал использовать Фонд программного обеспечения Apache Nutch webcrawler вместо пользовательского сканера.[10] Common Crawl перешел с использования файлов .arc на .warc файлы с его сканированием за ноябрь 2013 г.[11]

Common Crawl использовался для обучения OpenAI GPT-3 языковая модель, анонсированная в 2020 году.[12]

История общих данных сканирования

Следующие данные были получены из официального Общий блог сканирования

Дата сканированияРазмер в ТиБМиллиарды страницКомментарии
Ноябрь 2018 г.2202.6
Октябрь 2018 г.2403.0
Сентябрь 2018 г.2202.8
Август 2018 г.
Июль 2018 г.2553.25
Июнь 2018 г.2353.05
Май 20182152.75
Апрель 2018 г.2303.1
Март 2018 г.2503.2
Февраль 2018 г.2703.4
Январь 20182703.4
Декабрь 2017 г.2402.9
Ноябрь 2017 г.2603.2
Октябрь 2017 г.3003.65
Сентябрь 2017 г.2503.01
Август 2017 г.2803.28
Июль 2017 г.2402.89
Июнь 2017 г.2603.16
Май 2017 г.2502.96
Апрель 2017 г.2502.94
Март 2017 г.2503.07
Февраль 2017 г.2503.08
Январь 2017 г.2503.14
Декабрь 2016 г.-2.85
Октябрь 2016-3.25
Сентябрь 2016-1.72
Август 2016 г.-1.61
Июль 2016-1.73
Июнь 2016-1.23
Май 2016-1.46
Апрель 2016 г.-1.33
Февраль 2016 г.-1.73
Ноябрь 20151511.82
Сентябрь 2015 г.1061.32
Август 2015 г.1491.84
Июль 2015 г.1451.81
Июнь 2015 г.1311.67
Май 2015 г.1592.05
Апрель 2015 г.1682.11
Март 2015 г.1241.64
Февраль 2015 г.1451.9
Январь 20151391.82
Декабрь 2014 г.1602.08
Ноябрь 2014 г.1351.95
Октябрь 2014 г.2543.7
Сентябрь 2014 г.2202.8
Август 2014 г.2002.8
Июль 2014 г.2663.6
Апрель 2014 г.1832.6
Март 2014 г.2232.8Первое сканирование Nutch
Январь 20141482.3Сканирование выполняется ежемесячно
Ноябрь 20131022Данные в формате файла Warc
Июль 2012 г.--Данные в формате файла Arc
Январь 2012 г.--Набор общедоступных данных веб-сервисов Amazon
Ноябрь 2011 г.405Первая доступность на Amazon

Премия Norvig Web Data Science Award

В подтверждение с SURFsara, Common Crawl спонсирует премию Norvig Web Data Science Award, конкурс, открытый для студентов и исследователей в Бенилюкс.[13][14] Премия названа в честь Питер Норвиг который также возглавляет судейскую комиссию по присуждению награды.[13]

Рекомендации

  1. ^ Розанна Ся (5 февраля 2012 г.). «Технический предприниматель Гил Эльбаз добился успеха в Лос-Анджелесе» Лос-Анджелес Таймс. Получено 31 июля, 2014.
  2. ^ «Гиль Эльбаз и обыкновенный обход». NBC News. 4 апреля 2013 г.. Получено 31 июля, 2014.
  3. ^ "Итак, вы готовы начать". Получено 2018-06-02.
  4. ^ Лиза Грин (8 января 2014 г.). «Теперь доступны данные сканирования за зимний период 2013 года». Получено 2 июня, 2018.
  5. ^ «Стартапы - Гил Эльбаз и Нова Спивак Common Crawl - TWiST # 222». На этой неделе в стартапах. 10 января 2012 г.
  6. ^ Том Симонит (23 января 2013 г.). «Бесплатная база данных всей сети может породить следующий Google». Обзор технологий MIT. Получено 31 июля, 2014.
  7. ^ Дженнифер Зайно (13 марта 2012 г.). «Обычное сканирование для добавления новых данных в корзину Amazon Web Services». Семантическая сеть. Архивировано из оригинал 1 июля 2014 г.. Получено 31 июля, 2014.
  8. ^ а б Дженнифер Зайно (16 июля 2012 г.). «Обновление Common Crawl Corpus делает данные веб-сканирования более эффективными и доступными для пользователей». Семантическая сеть. Архивировано из оригинал 12 августа 2014 г.. Получено 31 июля, 2014.
  9. ^ а б Дженнифер Зайно (18 декабря 2012 г.). «Пожертвование данных Blekko - большое преимущество для обычного сканирования». Семантическая сеть. Архивировано из оригинал 12 августа 2014 г.. Получено 31 июля, 2014.
  10. ^ Джордан Мендельсон (20 февраля 2014 г.). "Переход обыкновенного кролика к голышу". Обычное сканирование. Получено 31 июля, 2014.
  11. ^ Джордан Мендельсон (27 ноября 2013 г.). "Доступны новые данные сканирования!". Обычное сканирование. Получено 31 июля, 2014.
  12. ^ Браун, Том; Манн, Бенджамин; Райдер, Ник; Суббия, Мелания; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састры, Гириш; Аскелл, Аманда; Агарвал, Сандхини (01.06.2020). «Языковые модели - немногие изучающие». п. 14. arXiv:2005.14165. большая часть наших данных получена из необработанного Common Crawl с фильтрацией только на основе качества.
  13. ^ а б Лиза Грин (15 ноября 2012 г.). "Премия Norvig Web Data Science Award". Обычное сканирование. Получено 31 июля, 2014.
  14. ^ «Премия Norvig Web Data Science Award 2014». Голландский технический центр наук о жизни. Архивировано из оригинал 15 августа 2014 г.. Получено 31 июля, 2014.

внешняя ссылка