Рейнольд Синь - Reynold Xin

Рейнольд Синь
Альма-матерКалифорнийский университет в Беркли (докторантура)
Университет Торонто (Бакалавр наук)
ИзвестенApache Spark, Датабрики
Научная карьера
ПоляИнформатика
ДокторантМайкл Дж. Франклин

Рейнольд Синь это специалист в области информатики и инженер специализируясь на большое количество данных, распределенные системы, и облачные вычисления. Он является соучредителем и главным архитектором Датабрики.[1] Он наиболее известен своей работой над Apache Spark, который по состоянию на июнь 2016 г. это топ с открытым исходным кодом Большое количество данных проект.[2] Он разработал и возглавил разработку GraphX, Project Tungsten и Structured Streaming, и он DataFrames - все они являются частью основного дистрибутива Apache Spark - плюс служили диспетчером выпуска для выпуска Spark 2.0.[3]

биография

Калифорнийский университет в Беркли

Синь начал свою работу над проектом с открытым исходным кодом Spark, когда он был кандидатом наук в Калифорнийский университет в Беркли AMPLab.

Первый исследовательский проект Shark,[4] создали систему, способную эффективно выполнять рабочие нагрузки SQL и расширенной аналитики в любом масштабе. Shark выиграла награду Best Demo Award на SIGMOD 2012.[5] Shark был одним из первых интерактивных SQL-запросов с открытым исходным кодом в системах Hadoop, заявив, что он был в 10-100 раз быстрее, чем Apache Hive. Shark использовался технологическими компаниями, такими как Yahoo,[6] хотя в 2014 году ее заменила более новая система под названием Spark SQL.[7]

Второй исследовательский проект GraphX,[8] создал систему обработки графиков поверх Spark, общей системы параллельных данных. GraphX ​​в то же время поставил под сомнение представление о том, что для вычисления графов необходимы специализированные системы. GraphX ​​был выпущен как проект с открытым исходным кодом и в 2014 году объединен с Spark в качестве библиотеки обработки графиков на Spark.

Датабрики

В 2013 году вместе с Матей Захария и другие ключевые участники Spark, Синь является соучредителем Датабрики, венчурная компания из Сан-Франциско, предлагающая платформу данных как услугу на основе Spark.

В 2014 году Синь возглавил команду инженеров из Databricks для участия в тесте Sort Benchmark и выиграл мировой рекорд 2014 года в Daytona GraySort с использованием Spark, побив предыдущий рекорд, установленный компанией Apache Hadoop в 30 раз.[9] Синь утверждал, что Spark был самым быстрым движком с открытым исходным кодом для сортировки петабайтов данных.[10]

Находясь в Databricks, он также начал проект DataFrames,[11] Проект Вольфрам,[12] и структурированная потоковая передача.[13] DataFrames стал основным API, а Tungsten - новым механизмом выполнения.

Рекомендации

  1. ^ «Рейнольд Синь: профиль и биография руководителя - Businessweek». bloomberg.com. Bloomberg Businessweek. Получено 21 сентября 2016.
  2. ^ Вуди, Алекс (8 июня 2016 г.). «Принятие Apache Spark в цифрах». datanami.com. Tabor Communications. Получено 21 сентября 2016.
  3. ^ «Список разработчиков Apache Spark - [ОБЪЯВЛЕНИЕ] объявляет о выпуске Apache Spark 2.0.0». apache-spark-developers-list.1001551.n3.nabble.com. Получено 2016-08-04.
  4. ^ Xin, Reynold S .; Розен, Джош; Захария, Матей; Франклин, Майкл Дж .; Шенкер, Скотт; Стойка, Ион (01.01.2013). «Акула: SQL и обширная аналитика в масштабе». Материалы Международной конференции ACM SIGMOD по управлению данными 2013 г.. SIGMOD '13. Нью-Йорк, Нью-Йорк, США: ACM: 13–24. Дои:10.1145/2463676.2465288. ISBN  9781450320375.
  5. ^ «Shark получает награду за лучшее демо на SIGMOD 2012». AMPLab - Калифорнийский университет в Беркли. Получено 2016-08-04.
  6. ^ Талли. «Аналитика Spark & ​​Shark @Yahoo» (PDF).
  7. ^ «Shark, Spark SQL, Hive on Spark и будущее SQL на Apache Spark». 2014-07-01. Получено 2016-08-04.
  8. ^ Gonzalez, Joseph E .; Xin, Reynold S .; Дэйв, Анкур; Крэнкшоу, Дэниел; Франклин, Майкл Дж .; Стойка, Ион (01.01.2014). «GraphX: обработка графиков в среде распределенного потока данных». Труды 11-й конференции USENIX по разработке и внедрению операционных систем. OSDI'14. Беркли, Калифорния, США: Ассоциация USENIX: 599–613. ISBN  9781931971164.
  9. ^ «Запуск обрабатывает 100 терабайт данных за 23 минуты». Получено 2016-08-04.
  10. ^ «Apache Spark - самый быстрый движок с открытым исходным кодом для сортировки петабайтов». 2014-10-10. Получено 2016-08-04.
  11. ^ «Введение в DataFrames в Apache Spark для крупномасштабных исследований данных». 2015-02-17. Получено 2016-08-04.
  12. ^ Вуди, Алекс (4 мая 2015 г.). "Углубитесь в планы большого ускорения Databricks для Apache Spark". datanami.com. Tabor Communications. Получено 21 сентября 2016.
  13. ^ Вуди, Алекс (25 февраля 2016 г.). «Spark 2.0 представит новый механизм структурированной потоковой передачи». datanami.com. Tabor Communications. Получено 21 сентября 2016.