Рейнольд Синь - Reynold Xin

Рейнольд Синь
Рейнольд Синь
Альма-матер	Калифорнийский университет в Беркли (докторантура) ; Университет Торонто (Бакалавр наук)
Известен	Apache Spark, Датабрики
	Научная карьера
Поля	Информатика
Докторант	Майкл Дж. Франклин

Рейнольд Синь это специалист в области информатики и инженер специализируясь на большое количество данных, распределенные системы, и облачные вычисления. Он является соучредителем и главным архитектором Датабрики.^[1] Он наиболее известен своей работой над Apache Spark, который по состоянию на июнь 2016 г.^{[Обновить]} это топ с открытым исходным кодом Большое количество данных проект.^[2] Он разработал и возглавил разработку GraphX, Project Tungsten и Structured Streaming, и он DataFrames - все они являются частью основного дистрибутива Apache Spark - плюс служили диспетчером выпуска для выпуска Spark 2.0.^[3]

биография

Калифорнийский университет в Беркли

Синь начал свою работу над проектом с открытым исходным кодом Spark, когда он был кандидатом наук в Калифорнийский университет в Беркли AMPLab.

Первый исследовательский проект Shark,^[4] создали систему, способную эффективно выполнять рабочие нагрузки SQL и расширенной аналитики в любом масштабе. Shark выиграла награду Best Demo Award на SIGMOD 2012.^[5] Shark был одним из первых интерактивных SQL-запросов с открытым исходным кодом в системах Hadoop, заявив, что он был в 10-100 раз быстрее, чем Apache Hive. Shark использовался технологическими компаниями, такими как Yahoo,^[6] хотя в 2014 году ее заменила более новая система под названием Spark SQL.^[7]

Второй исследовательский проект GraphX,^[8] создал систему обработки графиков поверх Spark, общей системы параллельных данных. GraphX в то же время поставил под сомнение представление о том, что для вычисления графов необходимы специализированные системы. GraphX был выпущен как проект с открытым исходным кодом и в 2014 году объединен с Spark в качестве библиотеки обработки графиков на Spark.

Датабрики

В 2013 году вместе с Матей Захария и другие ключевые участники Spark, Синь является соучредителем Датабрики, венчурная компания из Сан-Франциско, предлагающая платформу данных как услугу на основе Spark.

В 2014 году Синь возглавил команду инженеров из Databricks для участия в тесте Sort Benchmark и выиграл мировой рекорд 2014 года в Daytona GraySort с использованием Spark, побив предыдущий рекорд, установленный компанией Apache Hadoop в 30 раз.^[9] Синь утверждал, что Spark был самым быстрым движком с открытым исходным кодом для сортировки петабайтов данных.^[10]

Находясь в Databricks, он также начал проект DataFrames,^[11] Проект Вольфрам,^[12] и структурированная потоковая передача.^[13] DataFrames стал основным API, а Tungsten - новым механизмом выполнения.

Рекомендации

^ «Рейнольд Синь: профиль и биография руководителя - Businessweek». bloomberg.com. Bloomberg Businessweek. Получено 21 сентября 2016.
^ Вуди, Алекс (8 июня 2016 г.). «Принятие Apache Spark в цифрах». datanami.com. Tabor Communications. Получено 21 сентября 2016.
^ «Список разработчиков Apache Spark - [ОБЪЯВЛЕНИЕ] объявляет о выпуске Apache Spark 2.0.0». apache-spark-developers-list.1001551.n3.nabble.com. Получено 2016-08-04.
^ Xin, Reynold S .; Розен, Джош; Захария, Матей; Франклин, Майкл Дж .; Шенкер, Скотт; Стойка, Ион (01.01.2013). «Акула: SQL и обширная аналитика в масштабе». Материалы Международной конференции ACM SIGMOD по управлению данными 2013 г.. SIGMOD '13. Нью-Йорк, Нью-Йорк, США: ACM: 13–24. Дои:10.1145/2463676.2465288. ISBN 9781450320375.
^ «Shark получает награду за лучшее демо на SIGMOD 2012». AMPLab - Калифорнийский университет в Беркли. Получено 2016-08-04.
^ Талли. «Аналитика Spark & Shark @Yahoo» (PDF).
^ «Shark, Spark SQL, Hive on Spark и будущее SQL на Apache Spark». 2014-07-01. Получено 2016-08-04.
^ Gonzalez, Joseph E .; Xin, Reynold S .; Дэйв, Анкур; Крэнкшоу, Дэниел; Франклин, Майкл Дж .; Стойка, Ион (01.01.2014). «GraphX: обработка графиков в среде распределенного потока данных». Труды 11-й конференции USENIX по разработке и внедрению операционных систем. OSDI'14. Беркли, Калифорния, США: Ассоциация USENIX: 599–613. ISBN 9781931971164.
^ «Запуск обрабатывает 100 терабайт данных за 23 минуты». Получено 2016-08-04.
^ «Apache Spark - самый быстрый движок с открытым исходным кодом для сортировки петабайтов». 2014-10-10. Получено 2016-08-04.
^ «Введение в DataFrames в Apache Spark для крупномасштабных исследований данных». 2015-02-17. Получено 2016-08-04.
^ Вуди, Алекс (4 мая 2015 г.). "Углубитесь в планы большого ускорения Databricks для Apache Spark". datanami.com. Tabor Communications. Получено 21 сентября 2016.
^ Вуди, Алекс (25 февраля 2016 г.). «Spark 2.0 представит новый механизм структурированной потоковой передачи». datanami.com. Tabor Communications. Получено 21 сентября 2016.

[1] «Рейнольд Синь: профиль и биография руководителя - Businessweek». bloomberg.com. Bloomberg Businessweek. Получено 21 сентября 2016.

[2] Вуди, Алекс (8 июня 2016 г.). «Принятие Apache Spark в цифрах». datanami.com. Tabor Communications. Получено 21 сентября 2016.

[3] «Список разработчиков Apache Spark - [ОБЪЯВЛЕНИЕ] объявляет о выпуске Apache Spark 2.0.0». apache-spark-developers-list.1001551.n3.nabble.com. Получено 2016-08-04.

[4] Xin, Reynold S .; Розен, Джош; Захария, Матей; Франклин, Майкл Дж .; Шенкер, Скотт; Стойка, Ион (01.01.2013). «Акула: SQL и обширная аналитика в масштабе». Материалы Международной конференции ACM SIGMOD по управлению данными 2013 г.. SIGMOD '13. Нью-Йорк, Нью-Йорк, США: ACM: 13–24. Дои:10.1145/2463676.2465288. ISBN 9781450320375.

[5] «Shark получает награду за лучшее демо на SIGMOD 2012». AMPLab - Калифорнийский университет в Беркли. Получено 2016-08-04.

[6] Талли. «Аналитика Spark & Shark @Yahoo» (PDF).

[7] «Shark, Spark SQL, Hive on Spark и будущее SQL на Apache Spark». 2014-07-01. Получено 2016-08-04.

[8] Gonzalez, Joseph E .; Xin, Reynold S .; Дэйв, Анкур; Крэнкшоу, Дэниел; Франклин, Майкл Дж .; Стойка, Ион (01.01.2014). «GraphX: обработка графиков в среде распределенного потока данных». Труды 11-й конференции USENIX по разработке и внедрению операционных систем. OSDI'14. Беркли, Калифорния, США: Ассоциация USENIX: 599–613. ISBN 9781931971164.

[9] «Запуск обрабатывает 100 терабайт данных за 23 минуты». Получено 2016-08-04.

[10] «Apache Spark - самый быстрый движок с открытым исходным кодом для сортировки петабайтов». 2014-10-10. Получено 2016-08-04.

[11] «Введение в DataFrames в Apache Spark для крупномасштабных исследований данных». 2015-02-17. Получено 2016-08-04.

[12] Вуди, Алекс (4 мая 2015 г.). "Углубитесь в планы большого ускорения Databricks для Apache Spark". datanami.com. Tabor Communications. Получено 21 сентября 2016.

[13] Вуди, Алекс (25 февраля 2016 г.). «Spark 2.0 представит новый механизм структурированной потоковой передачи». datanami.com. Tabor Communications. Получено 21 сентября 2016.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]