Apache Spark: различия между версиями

[отпатрулированная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
м Цивилизовал утверждение на тему "спарк быстрее, чем мап-редьюс".
Строка 1:
{{карточка программы}}
'''Apache Spark''' (от {{lang-en|spark}} — искра, вспышка) — [[фреймворк]] с [[FOSS|открытым исходным кодом]] для реализации распределённой обработки [[неструктурированные данные|неструктурированных]] и слабоструктурированных данных, входящий в экосистему проектов [[Hadoop]]. В отличие от классического обработчика из ядра Hadoop, реализующего двухуровневую концепцию [[MapReduce]] с дисковымхранением хранилищем,промежуточных Sparkданных используетна специализированныедиске, примитивы дляSpark рекуррентнойобрабатывает обработкиданные в оперативной памяти, благодаря чему позволяет получать значительный выигрыш в скорости работы для некоторых классов задач<ref>{{статья |заглавие=Shark: SQL and Rich Analytics at Scale |conference=SIGMOD 2013 |ссылка=https://amplab.cs.berkeley.edu/wp-content/uploads/2013/02/shark_sigmod2013.pdf |язык=en |тип=journal |автор=Xin, Reynold; Rosen, Josh; Zaharia, Matei; Franklin, Michael; Shenker, Scott; Stoica, Ion |месяц=6 |год=2013}}</ref>, в частности, возможность многократного доступа к загруженным в память пользовательским данным делает библиотеку привлекательной для алгоритмов [[Машинное обучение|машинного обучения]]<ref>{{cite AV media| url=https://www.youtube.com/watch?v=qLvLg-sqxKc| location=Invited Talk at NIPS 2011 Big Learning Workshop: Algorithms, Systems, and Tools for Learning at Scale
|people=Matei Zaharia|title=Spark: In-Memory Cluster Computing for Iterative and Interactive Applications|lang=en}}</ref>.