Урокът за Apache Spark предоставя основни и разширени концепции за Spark. Нашият урок за Spark е предназначен за начинаещи и професионалисти.
Spark е унифицирана аналитична машина за широкомащабна обработка на данни, включително вградени модули за SQL, стрийминг, машинно обучение и обработка на графики.
Нашият урок за Spark включва всички теми на Apache Spark с въведение в Spark, инсталация на Spark, архитектура на Spark, компоненти на Spark, RDD, примери в реално време на Spark и т.н.
Какво е Spark?
Apache Spark е клъстерна изчислителна рамка с отворен код. Основната му цел е да обработва данните, генерирани в реално време.
Spark е изграден на върха на Hadoop MapReduce. Той е оптимизиран да работи в паметта, докато алтернативни подходи като MapReduce на Hadoop записват данни към и от твърдите дискове на компютъра. Така че Spark обработва данните много по-бързо от други алтернативи.
История на Apache Spark
Spark беше иницииран от Matei Zaharia в AMLab на UC Berkeley през 2009 г. Той беше с отворен код през 2010 г. под лиценз на BSD.
През 2013 г. проектът беше придобит от Apache Software Foundation. През 2014 г. Spark се появи като Apache проект от най-високо ниво.
Характеристики на Apache Spark
Бърз | - Осигурява висока производителност както за пакетни, така и за поточни данни, като използва най-съвременния DAG планировчик, оптимизатор на заявки и механизъм за физическо изпълнение.
Лесен за използване | - Улеснява писането на приложението в Java, Scala, Python, R и SQL. Освен това предоставя повече от 80 оператора на високо ниво.
Общност | - Предоставя колекция от библиотеки, включително SQL и DataFrames, MLlib за машинно обучение, GraphX и Spark Streaming.
Лек | - Това е лека унифицирана аналитична машина, която се използва за широкомащабна обработка на данни.
Работи навсякъде | - Може лесно да работи на Hadoop, Apache Mesos, Kubernetes, самостоятелно или в облака.
Използване на Spark
Интегриране на данни: | Данните, генерирани от системите, не са достатъчно последователни, за да се комбинират за анализ. За да извлечем последователни данни от системите, можем да използваме процеси като Извличане, трансформиране и зареждане (ETL). Spark се използва за намаляване на разходите и времето, необходими за този ETL процес.
Обработка на потока: | Винаги е трудно да се борави с генерираните в реално време данни като регистрационни файлове. Spark е достатъчно способен да управлява потоци от данни и отказва потенциално измамни операции.
Машинно обучение: | Подходите за машинно обучение стават по-осъществими и все по-точни поради увеличаването на обема на данните. Тъй като spark може да съхранява данни в паметта и може да изпълнява бързо повтарящи се заявки, това улеснява работата с алгоритми за машинно обучение.
Интерактивен анализ: | Spark е в състояние да генерира бърз отговор. Така че, вместо да изпълняваме предварително дефинирани заявки, можем да обработваме данните интерактивно.
Предпоставка
Преди да научите Spark, трябва да имате основни познания за Hadoop.
Публика
Нашият урок за Spark е предназначен да помогне на начинаещи и професионалисти.
проблеми
Уверяваме ви, че няма да намерите никакъв проблем с този урок на Spark. Въпреки това, ако има някаква грешка, моля, публикувайте проблема във формата за контакт.