logo

Урок за PySpark

Какво е PySpark

Урокът за PySpark предоставя основни и разширени концепции за Spark. Нашият урок за PySpark е предназначен за начинаещи и професионалисти.

c масив от низове

PySpark е API на Python за използване на Spark. Spark е клъстерна изчислителна система с отворен код, която се използва за решения за големи данни. Това е светкавично бърза технология, която е предназначена за бързо изчисление.

Нашият урок за PySpark включва всички теми за Spark с въведение в PySpark, инсталация на PySpark, архитектура на PySpark, рамка на данни на PySpark, Mlib на PySpark, RDD на PySpark, филтър на PySpark и т.н.

Какво е PySpark?

PySpark е API на Python за поддръжка на Python с Apache Spark. PySpark предоставя Py4j библиотека, с помощта на тази библиотека Python може лесно да се интегрира с Apache Spark. PySpark играе съществена роля, когато трябва да работи с огромен набор от данни или да ги анализира. Тази функция на PySpark го прави много взискателен инструмент сред инженерите на данни.

Основни характеристики на PySpark

Има различни функции на PySpark, които са дадени по-долу:

Какво е PySpark
    Изчисление в реално време

PySpark осигурява изчисления в реално време върху голямо количество данни, тъй като се фокусира върху обработката в паметта. Това показва ниската латентност.

    Поддръжка на няколко езика

Рамката на PySpark е подходяща за различни езици за програмиране като Scala, Java, Python и R. Съвместимостта му го прави предпочитаната рамка за обработка на огромни набори от данни.

    Кеширане и постоянство на диска

Рамката PySpark осигурява мощно кеширане и добра постоянство на диска.

    Бърза обработка

PySpark ни ​​позволява да постигнем висока скорост на обработка на данни, която е около 100 пъти по-бърза в паметта и 10 пъти по-бърза на диска.

    Работи добре с RDD

Програмният език Python е динамично въведен, което помага при работа с RDD. Ще научим повече за RDD с помощта на Python в следващия урок.

Какво е Apache Spark?

Apache Spark е рамка за разпределени клъстерни изчисления с отворен код въведен от Apache Software Foundation. Това е общ двигател за анализ на големи данни, обработка и изчисления. Той е създаден за висока скорост, лесна употреба, предлага простота, поточен анализ и работи почти навсякъде. Може да анализира данни в реално време. Той осигурява бързо изчисление върху големи данни.

The бърз изчислението означава, че е по-бързо от предишните подходи за работа с големи данни, като напр MapReduce. Основната характеристика на Apache Spark е неговата клъстер в паметта изчисления, които подобряват скоростта на обработка на приложение.

Може да се използва за множество неща като изпълнение на разпределен SQL, създаване на канали за данни, поглъщане на данни в база данни, изпълнение на алгоритми за машинно обучение, работа с графики или потоци от данни и много други.

Защо PySpark?

Голямо количество данни се генерират офлайн и онлайн. Тези данни съдържат скрити модели, неизвестна корекция, пазарни тенденции, предпочитания на клиенти и друга полезна бизнес информация. Необходимо е да се извлече ценна информация от необработените данни.

Какво е PySpark?

Имаме нужда от по-ефективен инструмент за извършване на различни видове операции с големи данни. Има различни инструменти за изпълнение на множество задачи върху огромния набор от данни, но тези инструменти вече не са толкова привлекателни. Необходими са някои мащабируеми и гъвкави инструменти за кракване на големи данни и извличане на полза от тях.

Разлика между Scala и PySpark

Apache Spark е официално написан на езика за програмиране Scala. Нека да разгледаме съществената разлика между Python и Scala.

старши Python Скала
1. Python е интерпретиран, динамичен език за програмиране. Scala е статично типизиран език.
2. Python е обектно-ориентиран език за програмиране. В Scala трябва да посочим типа на променливата и обектите.
3. Python е лесен за научаване и използване. Scala е малко трудна за научаване от Python.
4. Python е по-бавен от Scala, защото е интерпретиран език. Scala е 10 пъти по-бърз от Python.
5. Python е език с отворен код и има огромна общност, която да го подобри. Scala също има отлична общност, но по-слаба от Python.
6. Python съдържа огромен брой библиотеки и перфектния инструмент за наука за данни и машинно обучение. Scala няма такъв инструмент.

Какво е PySpark

Един от най-невероятните инструменти, който помага при обработката на големи данни, е Apache Spark. Както знаем, Python е един от най-широко използваните езици за програмиране сред учените за данни, анализите на данни и в различни области. Поради своята простота и интерактивен интерфейс, специалистите по данни се доверяват на него за извършване на анализ на данни, машинно обучение и много други задачи с големи данни с помощта на Python.

Така че комбинацията от Python и Spark би била много ефективна за света на големите данни. Ето защо Apache Spark Community излезе с инструмент, наречен PySpark това е API на Python за Apache Spark.

Използване на PySpark в реалния живот

Данните са съществено нещо за всяка индустрия. Повечето индустрии работят с големи данни и наемат анализатори, за да извлекат полезна информация от необработените данни. Нека да разгледаме въздействието на PySpark върху няколко индустрии.

1. Развлекателна индустрия

10 от 50.00

Развлекателната индустрия е един от най-големите сектори, който се развива към онлайн стрийминг. Популярната онлайн платформа за забавление Нетфликс използва Apache spark за обработка в реално време на персонализирани онлайн филми или уеб сериали за своите клиенти. Обработва ок. 450 милиарда събития на ден, които се предават в сървърно приложение.

2. Търговски сектор

Търговският сектор също използва системата за обработка в реално време на Apache Spark. Банките и други финансови сфери използват Spark, за да извлекат профила на клиента в социалните медии и да анализират, за да получат полезна информация, която може да помогне за вземане на правилното решение.

Извлечената информация се използва за оценка на кредитния риск, таргетирани реклами и сегментиране на клиентите.

Spark играе важна роля в Откриване на измами и широко използвани в задачи за машинно обучение.

3. Здравеопазване

Apache Spark се използва за анализиране на досиетата на пациентите заедно с данните от предишни медицински отчети, за да се идентифицира кой пациент е вероятно да се сблъска със здравословни проблеми след изписването си от клиниката.

4. Търговия и електронна търговия

Водещите уебсайтове за електронна търговия като Flipkart, Amazon и т.н. използват Apache Spark за насочена реклама. Другите уебсайтове като Али Баба предоставя насочени оферти, подобрено клиентско изживяване и оптимизира цялостната производителност.

5. Туристическа индустрия

Туристическата индустрия широко използва Apache Spark, за да предоставя съвети на милиони пътници чрез сравняване на стотици уебсайтове за туризъм.

В този урок научихме за въвеждането на PySpark, ще научим повече за PySpark в следващия урок.

Предпоставки

Преди да научите PySpark, трябва да имате основна представа за език за програмиране и рамка. Ще бъде много полезно, ако имате добри познания по Apache Spark, Hadoop, езика за програмиране Scala, файловата система за разпространение на Hadoop (HDFS) и Python.

Публика

Нашият урок за PySpark е предназначен да помогне на начинаещи и професионалисти.

проблеми

Уверяваме ви, че няма да намерите никакъв проблем с този урок на PySpark. Въпреки това, ако има някаква грешка, моля, публикувайте проблема във формата за контакт.