Cleaning and Exploring Big Data using PySpark

4.1

59件の評価

提供:

4,100人がすでに登録済みです

このガイド付きプロジェクトでは、次のことを行います。
2 hours
中級
ダウンロード不要
分割画面ビデオ
英語
デスクトップのみ

By the end of this project, you will learn how to clean, explore and visualize big data using PySpark. You will be using an open source dataset containing information on all the water wells in Tanzania. I will teach you various ways to clean and explore your big data in PySpark such as changing column’s data type, renaming categories with low frequency in character columns and imputing missing values in numerical columns. I will also teach you ways to visualize your data by intelligently converting Spark dataframe to Pandas dataframe. Cleaning and exploring big data in PySpark is quite different from Python due to the distributed nature of Spark dataframes. This guided project will dive deep into various ways to clean and explore your data loaded in PySpark. Data preprocessing in big data analysis is a crucial step and one should learn about it before building any big data machine learning model. Note: You should have a Gmail account which you will use to sign into Google Colab. Note: This course works best for learners who are based in the North America region. We’re currently working on providing the same experience in other regions.

あなたが開発するスキル

  • Cleaning

  • Python Programming

  • Data Visualization (DataViz)

  • Apache Spark

  • Exploratory Data Analysis

ステップバイステップで学習します

ワークエリアを使用した分割画面で再生するビデオでは、講師がこれらの手順を説明します。

ガイド付きプロジェクトの仕組み

ワークスペースは、ブラウザに完全にロードされたクラウドデスクトップですので、ダウンロードは不要です

分割画面のビデオで、講師が手順ごとにガイドします

レビュー

CLEANING AND EXPLORING BIG DATA USING PYSPARK からの人気レビュー

すべてのレビューを見る

よくある質問