View difference between Paste ID: rAZRb3sH and nrrpw9rR
SHOW: | | - or go back to the newest paste.
1-
--Удалите из датафрейма пропущенные значения. Затем напечатайте на экране количество строк в датафрейме.
1+
--Заполните пропущенные значения в датафрейме нулями. Функцией describe() выведите на экран результаты, чтобы убедиться в корректности заполнения значений.
2
3
import numpy as np
4
import pandas as pd
5
from pyspark.sql import SparkSession
6
7
APP_NAME = "DataFrames"
8
SPARK_URL = "local[*]"
9
10
spark = SparkSession.builder.appName(APP_NAME) \
11
        .config('spark.ui.showConsoleProgress', 'false') \
12
        .getOrCreate()
13
14
taxi = spark.read.load('/datasets/pickups_terminal_5.csv', 
15
                       format='csv', header='true', inferSchema='true')
16
17-
taxi = taxi.dropna()
17+
taxi = taxi.fillna(0)
18-
print(taxi.count())
18+
print(taxi.describe().show())