Comment obtenir des lignes distinctes dans le dataframe à l’aide de PySpark ?

Afficher la discussion

Améliorer l’article

Enregistrer l’article

J’aime l’article

Afficher la discussion

Améliorer l’article

Enregistrer l’article

J’aime l’article

Dans cet article, nous allons obtenir les données distinctes de la trame de données pyspark en Python. Nous allons donc créer la trame de données à l’aide d’une liste imbriquée et obtenir les données distinctes.

Nous allons créer une trame de données à partir de la liste pyspark en contournant la liste de la méthode createDataFrame() de pyspark, puis en utilisant la fonction distinct() nous obtiendrons les lignes distinctes de la trame de données.

Syntaxe: dataframe.distinct()

Où dataframe est le nom du dataframe créé à partir des listes imbriquées à l’aide de pyspark

Exemple 1: code Python pour obtenir les données distinctes des données du collège dans un bloc de données créé par liste de listes.

Python3

import pyspark

 

from pyspark.sql import SparkSession

 

spark = SparkSession.builder.appName('sparkdf').getOrCreate()

 

data = [["1", "bobby", "vvit"],

        ["2", "sravan", "jntuk"],

        ["3", "rohith", "AU"],

        ["4", "sridevi", "GVRS"],

        ["1", "bobby", "vvit"]]

 

columns = ['ID', 'NAME', 'COLLEGE']

 

dataframe = spark.createDataFrame(data, columns)

 

print('Actual data in dataframe')

dataframe.show()

Production:

1

Obtenez maintenant les lignes distinctes dans le dataframe :

Python3

print('distinct data')

 

dataframe.distinct().show()

Production:

Capture

Exemple 2 : Programme Python pour trouver des valeurs distinctes à partir d’une ligne

Python3

import pyspark

 

from pyspark.sql import SparkSession

 

spark = SparkSession.builder.appName('sparkdf').getOrCreate()

 

data = [["1", "bobby", "vvit"]]

 

columns = ['ID', 'NAME', 'COLLEGE']

 

dataframe = spark.createDataFrame(data, columns)

 

print('Actual data in dataframe')

dataframe.show()

Production:

Capture

Obtenez maintenant les lignes distinctes dans le dataframe :

Python3

print('distinct data')

 

dataframe.distinct().show()

Production:

1

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *