Manipulation de DataFrames avec Pandas – Python

Afficher la discussion

Améliorer l’article

Enregistrer l’article

J’aime l’article

Afficher la discussion

Améliorer l’article

Enregistrer l’article

J’aime l’article

Avant de manipuler la trame de données avec des pandas, nous devons comprendre ce qu’est la manipulation de données. Les données dans le monde réel sont très désagréables et non ordonnées, donc en effectuant certaines opérations, nous pouvons rendre les données compréhensibles en fonction de nos besoins, ce processus de conversion de données non ordonnées en informations significatives peut être effectué par manipulation de données.

Ici, nous allons apprendre à manipuler des dataframes avec des pandas. Pandas est une bibliothèque open source qui est utilisée de la manipulation des données à l’analyse des données et est un outil très puissant, flexible et facile à utiliser qui peut être importé à l’aide d’import pandas en tant que pd. Les pandas traitent essentiellement des données dans des tableaux 1D et 2D ; Bien que les pandas traitent ces deux choses différemment. Dans les pandas, les tableaux 1-D sont définis comme une série et une trame de données est simplement un tableau 2-D. Le jeu de données utilisé ici est code_pays.csv.

Vous trouverez ci-dessous diverses opérations utilisées pour manipuler le dataframe :

  • Tout d’abord, importez la bibliothèque utilisée dans la manipulation de données, c’est-à-dire pandas, puis attribuez et lisez la trame de données :

Python3

import pandas as pd

df = pd.read_csv("country_code.csv")

print("Type-", type(df))

df

Production:

Screenshot405

  • Nous pouvons lire la trame de données en utilisant tête() fonction également qui a un argument (n) c’est-à-dire le nombre de lignes à afficher.

Production:

Screenshot406

  • Compter les lignes et les colonnes dans DataFrame en utilisant forme(). Il renvoie le non. de lignes et de colonnes enfermées dans un tuple.

Production:

Screenshot541

  • Résumé des statistiques de DataFrame utilisant décris() méthode.

Production:

Screenshot540

  • En supprimant les valeurs manquantes dans DataFrame, cela peut être fait en utilisant le dropna() méthode, il supprime toutes les valeurs NaN dans la trame de données.

Production:

Screenshot386

Un autre exemple est :

Cela supprimera toutes les colonnes avec des valeurs manquantes.

Production:

Screenshot402

  • Fusionner des DataFrames à l’aide de fusionner()les arguments passés sont les dataframes à fusionner avec le nom de la colonne.

Python3

df1 = pd.read_csv("country_code.csv")

merged_col = pd.merge(df, df1, on='Name')

merged_col

Production:

Screenshot388

  • Un argument supplémentaire ‘on’ est le nom de la colonne commune, ici ‘Name’ est la colonne commune donnée à la fonction merge(). df est la première trame de données et df1 est la deuxième trame de données à fusionner.
  • Renommer les colonnes de dataframe en utilisant Renommer()les arguments passés sont les colonnes à renommer & inplace.

Python3

country_code = df.rename(columns={'Name': 'CountryName',

                                  'Code': 'CountryCode'},

                         inplace=False)

country_code

Production:

Screenshot401

Le code ‘inplace = False’ signifie que le résultat serait stocké dans un nouveau DataFrame au lieu de celui d’origine.

  • Création manuelle d’un dataframe :

Python3

student = pd.DataFrame({'Name': ['Rohan', 'Rahul', 'Gaurav',

                                 'Ananya', 'Vinay', 'Rohan',

                                 'Vivek', 'Vinay'],

                        

                        'Score': [76, 69, 70, 88, 79, 64, 62, 57]})

student

Production:

Screenshot389

  • Trier le DataFrame en utilisant sort_values() méthode.

Python3

student.sort_values(by=['Score']Ascendant=True)

Production:

Screenshot390

  • Trier le DataFrame en utilisant plusieurs colonnes :

Python3

student.sort_values(by=['Name', 'Score'],

                    ascending=[True, False])

Production:

Screenshot407

  • En créant une autre colonne dans DataFrame, nous allons créer ici un pourcentage de nom de colonne qui calculera le pourcentage du score de l’élève en utilisant la fonction d’agrégation sum().

Python3

étudiant['Percentage'] = (étudiant['Score'] / étudiant['Score'].sum()) * 100

student

Production:

Screenshot408

  • Sélection de lignes DataFrame à l’aide d’opérateurs logiques :

Python3

print(étudiant[student.Score>70])

print(étudiant[(student.Score>60) | (student.Score<70)])

Production:

Screenshot394

Ici .loc est la base de l’étiquette et .iloc est une méthode basée sur la position entière utilisée pour le découpage et l’indexation des données.

Python3

print(étudiant.loc[0:4, 'Name'])

print(étudiant.loc[:, 'Score'])

print(étudiant.iloc[0, 0:2])

print(étudiant.iloc[0:3, 0:3])

print(étudiant.iloc[:, 0:2])

Production:

.loc :

Screenshot396

.iloc :

Screenshot397

  • Apply Functions, cette fonction est utilisée pour appliquer une fonction le long d’un axe de dataframe, qu’il s’agisse d’une ligne (axe = 0) ou d’une colonne (axe = 1).

Python3

def double(a):

    return 2*a

étudiant['Score'] = étudiant['Score'].apply(double)

student

Production:

Screenshot403

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *