Cómo crear un marco de datos de Pandas en Python

Un Pandas DataFrame es una estructura de datos etiquetada bidimensional con columnas de tipos potencialmente diferentes. Puede considerarlo como una hoja de cálculo o una tabla SQL, o un dictado de objetos de serie. Es el objeto pandas más utilizado.

En este tutorial, aprenderá cómo crear un Pandas DataFrame en Python. Cubriremos los conceptos básicos de DataFrames, así como también cómo crearlos desde cero. En esta breve guía, verá dos métodos diferentes para crear Pandas DataFrame:

  • Método 1: escribir los valores en Python para crear Pandas DataFrame
  • Método 2: importar valores de un archivo CSV para crear Pandas DataFrame

Método 1: escribir los valores en Python para crear Pandas DataFrame

Para crear Pandas DataFrame en Python, puedes seguir esta plantilla genérica:

import pandas as pd

data = {'first_column':  ['first_value', 'second_value', ...],
        'second_column': ['first_value', 'second_value', ...],
         ....
        }

df = pd.DataFrame(data)

print(df)

Tenga en cuenta que no necesita utilizar comillas alrededor de valores numéricos (a menos que desee capturar esos valores como cadenas ).

Ahora veamos cómo aplicar la plantilla anterior usando un ejemplo simple.

Para comenzar, digamos que tiene los siguientes datos sobre productos y que desea capturar esos datos en Python usando Pandas DataFrame:

nombre del productoprecio
iPhone1800
Samsung800
Xiaomi500
oppo250
Vivo300

Luego puede usar el siguiente código para crear el DataFrame para nuestro ejemplo:

import pandas as pd

data = {'product_name': ['Iphone', 'Samsung', 'Xiaomi', 'Oppo', 'Vivo'],
        'price': [1800, 800, 500, 250, 300]
        }

df = pd.DataFrame(data)

print(df)

Producción:

product_name  price
0       Iphone   1800
1      Samsung    800
2       Xiaomi    500
3         Oppo    250
4         Vivo    300

Observe que cada fila está representada por un número (también conocido como índice) que comienza en 0. Alternativamente, puede asignar otro valor/nombre para representar cada fila.

Por ejemplo, en el código siguiente, se agregó index=['product_1', 'product_2', 'product_3', 'product_4', 'product_5'] :

import pandas as pd

data = {'product_name': ['Iphone', 'Samsung', 'Xiaomi', 'Oppo', 'Vivo'],
        'price': [1800, 800, 500, 250, 300]
        }

df = pd.DataFrame(data, index=['product_1', 'product_2', 'product_3', 'product_4', 'product_5'])

print(df)

Ahora verá el índice recién asignado (resaltado en amarillo):

product_name  price
product_1       Iphone   1800
product_2      Samsung    800
product_3       Xiaomi    500
product_4         Oppo    250
product_5         Vivo    300

Repasemos ahora el segundo método de importar los valores a Python para crear el DataFrame.


Método 2: importar valores desde un archivo CSV para crear Pandas DataFrame

Puede utilizar la siguiente plantilla para importar un archivo CSV a Python para crear su DataFrame:

import pandas as pd

data = pd.read_csv(r'Path where the CSV file is stored\File name.csv')
df = pd.DataFrame(data)

print(df)

Supongamos que tiene los siguientes datos almacenados en un archivo CSV (donde el nombre del archivo CSV es "productos"):

nombre del productoprecio
iPhone1800
Samsung800
Xiaomi500
oppo250
Vivo300

En el código Python a continuación, deberá cambiar el nombre de la ruta para reflejar la ubicación donde está almacenado el archivo CSV en su computadora.

Por ejemplo, supongamos que el archivo CSV está almacenado en la siguiente ruta:

 'C:\Usuarios\Ron\Desktop\products.csv'

Aquí está el código Python completo para nuestro ejemplo:

import pandas as pd

data = pd.read_csv(r'C:\Users\Ron\Desktop\products.csv')
df = pd.DataFrame(data)

print(df)

Como antes, obtendrás el mismo Pandas DataFrame en Python:

product_name  price
0       Iphone   1800
1      Samsung    800
2       Xiaomi    500
3         Oppo    250
4         Vivo    300

También puedes crear el mismo DataFrame importando un archivo de Excel a Python usando Pandas.

Encuentre el valor máximo en el DataFrame

Una vez que tenga sus valores en el DataFrame, podrá realizar una gran variedad de operaciones. Por ejemplo, puedes calcular estadísticas usando Pandas .

Por ejemplo, digamos que desea encontrar el precio máximo entre todos los productos dentro del DataFrame.

Para obtener el precio máximo para nuestro ejemplo, deberá agregar la siguiente parte al código Python (y luego imprimir los resultados):

max_price = df['price'].max()

Aquí está el código Python completo:

import pandas as pd

data = {'product_name': ['Iphone', 'Samsung', 'Xiaomi', 'Oppo', 'Vivo'],
        'price': [1800, 800, 500, 250, 300]
        }

df = pd.DataFrame(data)

max_price = df['price'].max()
print(max_price)

Una vez que ejecutes el código, obtendrás el valor de 1200 , que de hecho es el precio máximo:

1800

Puede consultar la documentación de Pandas para obtener más información sobre cómo crear un DataFrame.

1.10 GEEK