Generando el archivo CSV.-
import pandas as pd
import numpy as np
# Generación de un dataset ficticio
np.random.seed(42)
cultivos = ['Maíz', 'Trigo', 'Arroz', 'Café', 'Tomate']
regiones = ['Norte', 'Sur', 'Este', 'Oeste']
cantidad_agua = np.random.randint(100, 500, size=(100,))
cultivo = np.random.choice(cultivos, size=(100,))
region = np.random.choice(regiones, size=(100,))
data = pd.DataFrame({
'Cultivo': cultivo,
'Region': region,
'Cantidad_Agua': cantidad_agua
})
data.to_csv('datos_cultivos_agua.csv', index=False)
Análisis Exploratorio de Datos en base al archivo CSV.-
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# Carga del dataset
data = pd.read_csv('datos_cultivos_agua.csv')
# Visualización de las primeras filas del dataset
print(data.head())
# Información general del dataset
print(data.info())
# Estadísticas descriptivas
print(data.describe())
# Visualización de la distribución de la cantidad de agua por
cultivo
plt.figure(figsize=(10, 6))
sns.boxplot(x='Cultivo', y='Cantidad_Agua', data=data)
plt.title('Distribución del Consumo de Agua por Cultivo')
plt.xlabel('Cultivo')
plt.ylabel('Cantidad de Agua')
plt.show()
# Visualización de la cantidad de agua por región
plt.figure(figsize=(10, 6))
sns.barplot(x='Region', y='Cantidad_Agua', data=data,
estimator=np.mean)
plt.title('Consumo Promedio de Agua por Región')
plt.xlabel('Región')
plt.ylabel('Cantidad Promedio de Agua')
plt.show()
# Correlación entre variables
correlation_matrix = data.corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Matriz de Correlación')
plt.show()
No hay comentarios:
Publicar un comentario