Por: Julia Torrez
Desarrollar un proyecto de introducción al análisis de datos en informática implica la creación de datos ficticios, realizar un análisis exploratorio, y presentar los resultados a través de gráficas relevantes. Aquí te proporcionaré un ejemplo paso a paso utilizando Python y algunas bibliotecas populares como pandas, matplotlib, y seaborn.
Paso 1: Generación de Datos Ficticios
import pandas as pd
import numpy as np
import random
# Generar datos ficticios
np.random.seed(42) # Para reproducibilidad
num_estudiantes = 50
data = {
'Estudiante': [f'Estudiante {i}' for i in range(1, num_estudiantes + 1)],
'Edad': np.random.randint(18, 25, num_estudiantes),
'Horas_Estudio': np.random.randint(1, 10, num_estudiantes),
'Calificacion_Final': np.random.uniform(60, 100, num_estudiantes)
}
df = pd.DataFrame(data)
df.to_csv('analisis_datos.csv', index=False)
Paso 2: Análisis Exploratorio de Datos
# Cargar datos desde el archivo CSV
df = pd.read_csv('analisis_datos.csv')
# Mostrar las primeras filas del DataFrame
print(df.head())
# Resumen estadístico
print(df.describe())
# Visualizar la distribución de edades
import seaborn as sns
import matplotlib.pyplot as plt
sns.histplot(df['Edad'], bins=10, kde=True)
plt.title('Distribución de Edades')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.show()
Resultados :
Estudiante Edad Horas_Estudio Calificacion_Final
0 Estudiante 1 24 5 88.453678
1 Estudiante 2 21 3 91.607022
2 Estudiante 3 22 7 84.238399
3 Estudiante 4 24 5 97.052035
4 Estudiante 5 20 9 86.043081
Edad Horas_Estudio Calificacion_Final
count 50.000000 50.000000 50.000000
mean 21.280000 5.340000 81.010740
std 1.852081 2.752439 10.877699
min 18.000000 1.000000 61.617344
25% 20.000000 3.000000 71.197991
50% 21.000000 5.000000 82.490380
75% 23.000000 8.000000 88.446887
max 24.000000 9.000000 98.868484
En este paso, cargamos los datos y realizamos un análisis exploratorio básico. Mostramos las primeras filas del DataFrame, un resumen estadístico y visualizamos la distribución de edades utilizando un histograma.
Paso 3: Presentación de Resultados
# Correlación entre horas de estudio y calificación final
correlation = df['Horas_Estudio'].corr(df['Calificacion_Final'])
print(f"Correlación entre Horas de Estudio y Calificación Final: {correlation:.2f}")
# Visualizar la relación entre horas de estudio y calificación final
sns.scatterplot(x='Horas_Estudio', y='Calificacion_Final', data=df)
plt.title('Relación entre Horas de Estudio y Calificación Final')
plt.xlabel('Horas de Estudio')
plt.ylabel('Calificación Final')
plt.show()
En este paso, calculamos la correlación entre las horas de estudio y la calificación final, y visualizamos la relación a través de un gráfico de dispersión.
Este es un proyecto básico de análisis de datos en informática. Puedes ampliarlo agregando más variables, explorando patrones, aplicando técnicas estadísticas más avanzadas, y presentando los resultados de manera más detallada según tus objetivos específicos.
Recuerda que estos datos son ficticios y el análisis es solo con fines educativos. En un entorno real, deberías trabajar con datos reales y asegurarte de seguir prácticas éticas y de privacidad.


No hay comentarios:
Publicar un comentario