Julia Torrez Soria - Python en 10 minutos: Introducción a Análisis de Datos

Por: Julia Torrez

Desarrollar un proyecto de introducción al análisis de datos en informática implica la creación de datos ficticios, realizar un análisis exploratorio, y presentar los resultados a través de gráficas relevantes. Aquí te proporcionaré un ejemplo paso a paso utilizando Python y algunas bibliotecas populares como pandas, matplotlib, y seaborn.

Paso 1: Generación de Datos Ficticios

import pandas as pd
import numpy as np
import random

# Generar datos ficticios
np.random.seed(42)  # Para reproducibilidad
num_estudiantes = 50

data = {
    'Estudiante': [f'Estudiante {i}' for i in range(1, num_estudiantes + 1)],
    'Edad': np.random.randint(18, 25, num_estudiantes),
    'Horas_Estudio': np.random.randint(1, 10, num_estudiantes),
    'Calificacion_Final': np.random.uniform(60, 100, num_estudiantes)
}

df = pd.DataFrame(data)
df.to_csv('analisis_datos.csv', index=False)

Paso 2: Análisis Exploratorio de Datos
# Cargar datos desde el archivo CSV
df = pd.read_csv('analisis_datos.csv')

# Mostrar las primeras filas del DataFrame
print(df.head())

# Resumen estadístico
print(df.describe())

# Visualizar la distribución de edades
import seaborn as sns
import matplotlib.pyplot as plt

sns.histplot(df['Edad'], bins=10, kde=True)
plt.title('Distribución de Edades')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.show()

Resultados :
  Estudiante  Edad  Horas_Estudio  Calificacion_Final
0  Estudiante 1    24              5           88.453678
1  Estudiante 2    21              3           91.607022
2  Estudiante 3    22              7           84.238399
3  Estudiante 4    24              5           97.052035
4  Estudiante 5    20              9           86.043081
            Edad  Horas_Estudio  Calificacion_Final
count  50.000000      50.000000           50.000000
mean   21.280000       5.340000           81.010740
std     1.852081       2.752439           10.877699
min    18.000000       1.000000           61.617344
25%    20.000000       3.000000           71.197991
50%    21.000000       5.000000           82.490380
75%    23.000000       8.000000           88.446887
max    24.000000       9.000000           98.868484




En este paso, cargamos los datos y realizamos un análisis exploratorio básico. Mostramos las primeras filas del DataFrame, un resumen estadístico y visualizamos la distribución de edades utilizando un histograma.
Paso 3: Presentación de Resultados
# Correlación entre horas de estudio y calificación final
correlation = df['Horas_Estudio'].corr(df['Calificacion_Final'])
print(f"Correlación entre Horas de Estudio y Calificación Final: {correlation:.2f}")

# Visualizar la relación entre horas de estudio y calificación final
sns.scatterplot(x='Horas_Estudio', y='Calificacion_Final', data=df)
plt.title('Relación entre Horas de Estudio y Calificación Final')
plt.xlabel('Horas de Estudio')
plt.ylabel('Calificación Final')
plt.show()
En este paso, calculamos la correlación entre las horas de estudio y la calificación final, y visualizamos la relación a través de un gráfico de dispersión.
Este es un proyecto básico de análisis de datos en informática. Puedes ampliarlo agregando más variables, explorando patrones, aplicando técnicas estadísticas más avanzadas, y presentando los resultados de manera más detallada según tus objetivos específicos.
Recuerda que estos datos son ficticios y el análisis es solo con fines educativos. En un entorno real, deberías trabajar con datos reales y asegurarte de seguir prácticas éticas y de privacidad.

Julia Torrez Soria - Python en 10 minutos

domingo, 10 de diciembre de 2023

Introducción a Análisis de Datos - En Informatica

Paso 1: Generación de Datos Ficticios

Paso 2: Análisis Exploratorio de Datos

Resultados :

Paso 3: Presentación de Resultados

No hay comentarios:

Publicar un comentario

La importancia de la Evaluación sumativa en Ciberseguridad

Denunciar abuso