domingo, 10 de diciembre de 2023

Introducción a Análisis de Datos - En Informatica

Por: Julia Torrez

Desarrollar un proyecto de introducción al análisis de datos en informática implica la creación de datos ficticios, realizar un análisis exploratorio, y presentar los resultados a través de gráficas relevantes. Aquí te proporcionaré un ejemplo paso a paso utilizando Python y algunas bibliotecas populares como pandas, matplotlib, y seaborn.

Paso 1: Generación de Datos Ficticios

import pandas as pd
import numpy as np
import random

# Generar datos ficticios
np.random.seed(42)  # Para reproducibilidad
num_estudiantes = 50

data = {
    'Estudiante': [f'Estudiante {i}' for i in range(1, num_estudiantes + 1)],
    'Edad': np.random.randint(18, 25, num_estudiantes),
    'Horas_Estudio': np.random.randint(1, 10, num_estudiantes),
    'Calificacion_Final': np.random.uniform(60, 100, num_estudiantes)
}

df = pd.DataFrame(data)
df.to_csv('analisis_datos.csv', index=False)

Paso 2: Análisis Exploratorio de Datos

# Cargar datos desde el archivo CSV
df = pd.read_csv('analisis_datos.csv')

# Mostrar las primeras filas del DataFrame
print(df.head())

# Resumen estadístico
print(df.describe())

# Visualizar la distribución de edades
import seaborn as sns
import matplotlib.pyplot as plt

sns.histplot(df['Edad'], bins=10, kde=True)
plt.title('Distribución de Edades')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.show()

Resultados :

Estudiante Edad Horas_Estudio Calificacion_Final 0 Estudiante 1 24 5 88.453678 1 Estudiante 2 21 3 91.607022 2 Estudiante 3 22 7 84.238399 3 Estudiante 4 24 5 97.052035 4 Estudiante 5 20 9 86.043081 Edad Horas_Estudio Calificacion_Final count 50.000000 50.000000 50.000000 mean 21.280000 5.340000 81.010740 std 1.852081 2.752439 10.877699 min 18.000000 1.000000 61.617344 25% 20.000000 3.000000 71.197991 50% 21.000000 5.000000 82.490380 75% 23.000000 8.000000 88.446887 max 24.000000 9.000000 98.868484




En este paso, cargamos los datos y realizamos un análisis exploratorio básico. Mostramos las primeras filas del DataFrame, un resumen estadístico y visualizamos la distribución de edades utilizando un histograma.

Paso 3: Presentación de Resultados

# Correlación entre horas de estudio y calificación final
correlation = df['Horas_Estudio'].corr(df['Calificacion_Final'])
print(f"Correlación entre Horas de Estudio y Calificación Final: {correlation:.2f}")

# Visualizar la relación entre horas de estudio y calificación final
sns.scatterplot(x='Horas_Estudio', y='Calificacion_Final', data=df)
plt.title('Relación entre Horas de Estudio y Calificación Final')
plt.xlabel('Horas de Estudio')
plt.ylabel('Calificación Final')
plt.show()
En este paso, calculamos la correlación entre las horas de estudio y la calificación final, y visualizamos la relación a través de un gráfico de dispersión.
Este es un proyecto básico de análisis de datos en informática. Puedes ampliarlo agregando más variables, explorando patrones, aplicando técnicas estadísticas más avanzadas, y presentando los resultados de manera más detallada según tus objetivos específicos.
Recuerda que estos datos son ficticios y el análisis es solo con fines educativos. En un entorno real, deberías trabajar con datos reales y asegurarte de seguir prácticas éticas y de privacidad.






















No hay comentarios:

Publicar un comentario

La importancia de la Evaluación sumativa en Ciberseguridad

 Por: Julia Torrez 1. Definición del Problema En este proyecto, realizaremos un análisis de la evaluación sumativa en el ámbito de la cibers...