domingo, 10 de diciembre de 2023

Ejemplo Practico EDA

 Por: Julia Torrez

Este proyecto se centrará en un ejemplo práctico de Análisis Exploratorio de Datos (EDA) aplicado a la informática. Utilizaremos Python y las bibliotecas pandas, matplotlib y seaborn para realizar el análisis de datos. Asumiremos que estamos trabajando con un conjunto de datos ficticios que representan el rendimiento de un servidor a lo largo del tiempo.

Paso 1: Definición de Variables y Generación de Datos

import pandas as pd
import numpy as np
import random

# Definir el número de días y variables
num_dias = 30
horas_por_dia = 24

# Crear un rango de fechas y horas
fechas_horas = pd.date_range(start='2023-01-01', periods=num_dias * horas_por_dia, freq='H')

# Crear datos ficticios para el rendimiento del servidor
data = {
    'Fecha_Hora': fechas_horas,
    'Carga_CPU': np.random.uniform(0, 100, num_dias * horas_por_dia),
    'Uso_Memoria': np.random.uniform(0, 100, num_dias * horas_por_dia),
    'Transmision_Datos': np.random.uniform(0, 50, num_dias * horas_por_dia),
    'Latencia': np.random.uniform(1, 10, num_dias * horas_por_dia)
}

df_informatica = pd.DataFrame(data)
df_informatica.to_csv('datos_informatica.csv', index=False)

En este código, hemos creado datos ficticios que representan el rendimiento de un servidor a lo largo de 30 días. Las variables incluyen la carga de la CPU, el uso de la memoria, la cantidad de datos transmitidos y la latencia.

Paso 2: Análisis Exploratorio de Datos (EDA)

# Cargar datos desde el archivo CSV
df_informatica = pd.read_csv('datos_informatica.csv', parse_dates=['Fecha_Hora'])

# Mostrar las primeras filas del DataFrame
print(df_informatica.head())

# Información general del DataFrame
print("\nInformación del DataFrame:")
print(df_informatica.info())

# Estadísticas descriptivas
print("\nEstadísticas Descriptivas:")
print(df_informatica.describe())

# Visualizar la evolución de la carga de la CPU y el uso de memoria
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(12, 6))
sns.lineplot(x='Fecha_Hora', y='Carga_CPU', data=df_informatica, label='Carga de CPU')
sns.lineplot(x='Fecha_Hora', y='Uso_Memoria', data=df_informatica, label='Uso de Memoria')
plt.title('Evolución de la Carga de CPU y Uso de Memoria a lo largo del tiempo')
plt.xlabel('Fecha y Hora')
plt.ylabel('Porcentaje')
plt.legend()
plt.show()

RESULTADO:
Fecha_Hora Carga_CPU Uso_Memoria Transmision_Datos Latencia 0 2023-01-01 00:00:00 46.089834 26.084925 15.961265 9.777201 1 2023-01-01 01:00:00 82.870898 0.908703 45.295584 9.691934 2 2023-01-01 02:00:00 82.956272 64.829753 6.331856 2.937421 3 2023-01-01 03:00:00 70.938882 51.109382 8.925989 8.299941 4 2023-01-01 04:00:00 10.540138 44.551781 24.651506 2.775184 Información del DataFrame: <class 'pandas.core.frame.DataFrame'> RangeIndex: 720 entries, 0 to 719 Data columns (total 5 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Fecha_Hora 720 non-null datetime64[ns] 1 Carga_CPU 720 non-null float64 2 Uso_Memoria 720 non-null float64 3 Transmision_Datos 720 non-null float64 4 Latencia 720 non-null float64 dtypes: datetime64[ns](1), float64(4) memory usage: 28.2 KB None Estadísticas Descriptivas: Carga_CPU Uso_Memoria Transmision_Datos Latencia count 720.000000 720.000000 720.000000 720.000000 mean 49.446196 49.885386 24.659351 5.376228 std 29.012478 28.884475 14.493192 2.564416 min 0.022704 0.709181 0.071417 1.002169 25% 24.950608 24.390017 12.363067 3.157880 50% 47.493467 49.367676 24.408143 5.339580 75% 75.159607 74.176194 37.567688 7.444150 max 99.879294 99.935030 49.973034 9.990142

En este paso, realizamos un análisis exploratorio de datos básico. Cargamos los datos, mostramos las primeras filas, información general y estadísticas descriptivas. Además, visualizamos la evolución de la carga de CPU y el uso de memoria a lo largo del tiempo.

Conclusiones:

  1. Generación de Datos Ficticios: La creación de datos ficticios nos permite simular escenarios del mundo real y realizar análisis sin depender de conjuntos de datos reales.

  2. Análisis Exploratorio de Datos: A través del EDA, hemos obtenido información valiosa sobre el comportamiento del servidor, identificando patrones y tendencias en la carga de la CPU y el uso de memoria.

  3. Visualización de Datos: Las visualizaciones, como el gráfico de línea, son herramientas poderosas para entender la evolución de las métricas a lo largo del tiempo.

  4. Aplicación en Informática: Este ejemplo práctico puede ser aplicado en la monitorización y optimización del rendimiento de servidores, ayudando a identificar posibles problemas y mejorar la eficiencia.

Este proyecto proporciona una base para el análisis exploratorio de datos aplicado a la informática. Puedes personalizar y expandir este proyecto según tus necesidades específicas y la complejidad de tus datos. Recuerda que los datos utilizados son ficticios y con fines educativos. En un entorno real, trabajarías con datos reales y adaptarías tu análisis en consecuencia.







No hay comentarios:

Publicar un comentario

La importancia de la Evaluación sumativa en Ciberseguridad

 Por: Julia Torrez 1. Definición del Problema En este proyecto, realizaremos un análisis de la evaluación sumativa en el ámbito de la cibers...