Ejemplo Practico EDA

Por: Julia Torrez

Este proyecto se centrará en un ejemplo práctico de Análisis Exploratorio de Datos (EDA) aplicado a la informática. Utilizaremos Python y las bibliotecas pandas, matplotlib y seaborn para realizar el análisis de datos. Asumiremos que estamos trabajando con un conjunto de datos ficticios que representan el rendimiento de un servidor a lo largo del tiempo.

Paso 1: Definición de Variables y Generación de Datos

import pandas as pd
import numpy as np
import random

# Definir el número de días y variables
num_dias = 30
horas_por_dia = 24

# Crear un rango de fechas y horas
fechas_horas = pd.date_range(start='2023-01-01', periods=num_dias * horas_por_dia, freq='H')

# Crear datos ficticios para el rendimiento del servidor
data = {
    'Fecha_Hora': fechas_horas,
    'Carga_CPU': np.random.uniform(0, 100, num_dias * horas_por_dia),
    'Uso_Memoria': np.random.uniform(0, 100, num_dias * horas_por_dia),
    'Transmision_Datos': np.random.uniform(0, 50, num_dias * horas_por_dia),
    'Latencia': np.random.uniform(1, 10, num_dias * horas_por_dia)
}

df_informatica = pd.DataFrame(data)
df_informatica.to_csv('datos_informatica.csv', index=False)

En este código, hemos creado datos ficticios que representan el rendimiento de un servidor a lo largo de 30 días. Las variables incluyen la carga de la CPU, el uso de la memoria, la cantidad de datos transmitidos y la latencia.
Paso 2: Análisis Exploratorio de Datos (EDA)# Cargar datos desde el archivo CSV
df_informatica = pd.read_csv('datos_informatica.csv', parse_dates=['Fecha_Hora'])

# Mostrar las primeras filas del DataFrame
print(df_informatica.head())

# Información general del DataFrame
print("\nInformación del DataFrame:")
print(df_informatica.info())

# Estadísticas descriptivas
print("\nEstadísticas Descriptivas:")
print(df_informatica.describe())

# Visualizar la evolución de la carga de la CPU y el uso de memoria
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(12, 6))
sns.lineplot(x='Fecha_Hora', y='Carga_CPU', data=df_informatica, label='Carga de CPU')
sns.lineplot(x='Fecha_Hora', y='Uso_Memoria', data=df_informatica, label='Uso de Memoria')
plt.title('Evolución de la Carga de CPU y Uso de Memoria a lo largo del tiempo')
plt.xlabel('Fecha y Hora')
plt.ylabel('Porcentaje')
plt.legend()
plt.show()

RESULTADO: 
          Fecha_Hora  Carga_CPU  Uso_Memoria  Transmision_Datos  Latencia
0 2023-01-01 00:00:00  46.089834    26.084925          15.961265  9.777201
1 2023-01-01 01:00:00  82.870898     0.908703          45.295584  9.691934
2 2023-01-01 02:00:00  82.956272    64.829753           6.331856  2.937421
3 2023-01-01 03:00:00  70.938882    51.109382           8.925989  8.299941
4 2023-01-01 04:00:00  10.540138    44.551781          24.651506  2.775184

Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 720 entries, 0 to 719
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   Fecha_Hora         720 non-null    datetime64[ns]
 1   Carga_CPU          720 non-null    float64       
 2   Uso_Memoria        720 non-null    float64       
 3   Transmision_Datos  720 non-null    float64       
 4   Latencia           720 non-null    float64       
dtypes: datetime64[ns](1), float64(4)
memory usage: 28.2 KB
None

Estadísticas Descriptivas:
        Carga_CPU  Uso_Memoria  Transmision_Datos    Latencia
count  720.000000   720.000000         720.000000  720.000000
mean    49.446196    49.885386          24.659351    5.376228
std     29.012478    28.884475          14.493192    2.564416
min      0.022704     0.709181           0.071417    1.002169
25%     24.950608    24.390017          12.363067    3.157880
50%     47.493467    49.367676          24.408143    5.339580
75%     75.159607    74.176194          37.567688    7.444150
max     99.879294    99.935030          49.973034    9.990142

En este paso, realizamos un análisis exploratorio de datos básico. Cargamos los datos, mostramos las primeras filas, información general y estadísticas descriptivas. Además, visualizamos la evolución de la carga de CPU y el uso de memoria a lo largo del tiempo.
Conclusiones:Generación de Datos Ficticios: La creación de datos ficticios nos permite simular escenarios del mundo real y realizar análisis sin depender de conjuntos de datos reales.
Análisis Exploratorio de Datos: A través del EDA, hemos obtenido información valiosa sobre el comportamiento del servidor, identificando patrones y tendencias en la carga de la CPU y el uso de memoria.
Visualización de Datos: Las visualizaciones, como el gráfico de línea, son herramientas poderosas para entender la evolución de las métricas a lo largo del tiempo.
Aplicación en Informática: Este ejemplo práctico puede ser aplicado en la monitorización y optimización del rendimiento de servidores, ayudando a identificar posibles problemas y mejorar la eficiencia.
Este proyecto proporciona una base para el análisis exploratorio de datos aplicado a la informática. Puedes personalizar y expandir este proyecto según tus necesidades específicas y la complejidad de tus datos. Recuerda que los datos utilizados son ficticios y con fines educativos. En un entorno real, trabajarías con datos reales y adaptarías tu análisis en consecuencia.

Julia Torrez Soria - Python en 10 minutos

domingo, 10 de diciembre de 2023

Ejemplo Practico EDA

Paso 1: Definición de Variables y Generación de Datos

Paso 2: Análisis Exploratorio de Datos (EDA)

Conclusiones:

No hay comentarios:

Publicar un comentario

La importancia de la Evaluación sumativa en Ciberseguridad

Denunciar abuso