Por: Julia Torrez
Este proyecto se centrará en un ejemplo práctico de Análisis Exploratorio de Datos (EDA) aplicado a la informática. Utilizaremos Python y las bibliotecas pandas, matplotlib y seaborn para realizar el análisis de datos. Asumiremos que estamos trabajando con un conjunto de datos ficticios que representan el rendimiento de un servidor a lo largo del tiempo.
Paso 1: Definición de Variables y Generación de Datos
import pandas as pd
import numpy as np
import random
# Definir el número de días y variables
num_dias = 30
horas_por_dia = 24
# Crear un rango de fechas y horas
fechas_horas = pd.date_range(start='2023-01-01', periods=num_dias * horas_por_dia, freq='H')
# Crear datos ficticios para el rendimiento del servidor
data = {
'Fecha_Hora': fechas_horas,
'Carga_CPU': np.random.uniform(0, 100, num_dias * horas_por_dia),
'Uso_Memoria': np.random.uniform(0, 100, num_dias * horas_por_dia),
'Transmision_Datos': np.random.uniform(0, 50, num_dias * horas_por_dia),
'Latencia': np.random.uniform(1, 10, num_dias * horas_por_dia)
}
df_informatica = pd.DataFrame(data)
df_informatica.to_csv('datos_informatica.csv', index=False)
En este código, hemos creado datos ficticios que representan el rendimiento de un servidor a lo largo de 30 días. Las variables incluyen la carga de la CPU, el uso de la memoria, la cantidad de datos transmitidos y la latencia.
Paso 2: Análisis Exploratorio de Datos (EDA)
# Cargar datos desde el archivo CSV
df_informatica = pd.read_csv('datos_informatica.csv', parse_dates=['Fecha_Hora'])
# Mostrar las primeras filas del DataFrame
print(df_informatica.head())
# Información general del DataFrame
print("\nInformación del DataFrame:")
print(df_informatica.info())
# Estadísticas descriptivas
print("\nEstadísticas Descriptivas:")
print(df_informatica.describe())
# Visualizar la evolución de la carga de la CPU y el uso de memoria
import seaborn as sns
import matplotlib.pyplot as plt
plt.figure(figsize=(12, 6))
sns.lineplot(x='Fecha_Hora', y='Carga_CPU', data=df_informatica, label='Carga de CPU')
sns.lineplot(x='Fecha_Hora', y='Uso_Memoria', data=df_informatica, label='Uso de Memoria')
plt.title('Evolución de la Carga de CPU y Uso de Memoria a lo largo del tiempo')
plt.xlabel('Fecha y Hora')
plt.ylabel('Porcentaje')
plt.legend()
plt.show()
RESULTADO:
Fecha_Hora Carga_CPU Uso_Memoria Transmision_Datos Latencia
0 2023-01-01 00:00:00 46.089834 26.084925 15.961265 9.777201
1 2023-01-01 01:00:00 82.870898 0.908703 45.295584 9.691934
2 2023-01-01 02:00:00 82.956272 64.829753 6.331856 2.937421
3 2023-01-01 03:00:00 70.938882 51.109382 8.925989 8.299941
4 2023-01-01 04:00:00 10.540138 44.551781 24.651506 2.775184
Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 720 entries, 0 to 719
Data columns (total 5 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Fecha_Hora 720 non-null datetime64[ns]
1 Carga_CPU 720 non-null float64
2 Uso_Memoria 720 non-null float64
3 Transmision_Datos 720 non-null float64
4 Latencia 720 non-null float64
dtypes: datetime64[ns](1), float64(4)
memory usage: 28.2 KB
None
Estadísticas Descriptivas:
Carga_CPU Uso_Memoria Transmision_Datos Latencia
count 720.000000 720.000000 720.000000 720.000000
mean 49.446196 49.885386 24.659351 5.376228
std 29.012478 28.884475 14.493192 2.564416
min 0.022704 0.709181 0.071417 1.002169
25% 24.950608 24.390017 12.363067 3.157880
50% 47.493467 49.367676 24.408143 5.339580
75% 75.159607 74.176194 37.567688 7.444150
max 99.879294 99.935030 49.973034 9.990142En este paso, realizamos un análisis exploratorio de datos básico. Cargamos los datos, mostramos las primeras filas, información general y estadísticas descriptivas. Además, visualizamos la evolución de la carga de CPU y el uso de memoria a lo largo del tiempo.
Conclusiones:
Generación de Datos Ficticios: La creación de datos ficticios nos permite simular escenarios del mundo real y realizar análisis sin depender de conjuntos de datos reales.
Análisis Exploratorio de Datos: A través del EDA, hemos obtenido información valiosa sobre el comportamiento del servidor, identificando patrones y tendencias en la carga de la CPU y el uso de memoria.
Visualización de Datos: Las visualizaciones, como el gráfico de línea, son herramientas poderosas para entender la evolución de las métricas a lo largo del tiempo.
Aplicación en Informática: Este ejemplo práctico puede ser aplicado en la monitorización y optimización del rendimiento de servidores, ayudando a identificar posibles problemas y mejorar la eficiencia.
Este proyecto proporciona una base para el análisis exploratorio de datos aplicado a la informática. Puedes personalizar y expandir este proyecto según tus necesidades específicas y la complejidad de tus datos. Recuerda que los datos utilizados son ficticios y con fines educativos. En un entorno real, trabajarías con datos reales y adaptarías tu análisis en consecuencia.
No hay comentarios:
Publicar un comentario