¿Cómo podemos analizar los datos de nuestra empresa? Primeros pasos

Dado un conjunto de datos, podemos, a priori, querer obtener respuestas a preguntas clave para nuestro negocio a partir de su análisis:

  • ¿Cuáles son los factores que más influyen en la productividad de mis empleados?
  • ¿Puedo predecir la pérdida o ganancia de una oportunidad de negocio en mi empresa?
  • ¿Qué probabilidad tengo de una parada en mi cadena de producción?

Antes de profundizar en el tema de este post y para que podaís conocer información básica sobre tipos de análisis de datos, os recomiendo la lectura del artículo El nivel de madurez de las organizaciones en el análisis de datos donde mi compañero Iván Toda explica, entre otras ideas, por qué el dato se ha convertido en la mejor materia prima de las empresas.

Por esta razón, antes de aplicar técnicas de análisis detallado, debemos cuestionarnos si tenemos dicha materia prima necesaria para obtener las respuestas adecuadas.

Durante esta fase el usuario se familiariza con el conjunto: se describen los datos en cuanto a estructura, tamaño y tipología y distribución de las variables. Este primer análisis es conocido como análisis descriptivo.

Tipos de datos

Este primer ejercicio de detectar tanto el número de variables de las que se dispone como su tipo es esencial. Dependiendo de los tipos de datos de los que se disponen, se podrán determinar las técnicas de análisis que mejor se ajusten a dichos datos. La clasificación de las variables según la tipología de los datos es la siguiente:

  1. Categórica:
    • Dicotómica: puede tomar únicamente dos valores, que pueden traducirse en 0 y 1. A veces aparecen denominadas como variables tipo marca. Por ejemplo: Hombre/Mujer.
    • Nominal: son variables numéricas cuyos valores representan una categoría o identifican un grupo de pertenencia. Por ejemplo: los colores.
    • Ordinal: representan también valores pertenecientes a una categoría. La diferencia con una variable nominal es que en este caso los valores pueden ordenarse en una escala. Por ejemplo: dolor leve/moderado/fuerte.
  2. Numérica:
    • Discreta: son variables numéricas que tienen un número contable de valores entre dos valores cualesquiera. Por ejemplo: número de habitantes en una ciudad.
    • Continua: variable numérica que puede tomar cualquier valor dentro de un intervalo de valores. Es muy importante conocer las unidades en las que se mide. Ejemplo: altura de una persona.

Representación gráfica

Se dice que “una imagen dice más que mil palabras”, un dicho que adquiere especial relevancia a la hora de analizar un conjunto de datos.

Algunos tipos de representaciones son las siguientes:

  • Gráfico de sectores: este gráfico circular es utilizado para representar las proporciones en las que aparece un determinado valor con respecto al total. Las variables que se representan mediante este tipo de gráficos son las categóricas.
Gráfico de sectores

Representación de los valores que toma la variable categórica con las clases: 0, 1, 2, 3, 4, 5, 6, 7

  • Histogramas: este tipo de representación da una idea de la distribución de datos que toma una variable. Por ejemplo, podemos observar si la distribución de valores de los datos se ajusta a una distribución normal teórica (como se puede observar en la imagen al pie). La utilización de histogramas es necesaria a la hora de graficar variables continuas.
Histogramas:

Columnas azules: frecuencias de lectura.
Línea verde: distribución normal teórica que mejor se ajusta a los datos.

  • Gráfico de barras: este gráfico representa las proporciones en las que aparece un determinado valor, sin estar necesariamente reflejado sobre un total. Se utiliza sobre todo para representar variables categóricas.
gráfico de barras

Representación de los valores que toma la variable categórica “Estado civil”.

  • Gráfico de línea: este tipo de gráfico representa evolución en los datos. Principalmente es útil a la hora de representar variables de tipo continuo de las que se dispone de valores a lo largo del tiempo.
gráfico de línea

Representación de la evolución temporal de una variable por año-mes.

Detección y tratamiento de valores atípicos

Los valores atípicos o anomalías son aquellos que destacan de forma clara del resto por ser valores muy poco frecuentes, como, por ejemplo, los valores que son muy altos o demasiado bajos.

Estos valores pueden ser ocasionados por errores en la entrada o recogida de los datos, o pueden proceder de lecturas reales que, en efecto, están sucediendo. Normalmente estos valores se excluyen de los análisis, ya que distorsionan los resultados.

valores atípicos

En verde el valor atípico que distorsiona el ajuste de un conjunto de datos (puntos) a un modelo lineal (línea roja).

 

Detección y tratamiento valores perdidos

También es importante detectar si existen valores perdidos. Conocer la naturaleza de las lecturas perdidas (fallo de lectura del aparato, desconexión de la red wi-fi, etc.)  puede ser de ayuda a la hora de decidir qué hacer con esta pérdida de datos.

No siempre la mejor opción es retirarlos del análisis, ya que pueden ser útiles en algunos casos a la hora de extraer información, o simplemente el hecho de retirarlos restringe demasiado el tamaño del conjunto de datos.

 

Leave a Reply

¿Quieres conocer lo último en tecnología y marketing?

¿Quieres conocer lo último en tecnología y marketing?


You have Successfully Subscribed!