Martes , septiembre 25 2018

Suscribete gratis a nuestro boletin semanal

VISIONA . DESARROLLADORES . CONECTADOS .

Suscribete nuestro boletin semanal

PATROCINADORES
.
Home / Medición y Pruebas / Diez errores importantes a considerar en el análisis de datos

Diez errores importantes a considerar en el análisis de datos

Lo que todo Científico de Datos debe saber al implementar metodologías y herramientas computacionales para el manejo de información masiva.

Artículo Contribuido / Dr. Humberto Valadez Rangel – Engineus Tech Services

Hoy en día, el análisis de datos está tomando una relevancia fundamental para muchas de las actividades modernas. Es imposible concebir el avance tecnológico sin el estudio de los datos. Aparte de ser una actividad apasionante para quien sentimos una atracción y amor por esta actividad, la estadística y el análisis de datos son ciencias sumamente dinámicas que se han fusionado con otras ciencias como la Inteligencia Artificial dando origen al Aprendizaje Máquina, por citar un primer ejemplo.

 

Las herramientas computacionales existentes enriquecen todavía más esta área porque en principio permiten realizar cálculos muy complejos con muchos datos en tiempo real (tal es el caso de análisis de datos con Big Data) o extracción de datos de manera eficiente (Minería de Datos). El manejo de datos es un tema muy delicado y difícil de manejar. Entonces se debe tener el mayor control y cuidado posible en su tratamiento.

Ahora bien, imaginemos por un momento que ya estamos con un experimento y queremos extraer información estadísticamente relevante. Tener bien claro una metodología de trabajo es fundamental. Los pasos deben ser claros y estructurados. En este artículo no abordaré dicha metodología, más bien, quisiera mencionar 10 errores importantes que a mi experiencia un analista de datos siempre debe evitar en las diferentes fases del análisis.

1. No tener cuidado en el proceso de la selección de la muestra: Este punto es fundamental y es uno de los más peligrosamente obviados. En muchos estudios estadísticos (de carácter industrial, científico, etc.) de estudiantes neófitos se ve con relativa frecuencia que cuando están realizando el experimento ignoran por completo cuál es el tamaño de muestra adecuado para su estudio. Inclusive, seleccionan el tamaño de muestra a base de cierta “intuición” o “experiencia” o acto de “confianza” sobre la naturaleza del experimento. Otras razones para “brincar” este paso es la limitante sobre el número de muestras posibles a tomar. Cabe alertar, que una mala selección de muestra puede afectar directamente en las conclusiones de un estudio en aspectos tan básicos como estimaciones puntuales paramétricas e intervalos de confianza (recuerde que la estimación estadística se divide en estimación puntual y estimación por intervalos) así como pruebas de hipótesis, por mencionar algunas.

2. Total ignorancia de cómo se distribuyen los datos dentro de la población de estudio: Cuando se inicia en el excitante mundo del análisis de datos los primeros pasos consisten en entrenarse con datos que son tomados de “ejemplos académicos”. Estos datos son “acomodados a modo” y sirven muy bien para entender y aproximarse amigablemente a las diversas técnicas estadísticas. Sin embargo, cuando uno se enfrenta a datos reales es una historia muy diferente. En el mundo real hay ruido y contaminación de información. Además, existen muchos factores asociados a cada variable de estudio que, si son ignorados, podemos solo extraer una información muy pobre sobre la población de estudio. Entender la naturaleza de nuestra población o conjunto universo es fundamental. Si los datos son variables temporales es primordial ver el espaciamiento o intervalo de tiempo en el que se va tomando la muestra. Aquí, la distribución temporal de la muestra puede ser crucial. En este aspecto la toma o selección de datos temporales puede ser periódico, no-periódico y aleatorio. Esto es básico en series de tiempo. En teoría de redes es fundamental conocer la función de distribución de la secuencia de transmisión del dato. Si la red está transmitiendo datos entre una planta y un controlador, la función de distribución de la secuencia de transmisión impacta en la estabilidad del sistema de lazo cerrado.

3. No identificar la naturaleza de las variables relevantes de estudio: Una vez obtenidos los datos, es importante entender qué datos se tienen. Entender la tipología permitirá al analista elegir la técnica adecuada. Existen tres tipos fundamentales de datos a considerar: Datos numéricos Datos categóricos Datos ordinales

4. No realizar un análisis descriptivo previo de los datos: Este error aparece al no realizar un análisis exploratorio “inicial” o no ejecutar una inspección previa de los datos. ¿En qué consiste la inspección de datos? Consiste en transmutar la tabla de datos a gráficas (Diagrama de sectores, histogramas, polígono de frecuencias, ojivas, diagrama de cajas, diagramas de dispersión matricial, tablas de contingencia etc.) y el cálculo de parámetros fácilmente reconocibles (media, media-geométrica, media-armónica, mediana, moda, desviación estándar, momentos, curtosis, etc.). En la figura 1 se da una pequeña guía para la representación de datos en diversos gráficos.

Omitir esta fase muchas veces no proporciona “claridad inicial” sobre nuestro conjunto de datos. Entonces el realizar un análisis de inspección de datos nos da pistas, marcos de referencia y puntos de partida sobre la función de distribución de la población, si la toma de las muestras fue la adecuada o qué técnica de Aprendizaje de Máquina se debe utilizar.

Diferentes tipos de instrumentos visuales para el análisis de datos.

   

5. No verificar si los datos satisfacen los supuestos de la prueba estadística: Otro error que se incurre cuando se analiza un conjunto de datos, es no verificar las condiciones o requisitos que se deben cumplir para aplicar correctamente el test. Entre los más comunes están: Tamaño de la muestra Tipo de función de distribución de la población Normalidad de los datos si es el caso Varianzas poblacionales iguales o diferentes Independencia entre grupos

6. Mala selección de la prueba de hipótesis: En este punto es común observar que una vez obtenida la muestra de la población de estudio, el analista de datos comete el error de no verificar si el test es paramétrico o no-paramétrico. Un ejemplo clásico de esta situación son el Test t de Student (prueba paramétrica) y el Test U de Man Whitney (versión no-paramétrica de la prueba t de Student). Ambas pruebas permiten comparar dos medias y el analista de datos debe perfectamente identificar cuándo debe aplicarse cada una de ellas según sea el caso.

7. Hacer una interpretación errónea del p-valor de una prueba de hipótesis: Ahora bien, primero expliquemos qué es el p-valor. El p-valor es el nivel de significancia más pequeño que conduce al rechazo de la hipótesis nula Ho. Es el riesgo real de cometer un error tipo I</>, si Ho es rechazada con base en el valor observado del estadístico de prueba.

Como podemos observar, el p-valor mide la fuerza de la evidencia contra la hipótesis nula Ho. En consecuencia tenemos:

Un p-valor pequeño indica que el valor observado del estadístico de prueba se encuentra alejado del valor hipotético del parámetro poblacional de estudio. Esto presenta fuerte evidencia de que Ho es falsa y debe ser rechazada.

Valores del p-valor grandes indican que la estadística observada de prueba no está alejada del parámetro poblacional hipotético y no apoya el rechazo de Ho.

Entonces tendremos la siguiente pregunta fundamental: ¿qué tan pequeño debe ser el p-valor antes que se decida rechazar Ho? Numerosos expertos en análisis de datos usan la siguiente escala de cálculo:

- PUBLICIDAD -

Si el p-valor es menor a 0.01 la hipótesis nula Ho se rechaza. Los resultados son altamente significativos. Si el p-valor está entre 0.01 y 0.05, la hipótesis nula Ho se rechaza. Los resultados son estadísticamente significativos. Si el p-valor está muy cercano o igual a 0.05 la prueba no es concluyente. Aquí es necesario tomar más datos y ser muy precavido en el análisis. Si el p-valor está entre 0.05 y 0.10, la hipótesis nula Ho por lo general no se rechaza. Los resultados son sólo tendientes hacia significancia estadística. Si el p-valor es mayor al valor 0.10, la hipótesis nula Ho no es rechazada. Los resultados no son estadísticamente significativos.

Para el estudiante o el analista novicio es muy común confundir el nivel de significancia Α con el p-valor . Para ello, es importante realizar las siguientes aclaraciones:

Ambos son probabilidades calculadas como áreas en las colas de la distribución muestral de la estadística de prueba. El nivel de significancia Α es establecido previamente por el analista antes de recolectar los datos. El p-valor está unido de manera directa a los datos (En consecuencia al estadístico de prueba), no es controlado por el investigador y en realidad describe qué tan probables o improbables son los resultados obtenidos a partir de la muestra, suponiendo que Ho sea verdadera. Cuanto más pequeño sea el p-valor, más improbable es que Ho sea verdadera.

Y recuerde: una vez aceptada la hipótesis nula jamás se afirma que la hipótesis nula es cierta.

8. Mal uso de la regresión lineal: La técnica de regresión lineal [2],[3] es una de las más empleadas para el análisis de datos. Sin embargo, es recomendable antes de usarla observar por medio del diagrama de dispersión la tendencia lineal de los datos. Si no se observa esta tendencia lo más recomendable es usar técnicas de regresión no-lineal [4], [5] o regresión lineal por sectores (Ver figura 2). Recuerde que el objetivo es minimizar el error de estimación de los parámetros del modelo. En consecuencia, se debe estudiar muy bien la tendencia de los datos y su grado de dispersión.

Figura 2: Análisis de Regresión por sectores (Líneas azules). La de color rojo representa la recta de regresión lineal de un solo sector. La línea verde divide los sectores.

   

9. No verificar la multicolinealidad de los datos:

Considere el modelo de regresión lineal múltiple:

Modelo de regresión lineal.

   

Usando la técnica de mínimos cuadrados es posible estimar el vector de coeficientes Β . En teoría estadística es perfectamente conocido que la ecuación matricial del vector de coeficientes de regresión estimado está dada por la ecuación matricial:

Vector de coeficientes de regresión estimado.

   

Donde:

Sea:

   

Un aspecto a mencionar es el hecho de que las variables regresoras “X” son observables y no estocásticas. Se supone que la matriz N es no singular y por consiguiente el modelo de regresión lineal múltiple es factible, obteniéndose estimadores lineales insesgados y de varianza mínima.

Ahora bien, este esquema cambia radicalmente si la matriz N está altamente condicionada o muy cercana a la singularidad, en este caso, los estimadores no son confiables debido a que exhiben una elevada correlación y una alta inestabilidad en la varianza. Si este es el caso, se dice que existe un grado de multicolinealidad. Entonces, antes de salir corriendo para obtener el modelo de regresión lineal debe verificarse que nuestros datos no presenten este fenómeno. Aquí, entra el tema de independencia lineal entre las variables explicativas. Encontrar una dependencia lineal en las columnas de la matriz N supone que alguna variable explicativa es redundante y en consecuencia esta matriz carece de inversa. Para revisar el aspecto de la multicolinealidad podemos emplear la selección de variables en regresión por la técnica de componentes principales.

10. No distinguir la función de cada especialista de acuerdo a la naturaleza del problema: Este aspecto rara vez es ignorado por un buen de analistas de datos incluso de nivel Senior. Quiero destacar que existen básicamente 6 tipos de expertos dentro del análisis de datos: Analista de negocios Matemático (Estadístico puro) Especialista en Aprendizaje de Máquinas (Machine Learning) Especialista en bases de datos Especialista en grandes volúmenes de datos (Big Data) Arquitecto de datos Cada profesional es especialista en un rubro específico y el manager debe saber distinguir las fortalezas y debilidades de cada miembro de su equipo. En mi experiencia, he observado frecuentemente que ciertas tareas son asignadas a especialistas cuyos skills-core no corresponden al perfil. Esto conlleva retrasos y frustración para el equipo. Por eso debe quedar perfectamente bien clara la estructura funcional de la sección o departamento de análisis de datos. Bibliografia: [1]Randall Schumacker and Sara Tomek. Understanding Statistics Using R. Springer. 2013 [2]Ludwig Fahrmeir, Thomas Kneib, Stefan Lang and Brian Marx. Regression. Models, Methods and Applications. Springer 2013. [3]N.H. Bingham • John M. Fry. Regression. Linear Models in Statistics. Springer.2010. [4] Christian Ritz, Jens Carl Streibig. Nonlinear Regression with R. Springer 2008. [5]Douglas M. Bates, Donald G. Watts. Nonlinear Regression Analysis and Applications. John Wiley & Sons. 1988.

Acerca del Dr. Valadez Humberto Valadez Rangel es doctorado en Control Automático por el Centro de Investigación y de Estudios Avanzados del IPN (Cinvestav Guadalajara) y la Universidad de L’Aquila (Italia). Sus áreas de especialidad son el Control Automático de Sistemas Híbridos, Sistemas Embebidos y el Análisis de Datos. Actualmente es cofundador de la compañía de desarrollo tecnológico Engineus Tech Services, donde es encargado del área de Investigación y Desarrollo.

- PUBLICIDAD -

Revisa también ...

Fundamentos básicos de la Visión Artificial

Los sistemas de visión artificial comienzan a inundar diferentes soluciones comerciales en diversos sectores industriales. …

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *