logo

Select Sidearea

Populate the sidearea with useful widgets. It’s simple to add images, categories, latest post, social media icon links, tag clouds, and more.
hello@youremail.com
+1234567890
 

Absentismo

Antecedentes:

Según la Organización Internacional del Trabajo, el absentismo laboral se define como “la no asistencia al trabajo por parte de un empleado que se pensaba iba a asistir”.  

La ausencia o abandono del puesto de trabajo se podría considerar una falta de cumplimiento de las condiciones del contrato de trabajo

Problema de negocio:

Nuestro cliente es una gran empresa, líder en el sector servicios. Con una plantilla de más de 17.000 personas y operaciones en todo el territorio nacional, la gestión de la plantilla es un reto importante en su día a día.

La compleja normativa laboral tampoco ayuda a abordar un problema que consideran creciente.  Con el objetivo de cumplir estrictamente con la calidad en la prestación de los servicios contratados, su departamento de RRHH se afana en apoyar al máximo a los responsables operativos.

Análisis preliminares

Cada proyecto de análisis de datos debe empezar con un completo y profundo análisis de las bases de datos objeto de estudio. El dataset que vamos a emplear está lógicamente truncado, siendo no obstante lo más fiel posible al original, y sin datos personales.

 

Nuestro primer trabajo fue revisar las informaciones que nos pasaron de la empresa en búsqueda de errores involuntarios, falta de datos en algunos campos y otras anomalías que podrían afectar al objetivo:  determinar, en base a un cierto número de atributos relevantes, que trabajadores tenían más probabilidad de abandonar su puesto de trabajo.

 

Para nuestro primer análisis utilizamos el método de escrutinio DSS, en el que detectamos los valores que necesitaban ser tratados.  Después de algunos otros métodos de exploración y tratamiento de datos que realizamos en Python -dado el volumen de los datos- eliminamos los valores incorrectos, nulos o cualquier ruído en la base de datos.

Un análisis más en profundidad de cada atributo nos permitió encontrar algún patrón llamativo:

Los más jóvenes (entre 21-24 años) casi duplicaban la cifra de absentismo del resto de trabajadores, pero sin embargo, la tendencia se deba la vuelta a partir de los 30 años.

Los hombres eran más absentistas que las mujeres, aunque éstas eran claramente mayoría en la plantilla (74%)

Los solteros duplicaban al resto de estados civiles.

Y los que hacían horas extras (y curiosamente tenían un sobresueldo por ello) triplicaba en absentismo a los que no las hacían

Y también los que vivían lejos tenían más probabilidades de ausentarse con más frecuencia del trabajo.

La matriz de correlaciones entre características que obtuvimos fue:

que muestra la correlación positiva del absentismo entre la distancia al trabajo, el número de empresas anteriores en las que trabajó y la formación en el último año, y la correlación negativa con la valoración que los empleados tienen de la empresa.

Como conclusiones, podemos obtener:

 

El perfil más probable del absentista es hombre, de entre 20 a 25 años, soltero, que vive lejos del trabajo, con una carta de horas extras y que ha trabajado en otras empresas con anterioridad.  Se detectaron un total de 96 empleados con estas características, sobre los que diseñaron una serie de acciones de concienciación, ayuda y supervisión para tratar de reducir el riesgo inherente.

Señalamos también otro grupo de 131 empleados con un riesgo alto de absentismo por otros motivos más particulares. También ellos entraron en el programa anterior.

Machine Learning

Los algoritmos de machine learning típicamente trabajan con variables numéricas como predictoras, por lo que fue necesario un trabajo de Label Encoding para transformarlas.

Dividimos también los datos para entrenar y testar el modelo (75-25) y corrimos diferentes algoritmos para averiguar cuales eran los más precisos.

 

Algorithm ROC AUC Mean ROC AUC STD Accuracy Mean Accuracy STD
Logistic Regression 95.15 2.69 89.38 1.88
Random Forest 93.11 4.09 94.74 3.03
SVM 90.04 4.55 87.75 3.28
Gaussian NB 88.88 3.45 30.67 4.10
Decision Tree Classifier 83.55 4.64 89.65 2.74
KNN 73.16 7.27 86.12 3.54

El modelo de regresión logística y el de Random Forest parecían los mas adecuados, por lo que tratamos de mejorar su rendimiento, con el siguiente resultado:

En este caso, nos predice correctamente 337 empleados (284+53) y solo 24 empleados los ha considerado no absentistas  cuando en realidad lo son (94,5% de fiabilidad)

Este modelo predice correctamente 352 empleados (303+49) y solo 5 empleados los ha considerado no absentistas  cuando en realidad lo son (98,7% de fiabilidad)

Este modelo por tanto es bastante sólido y fue recomendado al cliente.

Conclusiones

Todos los empleados han sido categorizados en tres tipos de perfiles en función del riesgo de absentismo:  bajo, medio y alto.  Se ha implantado un plan estratégico para los empleados con riesgo alto, y en los próximos meses se ampliara a los otros dos segmentos.  Para los primeros, se incorporaron reuniones individuales con el departamento de RRHH y con sus mandos intermedios, para discutir sobre ambiente de trabajo, trabajo en equipo y el impacto del absentismo en el grupo, y ofrecer flexibilidad en los horarios.

En los cuatro primeros meses de implantación de esta herramienta, el absentismo se redujo en un 15%, bajando los costes de sustitución y Seguridad Social en un 8%.

El Departamento de RRHH tiene en cuenta el perfil de los posibles absentistas de cara a las nuevas contrataciones, y factores que antes no se tenían en cuenta, como la distancia del empleado al trabajo, son tenidas en cuenta para la contratación.

El algoritmo se sigue entrenando con datos nuevos todos los meses y manteniendo su efectividad. Hemos creado un cuadro de mando especifico que ayuda a los gestores a prever, evaluar, decidir y analizar la evolución de los KPI’s necesarios, y tenemos reuniones trimestrales de seguimiento con la empresa para ayudarles y apoyarles en las necesidades que van surgiendo.