CONFERENCIA II:
Cómo medir eficiencia técnica mediante métodos de aprendizaje automático basado en árboles de regresión.
Fecha y Hora:
Sala Virtual I.
Jueves 24/10 – de 9,00 hs a 10,00 hs.
Link de acceso:
Disertante
Resumen
La medición de la eficiencia técnica es un campo de estudio que ha ganado relevancia tanto en economía como en ingeniería. Tradicionalmente, técnicas no paramétricas como el Data Envelopment Analysis (DEA) y el Free Disposal Hull (FDH) han sido las más utilizadas para evaluar la eficiencia de un conjunto de unidades de decisión, conocidas como DMUs (Decision Making Units), las cuales consumen varios insumos para generar múltiples productos. Sin embargo, estas técnicas enfrentan limitaciones, como el problema del sobreajuste (overfitting), lo que puede llevar a estimaciones inexactas de las fronteras de producción.
Para superar este desafío, recientes avances en el campo del aprendizaje automático han permitido la introducción de métodos más robustos, como los Árboles de Análisis de Eficiencia (Efficiency Analysis Trees, EAT). Esta metodología, presentada por Esteve et al. (2020), se basa en los árboles de regresión, que permiten una representación más flexible y ajustada de las fronteras de producción mediante la partición iterativa de los datos. A diferencia de FDH y DEA, los árboles EAT incorporan técnicas de validación cruzada y poda para mitigar el problema del sobreajuste, proporcionando un modelo más generalizado y eficiente.
Los árboles EAT ofrecen varios beneficios clave. En primer lugar, son capaces de representar relaciones complejas entre múltiples insumos y productos mediante una estructura jerárquica que es visualmente intuitiva y fácil de interpretar. En cada nodo terminal de estos árboles, se estima un valor constante para el producto (output), lo que permite una visualización gráfica en forma de una función escalonada que delimita la frontera de producción. Además, esta metodología satisface axiomas fundamentales de la microeconomía, como la propiedad de libre disposición (free disposability), lo que garantiza que el modelo respeta las condiciones teóricas de eficiencia técnica.
Durante la charla, también se abordarán las ventajas del uso de técnicas de agregación de modelos, como los bosques aleatorios adaptados para el análisis de eficiencia (Random Forest for Efficiency Analysis Trees, RF+EAT), que proporcionan una mayor robustez a las estimaciones. Estos métodos permiten realizar una evaluación más precisa de la eficiencia fuera de muestra, así como determinar la importancia relativa de cada insumo en el proceso productivo. Este enfoque es especialmente útil cuando se trabaja con datos de alta dimensionalidad o con conjuntos de datos donde las relaciones entre las variables son complejas y no lineales.
Además, se presentarán los resultados de simulaciones que muestran cómo los árboles EAT superan a FDH en términos de sesgo y error cuadrático medio, lo que los convierte en una alternativa eficaz para la estimación de fronteras de producción. También se explicará cómo estos métodos se implementan en el paquete de software “eat” para R, que facilita la estimación de fronteras, la visualización gráfica y el cálculo de la eficiencia técnica a través de distintos modelos matemáticos. Finalmente, se mostrará un ejemplo de uso basado en datos reales educativos procedentes del informe PISA.
Esta charla proporcionará una visión general de los principios fundamentales detrás de los árboles de análisis de eficiencia, sus aplicaciones prácticas en la medición de eficiencia técnica y los beneficios de su integración con técnicas de aprendizaje automático.
CV sintético del disertante
Soy Catedrático del área de Estadística e Investigación Operativa del Departamento de Estadística, Matemáticas e Informática de la Universidad Miguel Hernández (UMH) y Director del Centro de Investigación Operativa (CIO). Mi línea de investigación principal es el desarrollo de nuevas técnicas en el ámbito del Análisis Envolvente de Datos (DEA, por sus siglas en inglés) con el fin último de hacer más eficientes y productivas a unidades tomadoras de decisiones (empresas, administraciones públicas, etc.), tanto desde un punto de vista metodológico como aplicado. En particular, mi tesis doctoral, titulada “DEA: Selección de Targets y Medidas de Productividad”, fue merecedora de una de las diez ayudas predoctorales concedidas en toda España en el año 2006 por la Fundación Banco Herrero. Esta misma línea de investigación, pero en este caso ligada a los diseños muestrales y su aplicación en el ámbito educativo, fue financiada por la Fundación Ramón Areces con una de sus ayudas a la investigación 2016. En los últimos años, he formado parte y liderado (como investigador principal) un grupo de investigadores, fundamentalmente pertenecientes a la Universidad Miguel Hernández (UMH), dedicados a la optimización y evaluación de recursos dentro del ámbito de la Estadística y la Investigación Operativa, financiados, desde el año 2005 y hasta el día de hoy, de forma consecutiva, a través de diferentes proyectos del Ministerio español que se han ido encadenando en el tiempo. Aunque dentro del DEA he ido dirigiendo mi atención a la resolución de diferentes problemas, en los últimos años he centrado mi investigación en ligar esta técnica con métodos propios del campo del Aprendizaje Automático, como árboles de regresión, Random Forest, Boosting, Support Vector Machines, etc, consiguiendo situar a nuestro grupo de investigación como uno de los grupos líderes a nivel internacional dentro de esta sublínea de investigación (aprendizaje automático y mejora de la productividad en la empresa). Adicionalmente, he contribuido a la formación de nuevos doctores, con un total de 7 tesis dirigidas (6 desde el año 2020). En concreto, el contenido de una de estas tesis, titulada “Efficiency Analysis Trees (EAT)”, constituyó el inicio en firme y con resultados manifiestos de la línea de investigación anteriormente mencionada, que relaciona el aprendizaje automático y el problema estadístico-econométrico de la estimación de fronteras de producción. He sido recientemente tanto Vocal Académico del área de Estadística de la Sociedad de Estadística e Investigación Operativa (SEIO) como coordinador de la red nacional de institutos universitarios de matemáticas (RedIUM). He participado en la organización (como comité organizador y/o científico) de varios congresos tanto nacionales como internacionales. Además, la calidad de mi labor investigadora viene avalada por la publicación de más de 100 artículos en revistas de reconocido prestigio internacional citadas en el Journal Citation Reports (JCR). Cabe destacar que más de la mitad de los trabajos anteriores se encuentran en el primer cuartil (Q1) de la categoría de materias (Subject Category) “Operations Research & Management Science”, “Computers Science” o “Mathematics, Applied”. Es también destacable el hecho de que las publicaciones anteriores se encuentran en más de una decena de revistas diferentes y en 6 categorías de materias, lo cual muestra el ámbito multidisciplinar de los resultados. Además de los trabajos mencionados anteriormente, he publicado otra treintena de artículos en revistas nacionales o internacionales (Scopus, etc), 9 capítulos de libro en editoriales internacionales (Springer en siete de los casos) y un libro completo en la editorial Springer. También he sido editor de tres libros de la editorial Springer: “Advances in Efficiency and Productivity”, “Advances in Efficiency and Productivity II” y “Data Science and Productivity Analytics”. Finalmente, me gustaría destacar que actualmente soy editor asociado de la revista JCR Omega (Q1).
