Evaluación de desempeño en PIS: Diseño de rúbricas y fiabilidad interevaluador
DOI:
https://doi.org/10.64747/xeasmv38Palabras clave:
rúbricas analíticas, fiabilidad interevaluador, AC1 de Gwet, ICC, teoría de la generalizabilidadResumen
El manuscrito tiene como objetivo, evaluar la fiabilidad interevaluador de una rúbrica analítica para Proyectos Integradores de Saberes (PIS) en 3.º de BGU y describir decisiones de diseño para su uso formativo y sumativo. Se utilizó un estudio observacional en planteles fiscales urbanos de Guayaquil (−2.170997°, −79.922359°). Se calificaron 400 productos (informes, presentaciones y prototipos) con 4–6 jueces por producto, a partir de una rúbrica de seis criterios y cuatro niveles. Se realizó un piloto (n≈40) para ajustar descriptores y estimar varianzas. El protocolo incluyó entrenamiento y calibración con banco anclado. Los análisis contemplaron AC1 de Gwet por criterio (IC95%), ICC(2,k) para el puntaje total (0–100), modelos mixtos para comparaciones entre tipos de producto y, en una submuestra (n≈120), estudios de generalizabilidad (coeficiente G y phi), además de análisis de sensibilidad (ponderaciones, exclusión por adjudicación y recalibración). Los AC1 oscilaron entre 0,72 y 0,84, con valores más altos en criterios técnicos (Evidencias/datos; Rigor) y menores en dimensiones interpretativas (Colaboración; Impacto ético y factibilidad). El ICC(2,k) global fue 0,88 (k medio≈4,8; ICC(2,1)=0,69); la curva rendimiento‑k mostró rendimientos decrecientes a partir de k=5, con “punto dulce” en k=4–5. La submuestra p×i×r arrojó G=0,86 y phi=0,82; la mayor proporción de error se atribuyó a interacciones producto×juez. Prototipos obtuvieron medias menores que informes y presentaciones, especialmente en Comunicación e Impacto. Los análisis de sensibilidad confirmaron estabilidad de métricas y reducción de varianza “juez” tras recalibración. Al final se pudo concluir que la rúbrica PIS‑BGU presenta fiabilidad buena‑excelente para el puntaje total y moderada‑alta por criterio, adecuada para decisiones sumativas y retroalimentación formativa. Se recomiendan: k=4–5 jueces, adjudicación protocolizada para discrepancias >1 nivel y fortalecimiento de la calibración en criterios interpretativos. Futuros trabajos incorporarán modelos con severidad de jueces y validación externa en contextos rurales y otras áreas STEAM
Referencias
Brennan, R. L. (2001). Generalizability theory. Springer. https://doi.org/10.1007/978-1-4757-3456-0
Cicchetti, D. V., & Feinstein, A. R. (1990). High agreement but low kappa: II. Resolving the paradoxes. Journal of Clinical Epidemiology, 43(6), 551–558. https://doi.org/10.1016/0895-4356(90)90159-M
De la Cruz Cruz, M. R., Lara Jerez, B. O., Almeida, M. E., & Mafla Álvarez, A. M. (2025). Evaluación formativa con rúbricas analíticas en resolución de problemas. Horizonte Científico International Journal, 3(2), 1–18. https://doi.org/10.64747/a93zv304
Duarte Ortiz, J. del C., Gordillo Ronquillo, A. M., Orellana Romero, B. P., & Vera Letechi, J. E. (2025). Tecnología, modelos pedagógicos y desempeño académico: análisis en instituciones educativas de Loja y Guayaquil. Horizonte Científico International Journal, 3(2), 1–14. https://doi.org/10.64747/aj9hhg57
Feinstein, A. R., & Cicchetti, D. V. (1990). High agreement but low kappa: I. The problems of two paradoxes. Journal of Clinical Epidemiology, 43(6), 543–549. https://doi.org/10.1016/0895-4356(90)90158-L
Hallgren, K. A. (2012). Computing inter-rater reliability for observational data: An overview and tutorial. Tutorials in Quantitative Methods for Psychology, 8(1), 23–34. https://doi.org/10.20982/tqmp.08.1.p023
Konstantinidis, M., Potamias, G., Karampelas, P., & Fotiadis, D. I. (2022). An empirical comparative assessment of inter-rater agreement measures. Symmetry, 14(2), 262. https://doi.org/10.3390/sym14020262
Koo, T. K., & Li, M. Y. (2016). A guideline of selecting and reporting intraclass correlation coefficients for reliability research. Journal of Chiropractic Medicine, 15(2), 155–163. https://doi.org/10.1016/j.jcm.2016.02.012
McGraw, K. O., & Wong, S. P. (1996). Forming inferences about some intraclass correlation coefficients. Psychological Methods, 1(1), 30–46. https://doi.org/10.1037/1082-989X.1.1.30
Montero Anzuat, C. A., Montezuma Monar, R. B., Valdiviezo Puchaicela, F. E., & Yar Pilamunga, G. J. (2025). Resolución de problemas contextualizado mediante modelación matemática: efectos en el pensamiento crítico y la transferencia cognitiva. Horizonte Científico Educativo International Journal, 1(2), 1–12. https://doi.org/10.64747/dj2m7h71
Ohyama, T. (2021). Statistical inference of Gwet’s AC1 coefficient for multiple raters and binary outcomes. Communications in Statistics—Theory and Methods, 50(14), 3564–3572. https://doi.org/10.1080/03610926.2019.1708397
Rodríguez Ruiz, M. F., & Posligua Garcia, D. M. (2025). Evaluación formativa con rúbricas digitales en Ciencias Naturales: impacto en aprendizaje por indagación en 7.º–10.º EGB. Horizonte Científico Educativo International Journal, 1(2), 1–15. https://doi.org/10.64747/emgnq411
Shrout, P. E., & Fleiss, J. L. (1979). Intraclass correlations: Uses in assessing rater reliability. Psychological Bulletin, 86(2), 420–428. https://doi.org/10.1037/0033-2909.86.2.420
Tan, K. S., Yeh, Y.-C., Adusumilli, P. S., & Travis, W. D. (2024). Quantifying interrater agreement and reliability between thoracic pathologists: Paradoxical behavior of Cohen’s kappa in the presence of a high prevalence of the histopathologic feature in lung cancer. JTO Clinical and Research Reports, 5, 100618. https://doi.org/10.1016/j.jtocrr.2024.100618
Tong, F., Tang, S., Irby, B. J., Lara-Alecio, R., & Guerrero, C. (2020). The determination of appropriate coefficient indices for inter-rater reliability: Using classroom observation instruments as fidelity measures in large-scale randomized research. International Journal of Educational Research, 99, 101514. https://doi.org/10.1016/j.ijer.2019.101514
Vach, W., & Gerke, O. (2023). Gwet’s AC1 is not a substitute for Cohen’s kappa—A comparison of basic properties. MethodsX, 10, 102212. https://doi.org/10.1016/j.mex.2023.102212
Webb, N. M. (2014). Generalizability theory: Overview. In Wiley StatsRef: Statistics Reference Online. Wiley. https://doi.org/10.1002/9781118445112.stat06729
Xu, M., Li, Z., Mou, K., & Shuaib, K. M. (2023). Homogeneity test of the first-order agreement coefficient in a stratified design. Entropy, 25(3), 536. https://doi.org/10.3390/e25030536
