Este informe proporciona las propiedades psicométricas y el informe de validación de Leader Diagnostic de Franklin Covey. El diagnóstico evalúa un conjunto completo de habilidades asociadas al liderazgo. Cada habilidad se evalúa con objetos que capturan las conductas observables. En el momento de publicar este informe (octubre de 2023), el diagnóstico se utilizaba como una evaluación de 360 grados antes y después de participar en los cursos de FranklinCovey. Se está desarrollando una versión con una valoración de 180.
Descargue el informe técnico de diagnóstico completo de Leader (360)
Hay un proceso de validación de las evaluaciones, a veces llamado psicometría.
El proceso de validación se puede estandarizar según el sector. Sin embargo, a menudo es más exacto decir que hay varios criterios de validación, algunos son más importantes que otros, pero por lo general cuantos más criterios de validación cumpla una evaluación, mejor.
Muchas organizaciones que venden evaluaciones realizan algún tipo de validación. Las organizaciones que se centran principalmente en las evaluaciones pueden validar todas las evaluaciones que publiquen. Otras organizaciones que tienen las evaluaciones como un segmento de su negocio, como KornFerry y Gallup, también publican extensos informes técnicos y de validación para sus evaluaciones más populares, y los actualizan periódicamente con nuevos datos o para documentar los cambios en la evaluación.
Es comprensible que muchos de nuestros clientes hayan pedido ver qué trabajos de validación hemos realizado en nuestras evaluaciones de FranklinCovey.
Este es un informe de unas 15 páginas en el que nos centramos en 2 áreas de la psicometría:
- La fiabilidad del diagnóstico; por ejemplo, qué tan similar puntúa la gente cuando se hace la evaluación una semana después.
- La validez del diagnóstico, por ejemplo, qué tan bien predicen las puntuaciones el compromiso y la satisfacción laboral. Esta suele ser la parte más impactante del proceso de validación. Una evaluación puede ser fiable, pero si no predice mucho, no vale mucho. Un cuestionario de Buzzfeed que le diga qué personaje de Disney es podría, en teoría, cumplir con otros criterios, pero probablemente nunca sea bueno para predecir otra cosa que no sean las preferencias por los personajes de Disney.
En total, analizamos unas 20 000 respuestas de la versión del Diagnóstico para el año fiscal 23, y luego hicimos que más de mil líderes se calificaran a sí mismos y más de 500 subordinados directos calificaran a sus líderes en la versión del Diagnóstico para el año fiscal 24.
El diagnóstico cumple con los estándares generalmente aceptados en cuanto a varios criterios de validación (normalmente respuestas distribuidas, múltiples formas de fiabilidad y múltiples formas de validez) y, en algunos casos, funciona muy bien según estos criterios.
La conclusión principal es que la relación entre calificar a su líder más alto en el diagnóstico y una serie de excelentes resultados, como el compromiso, la satisfacción laboral y la intención de permanecer en su organización, es muy sólida. Relaciones que compiten con algunas de las principales evaluaciones académicas de liderazgo.
Sí. El informe incluye los siguientes criterios de validación:
- Coherencia interna
- Fiabilidad entre evaluadores
- Entre diferentes tipos de evaluadores (por ejemplo, autoevaluadores, gerentes y subordinados directos)
- Dentro de los tipos de evaluadores (por ejemplo, ¿los subordinados directos que valoran al mismo gerente en 360 grados muestran alguna coherencia entre sí en términos de cómo valoran a ese gerente)
- Fiabilidad de prueba-repetición
- Estructura factorial (es decir, el diagnóstico es una medida multidimensional)
- Validez convergente (es decir, ¿el diagnóstico se refiere a otras medidas de liderazgo validadas)
- Basado en datos de autoevaluación
- Y según los datos de los subordinados directos
- Criterio o validez simultánea (es decir, ¿el diagnóstico se refiere a los resultados que pretendemos predecir, como el compromiso, la satisfacción laboral y la percepción de la eficacia de los directivos)
- Diferencias en las puntuaciones del diagnóstico según la demografía de los encuestados (etc., la edad, la identidad de género) y las variables del equipo y la organización (por ejemplo, el tamaño de la organización, la situación del trabajo remoto)
La versión del diagnóstico para el año fiscal 24 es más corta y hemos actualizado las preguntas que no tenían respuestas distribuidas normalmente o que tenían una correlación demasiado alta con otras preguntas (lo que sugiere que son redundantes). Estas mejoras graduales se traducen en un diagnóstico más fiable y válido.
Hay básicamente dos tipos de pruebas en las que nos basamos para determinar las nuevas preguntas.
Empezamos con muchas preguntas posibles que podrían usarse como sustituciones o adiciones. Luego hacemos muchas pequeñas pruebas con los encuestados para encontrar las preguntas que son mejores según algunos criterios. Lo que buscamos son preguntas que tengan un buen rango de respuestas, preferiblemente una distribución normal de las puntuaciones. Y estamos buscando preguntas que tengan una fuerte correlación con los conceptos con los que queremos que las preguntas estén correlacionadas, por ejemplo, con otras medidas de la eficacia de los líderes. Este proceso nos llevó casi hasta nuestra última serie de preguntas.
El segundo paso del proceso es aún más complicado. Y ese es el esfuerzo de validación que se detalla en el informe técnico.
Con la versión del diagnóstico para el año fiscal 24, cambiamos las etiquetas de nuestra escala de respuesta de experiencia (1 novato, 4 expertos, 7 expertos) a frecuencia (1 nunca, 7 siempre). Tenga en cuenta que la escala sigue siendo una escala de 1 a 7 puntos.
Hay varios motivos para este cambio:
- Una escala de frecuencia está más en línea con lo que es estándar y esperado en las evaluaciones destinadas a medir las conductas y los cambios de comportamiento.
- Varios encuestados y clientes han comentado que la escala de experiencia es difícil de comprender y definir (incluso con las definiciones de novato, competente y experto que ofrecemos). Una escala de frecuencia se interpretará de forma más coherente en todos los evaluadores. Y los encuestados y los clientes lo entenderán más fácilmente.
- Hemos realizado algunas pruebas y experimentos en los que variamos las etiquetas de escala de respuesta que ven los encuestados (experiencia frente a frecuencia) y hemos descubierto que las etiquetas de escala afectan a la selección de los datos que faltan y a la selección de «No se puede evaluar». En concreto, es mucho más probable que los evaluadores se salten una valoración o seleccionen «No se puede evaluar» cuando valoran en la escala de experiencia que en la escala de frecuencia. Por lo tanto, esperamos que la nueva escala de frecuencias dé lugar a datos más completos de los evaluadores de 360 grados.
Hay pasos adicionales para validar un 360. Dos de ellas se centran en la coherencia y la fiabilidad en todos los tipos de evaluadores. Básicamente, se trata de una medida de si las autovaloraciones coinciden con las de los directivos y las de los compañeros, etc. Los Workplace 360 no muestran mucha superposición entre los tipos de evaluadores. Pero sí encontramos una superposición entre los tipos de evaluadores que está en línea con lo que se espera en la industria. La mejor manera de interpretar esta conclusión es que nuestro 360 ofrece muchas oportunidades para que los alumnos vean cómo otros evaluadores los valoran de manera diferente.
Otro paso para validar una evaluación de 360 grados es examinar la coherencia y la fiabilidad de un tipo de evaluador (por ejemplo, ¿los subordinados directos califican al mismo gerente de forma suficientemente coherente en sus valoraciones?). Examinamos los datos actuales del FC 360 de los evaluadores subordinados directos y de los gerentes. Aquí encontramos esa coherencia entre los tipos de valoración, que son similares a algunas de las evaluaciones de liderazgo más populares.
Los detalles de ambas formas de fiabilidad están en el informe técnico, en la sección Fiabilidad entre evaluadores.
Si bien el informe técnico se centra en el diagnóstico de líderes, algunos de los criterios de fiabilidad y validez son pertinentes para la versión de colaborador individual. En particular, las métricas internas de coherencia y prueba-repetición de las categorías Eficacia individual y Cultura ganadora (que aparecen en las tablas 2 y 4 del informe técnico) sugieren que estas secciones, que son las que componen la versión IC, son fiables. Además, estas dos categorías mostraron relaciones estadísticamente significativas con todas las variables convergentes y de criterio detalladas en este informe. Aunque esas estadísticas no están en el informe técnico, están disponibles bajo petición.
Nuestras pruebas de validación solo se realizaron en EE. UU. y en inglés. Casi siempre ocurre que la validación comienza en un país e idioma y, luego, si se requiere la validación transcultural, se realiza más adelante mediante estudios adicionales.
También observamos que hay una distinción importante entre si una evaluación es válida en todas las culturas y si simplemente hay diferencias entre culturas. Por ejemplo, encontramos algunas diferencias demográficas en nuestros datos de EE. UU., algunas se basan en la raza o el origen étnico, otras en la situación del trabajo remoto. Así que estas son diferencias entre los grupos. Pero independientemente del grupo, las puntuaciones diagnósticas siguen pronosticando resultados como el compromiso y la satisfacción laboral. Eso es lo que habla de la validez de la evaluación.
Dicho esto, si vamos a hacer un estudio transcultural del diagnóstico, llegaría en el futuro y podría añadirse a una versión revisada del informe técnico.
Nuestro trabajo de validación lo dirigió Alex O'Connor, del equipo de producto. Es doctor en psicología de la investigación, se formó en psicometría y anteriormente publicó evaluaciones validadas en revistas académicas.
Nuestro trabajo de validación contó con el apoyo de un experto externo, el Dr. Joshua Eng. Es profesor de la Escuela de Medicina de la Universidad de Indiana. Es responsable de validar las evaluaciones que miden los resultados de aprendizaje y bienestar de los residentes de cirugía de todo el país y tiene décadas de experiencia como psicométrico.
Comentarios
0 comentarios
El artículo está cerrado para comentarios.