Simulation performance checklist generation using the Delphi technique

Abstract
Purpose: Performance assessment using high fidelity simulation is problematic, due to the difficulty in developing valid and reliable evaluation tools. The Delphi technique is a consensus based content generation method used for multiple purposes such as policy development, best-evidence practice guidelines and competency assessments. The purpose of this study was to develop checklists using a modified Delphi technique to evaluate the performance of practicing anesthesiologists managing two simulated scenarios. Methods: The templates for two simulation scenarios were emailed to five anesthesiologists who were asked to generate performance items. Data were collated anonymously and returned. Ana priori decision was made to delete items endorsed by ≤ 20% of participants. This process of collection, collation and re-evaluation was repeated until consensus was reached. Four independent raters used the checklist to assess three subjects managing the two simulation scenarios. Inter-rater reliability was assessed using average measures intraclass correlation (ICC) and repeated measures analysis of variance (ANOVA) was used to assess differences in difficulty between scenarios. Results: The final checklists included 131 items for scenario 1 and 126 items for scenario 2. The mean inter-rater reliability was 0.921 for scenario 1 and 0.903 for scenario 2. Repeated measures ANOVA revealed no statistically significant difference in difficulty between scenarios. Discussion: The Delphi technique can be very useful to generate consensus based evaluation tools with high content and face validity compared to subjective evaluative tools. Since there was no difference in scenario difficulty, these scenarios can be used to determine the effect of educational interventions on performance. Objectif: L’évaluation de la performance est problématique lorsqu’on a recours à une simulation de haute fidélité, ceci en raison de difficultés rencontrées lors du développement d’outils d’évaluation valables et fiables. La méthode Delphi est une méthode de génération de contenu qui se base sur un consensus ; elle est utilisée dans divers contextes tels que le développement de directives, des guides de pratique basés sur les meilleures données probantes, et l’évaluation des compétences. L’objectif de cette étude était de développer des listes de vérification en utilisant une méthode Delphi modifiée et ce, afin d’évaluer la performance des anesthésiologistes actifs gérant deux scénarios simulés. Méthode: Les modèles pour deux scénarios de simulation ont été envoyés par courriel à cinq anesthésiologistes, auxquels on a demandé de générer des rubriques de performance. Les données ont été rassemblées de façon anonyme et renvoyées. Une décision a priori a été prise d’effacer les rubriques approuvées par ≤ 20 % des participants. Ce processus de récolte, de comparaison et de réévaluation a été répété jusqu’à ce que l’on atteigne un consensus. Quatre évaluateurs indépendants ont utilisé la liste de contrôle pour évaluer trois sujets prenant en charge les deux scénarios de simulation. La crédibilité inter-évaluateurs a été évaluée à l’aide de mesures de corrélation intraclasse (ICC) moyennes et des mesures répétées de l’analyse de variance (ANOVA) ont été utilisées afin d’évaluer les différences de difficulté entre les scénarios. Résultats: Les listes de contrôle finales comprenaient 131 rubriques pour le scénario no. 1 et 126 rubriques pour le scénario no. 2. La crédibilité inter-évaluateurs moyenne était de 0,921 pour le scénario no. 1 et de 0,903 pour le scénario no. 2. Les mesures répétées ANOVA n’ont pas révélé de différence statistiquement significative de la difficulté entre les scénarios. Discussion: La méthode Delphi peut être très utile pour générer des outils d’évaluation basés sur un consensus avec un contenu élevé et une validité apparente par rapport à des outils d’évaluation subjectifs. Etant donné qu’il n’y a pas eu de différence de difficulté entre les scénarios, ces derniers peuvent être utilisés pour déterminer l’effet d’interventions éducationnelles sur la performance.