The Influence of Outliers on Discrimination of Chronic Obturative Lung Disease

Abstract
The paper discusses the influence of outliers on the results of linear and canonical discrimination used to assist medical diagnosis in chronic obturative lung disease. The outliers have been detected by χ2-plots based on unweighted sample means and covariances or their weighted analogues with Huber or Hampel weights. With Hampel weights outliers have been found different from those with both remaining methods. After trimming the 10 percent of the most distant individuals, the discrimination was done for the training sample collected earlier (N′ = 305) and for the test sample (N″ = 53) with the functions obtained from the training sample. The discrimination was performed for subsets of the most discriminative variables. When the sample size was sufficiently large (training sample), the goodness of reclassification was similar for classical functions and functions calculated after trimming. For small samples they differ. For classification of the test data the results obtained after trimming (especially with Hampel weights) are much better. The method may be recommended to be used in the computerized respiratory diseases consulting unit. Der Beitrag diskutiert den Einfluß von Ausreißern auf die Resultate der linearen und kanonischen Diskriminanzanalyse, wie sie üblicherweise zur medizinischen Diagnoseunterstützung bei chronisch-obstruktiven Lungenkrankheiten angewandt werden. Die Ausreißer wurden mit Hilfe von χ2-Diagrammen gefunden, die auf den ungewichteten Mittelwerten und Kovarianzen oder ihren Analoga mit Huber- bzw. Hampel-Gewichtsfaktoren basierten. Mit Hampel-Gewichtsfaktoren wurden andere Ausreißer entdeckt als mit den beiden anderen Methoden. Nach der Eliminierung von zehn Prozent der am extremsten liegenden Individuen wurde die Diskriminanzanalyse für die alte, früher gesammelte Trainings-Stichprobe (N′ = 305) und für die neue Teststichprobe (N″ = 53) mit den Funktionen, die aus der „alten” Stichprobe gewonnen worden waren, durchgeführt. Die Diskriminanzanalyse wurde für weitere Gruppen der Variablen mit der größten Unterscheidungskraft durchgeführt. Bei großen Stichproben (den „alten” Daten) haben wir mit oder ohne Eliminierung ähnliche Resultate bekommen; bei kleinen Stichproben sind sie unterschiedlich. Für die Teststichprobe waren die Resultate der Klassifikation, insbesondere bei Verwendung von Hampel-Gewichtsfaktoren, viel besser. Die Methode wird für Computersysteme zur Beratung bei Krankheiten der Atemwege empfohlen.

This publication has 4 references indexed in Scilit: