Correction of Misspellings and Typographical Errors in a Free-Text Medical English Information Storage and Retrieval System

1 October 1979

journal article
research article
Published by Georg Thieme Verlag KG in Methods of Information in Medicine

Vol. 18 (04) , 228-234
https://doi.org/10.1055/s-0038-1636470

Abstract

The errors studied are misspellings and typographical errors made by the physician house staff, surgical pathologists, and secretary/typists of a large teaching hospital. The 6,019 errors studies were encountered in the compilation of a LEXICON now containing 24,135 medical and non-medical terms (including errors) from Tissue Examination Request Forms and Surgical Pathology Reports. An automated error correction algorithm was sought to reduce the tedious task of manual encoding of errors, and eliminate the need for storing errors occupying 24.9% of the LEXICON storage space. The errors were classified into 23 types, and it was found that 84.2% of the errors were in the 11 first order categories. Existing error correction algorithms were analyzed with respect to possible application to our medical sample. Two were selected for experimentation, the Baskin-Selfridge algorithm and SOUNDEX. Results showed that Baskin-Selfridge worked quite well, but was too slow to be applied singularly. SOUNDEX was reasonable in speed, but had too many mismatches to be applied singularly in a non-interactive application. SOUNDEX was modified phonologically and with respect to code length in various ways and some experimental data showed improvements. The optimal design for the medical LEXICON sample appears to be a two-step process. The modified version of SOUNDEX will quickly select the most likely corrections for the error (experimental average is 2.38 choices/error). Then the Baskin-Selfridge will decide which, if any, is the actual correct form of the error. By only considering a very small number of choices, the time required for the Baskin-Selfridge algorithm becomes trivial. On the basis of experimental results, it is estimated that this combination will reduce manual encoding of errors by 60—70% and reduce the storage required for the LEXICON by approximately 15%. Die vorliegende Arbeit befaßt sich mit Schreibfehlern, die vom Ärztestab, den Pathologen und den Sekretärinnen und Schreibkräften eines großen Lehrkrankenhauses gemacht wurden. Die 6019 untersuchten Fehler wurden bei der Erstellung eines macliineninternen Lexikons festgestellt, das jetzt 24135 medizinische und nichtmedizinische Begriffe (einschließlich der Fehler) aus Formularen zur Anforderung von Gewebeuntersuchungen und Berichten von klinischen Pathologen enthält. Ein automatischer Fehlerkorrektur-Algorithmus soll die mühsame Aufgabe der manuellen Verschlüsselung fehlerhafter Begriffe erleichtern und ihre Speicherung im Lexikon, in dem sie bereits 24,9% cles Speicherraums besetzen, unnötig machen. Die Fehler wurden in 23 Fehlertypen gegliedert; es wurde festgestellt, daß 84,2% der Fehler in den 11 Kategorien erster Ordnung auftraten. Bestehende Fehlerkorrekturalgorithmen wurden im Hinblick auf eine mögliche Anwendung auf die eigene Stichprobe analysiert. Zwei davon wurden praktisch erprobt, der Baskin-Selfridge-Algorithmus und SOUNDEX. Die Ergebnisse zeigen, daß Baskin-Selfridge zwar gut funktionierte, aber zu langsam war, um allein angewandt zu werden. SOUNDEX war akzeptabel in bezug auf Geschwindigkeit, hatte aber zuviele falsche Zuordnungen, um einzeln nicht-interaktiv angewandt zu werden. SOUNDEX wurde phonologisch und in bezug auf die Schlüssellänge auf verschiedene Art modifiziert; einige dieser Versuchsergebnisse zeigten Verbesserungen. Das beste Verfahren für die Stichprobe aus dem medizinischen Lexikon scheint ein Zweistufenprozeß zu sein. Die modifizierte Version von SOUNDEX ermittelt rasch die wahrscheinlichsten KorrekturVorschläge für clen Fehler (im Durchschnitt ergaben sich 2,38 Möglichkeiten/Fehler). Dann entscheidet der Baskin-Selfridge-Algorithmus, welches die tatsächlich richtige Form cles fehlerhaften Begriffs ist. Wenn man nur eine sehr ldeine Anzahl von Möglichkeiten zuläßt, wird clie für den Baskin-Selfriclge-Algorithmus beanspruchte Zeit unerheblich. Auf der Grundlage cler Versuchsergebnisse wird geschätzt, claß diese Kombination das manuelle Verschlüsseln von Fehlern um 60-70% reduzieren kann und cler für clas Lexikon beanspruchte Speicherraum um etwa 15% gesenkt werden kann.

Keywords

This publication has 0 references indexed in Scilit: