Berliner und Münchener Tierärztliche Wochenschrift 118
© Schlütersche Verlagsgesellschaft mbH & Co. KG. 2005
Publiziert: 08/2005
Zusammenfassung
Die Evaluierung neuer diagnostischer Tests ( Tests) erfolgt unter anderem durch den Vergleich mit einem perfekten Referenztest (Goldstandard). Dieser Ansatz erlaubt die direkte unverzerrte Schätzung der Test-Sensitivität und -Spezifität. Unter Praxisbedingungen werden neue Testverfahren aber oft gegen einen imperfekten Referenztest evaluiert, da die Anwendung eines Goldstandards zu kostspielig oder aufwendig ist. Dadurch kommt es zu Verzerrungen (Bias) bei der Ermittlung (Schätzung) dieser Testcharakteristika. Um dieses Problem zu umgehen, kann man so genannte "latent class" und Bayes'schen Modelle einsetzen, welche es ermöglichen, auch ohne Goldstandard, aber mit zwei oder mehr imperfekten Testverfahren, Schätzer für die Sensitivität und Spezifität beider Tests zu erhalten. Diesen Methoden liegen aber - wie auch beim Ansatz mit einem Gold-standard - Annahmen zugrunde, deren Verletzung zu fehlerhaften Ergebnissen führt. Mit der Auswertung eines Felddatensatzes zu einem Anaplasma marginale-Ausbruch bei Rindern in der Schweiz mit Daten zu vier diagnostischen Verfahren (direkter Erregernachweis, Serologie, PCR und Hämatokritbestimmung) wird versucht, dem Leser die Problematik der Testevaluierung in Abwesenheit eines Gold-standards anhand eines praktischen Beispieles vor Augen zu führen. Wir konnten in diesem relativ kleinen Felddatensatz (275 Einzeltiere) keine großen Unterschiede in den Schätzern für Sensitivität und Spezifität der jeweiligen Testverfahren zwischen den einzelnen Methoden entdecken. Einflüsse der jeweiligen Methoden auf einzelne Schätzwerte konnten aufgezeigt werden. Alle benutzten Tests wiesen eine teils unerwartet hohe und somit nicht zu vernachlässigende Korrelation insbesondere der Test-Sensitivitäten auf, ein Indiz, dass konditionale Abhängigkeit von Testergebnissen auch dort vorkommen kann, wo sie uns biologisch nicht plausibel erscheint.Summary
The evaluation of newly developed diagnostic tests (tests) commonly involves the comparison of the test outcomes (pos./neg.) of a sample of animals to those of a reference test (gold standard) in order to derive sensitivity and specificity estimates. Often, however, new tests have to be evaluated against an imperfect reference test since a true gold standard test is either too expensive or too costly to apply. This results in bias in the test characteristic estimates. To solve this problem, latent class and Bayesian models can be used to estimate sensitivity and specificity when evaluating a diagnostic test in the absence of a gold standard. They require at least two imperfect reference tests applied to all individuals in the study. In our approach we used a two-test two-population scenario. Both the gold standard and these modelling approaches rely on various assumptions. When violated, biased results will be obtained. The analysis of field data from an Anaplasma marginale outbreak in cattle in Switzerland with four diagnostic procedures (detection of the agent, serology, PCR and hematocrit measurements) was used as a practical example to demonstrate and critically discuss the approaches taken. In this relatively small data set (n = 275) the estimates for the test characteristics obtained by the different methods were quite similar. Overall, the bias in the point estimates depended mainly on the chosen estimation approach. All tests showed a non-negligible correlation mainly in the test sensitivities. This emphasizes the importance of taking into account test dependence even if it seems not biologically plausible at first thought.