Оценка чувствительности и специфичности.

Допустим, что разработан новый метод диагностики болезни Х. Для измерения его чувствительности и специфичности отобрали группу из 156 человек, состоящую из 59 заведомо больных болезнью Х. и 97 заведомо здоровых лиц

Наличие/отсутствие этой болезни у обследуемых, устанавливалось с помощью комплекса достоверных клинических и лабораторных методов, принятых за «золотой стандарт» Первоначальная оценка здоровья испытуемых и результаты применения нового метода отражены табл. 5.1 и рис. 5.2, и 5.3.

Таблица 5.1 имеет форму так называемой таблицы «два на два», которая широко используется в эпидемиологии для представления и последующей статистической обработки результатов наблюдательных и экспериментальных аналитических исследований.

Табл. 5.1. Пример таблицы «два на два». Результаты обследования 156 лиц новым методом и комплексом достоверных методов, принятых за «золотой стандарт».

 

Рис. 5.2 Первоначальные результаты обследования комплексом
достоверных тестов, принятых за «золотой стандарт»

 

.

Рис. 5.3 Результаты обследования новым методом

Как следует из данных табл. 5.1 и рис. 5.1. и 5.2, среди 59 заведомо больных новый тест выявил 50 лиц больных болезнью Х. Доля выявленных больных (50) от общего числа больных (59) – составит величину чувствительности метода.

Чувствительность нового метода = .

Среди 97 заведомо здоровых лиц новый тест ошибочно выявил 6 больных болезнью Х, у 91 человека состояние здоровья (отсутствие данной болезни) было оценено правильно. Следовательно, специфичность нового метода =

При обсуждении чувствительности и специфичности теста неизбежно возникает вопрос о том, а какой должна быть их величина. Естественно, что идеальный метод должен обладать 100%-й чувствительностью и специфичностью. К сожалению, таким тестом располагают редко, особенно при диагностике неинфекционных болезней. В связи с этим абсолютно точная постановка диагноза многих неинфекционных болезней требует применения дорогостоящей техники и инвазивных методов.

Как показывает опыт, попытки повысить чувствительность теста, сопровождаются увеличением числа ложноположительных результатов, то есть снижением специфичности. И наоборот, повышение специфичности часто приводит к росту ложноотрицательных результатов, то есть снижению чувствительности.

Например, применяя строгие критерии диагностики стенокардии, врач получит мало ошибочных диагнозов, но велика вероятность ложноотрицательных результатов у больных в начальной стадии болезни и у больных легкой и атипичной стенокардией. Если применить менее строгие критерии, к числу больных стенокардией могут быть ошибочно отнесены больные другими заболеваниями сердца.

Высокочувствительные тесты оценки состояния здоровья целесообразно использовать, например, для выявления больных высококонтагиозными инфекциями. При этом исходят из того, что если не будет выявлено максимум источников инфекции, болезнь может быстро распространиться.

Высокочувствительные тесты необходимы и в интересах больного, особенно, когда есть риск пропустить опасные, но излечимые болезни, например, некоторые виды злокачественных опухолей, туберкулез. Тесты с высокой чувствительностью рекомендуются в случаях, когда необходимо провести дифференциальную диагностику между двумя похожими болезнями. Отрицательный ответ позволяет сделать вывод, что наличие данной болезни маловероятно. В то же время значительное число ложноположительных результатов может существенно исказить оценку риска заболеть в различных группах населения, что в свою очередь повлияет на качество выводов о факторах риска.

Методы, обладающие высокой специфичностью, используются как в клинических, так и эпидемиологических исследованиях. Возможность почти безошибочной постановки диагноза, позволяет больному избежать рискованных процедур, операций, курсов химиотерапии и др. В научных и практических эпидемиологических исследованиях, при установлении причин возникновения и распространения данной болезни, нередко необходимо опираться только на случаи, отобранные на основании высокоспецифических тестов, критериев.

Выбор между высокочувствительным и высокоспецифическим методом может превратиться в неразрешимую задачу. В таких случаях рекомендуют применять оба (несколько) методов. При этом, возможно параллельное (одновременное) и последовательное (с учетом предыдущего результата) применение нескольких тестов.

В эпидемиологических исследованиях, как правило, важна не скорость, а точность диагностических оценок, поэтому для них целесообразно параллельное применение методов. При этом дополнительные тесты назначаются в случаях, когда результаты первоначального обследования представляются сомнительными.

Кроме того, чтобы уменьшить ошибки информации, предлагается, например, на этапе сбора материала регистрировать не диагноз, а специфические проявления болезни и только на этапе обработки информации, используя строгие и менее строгие критерии поставить диагноз и проводить группировку данных.

Оценка результатов применения тестов.

Результат применения теста еще не означает возможности автоматически ставить конкретный диагноз. Вполне вероятно, что как при положительном результате (указывающем на наличие болезни), так и отрицательном результате теста существует возможность ошибочного вывода о наличии/отсутствии данного заболевания. Поэтому для характеристики тестов, кроме чувствительности и специфичности используют дополнительные определения:

· точность диагностического теста;

· прогностическая ценность положительного результата теста;

· прогностическая ценность отрицательного результата теста.

Точность диагностического теста –• (test accuracy) – доля правильных результатов теста (истинно положительных и истинно отрицательных) в общем количестве полученных результатов. Формула расчета:

По данным табл. 5.1 Точность теста =(50+91)/156*100=90,4%

Прогностическая ценность положительного результата (ППР) теста (positive predictive value) - это вероятность наличия заболевания при положительном результате теста. ППР можно рассчитать, пользуясь данными «таблицы два на два» .

По данным табл. 5.1 ППР= 50/56*100=89,3%

Прогностическая ценность отрицательного результата (ПОР) теста (negative predictive value) - это вероятность отсутствия заболевания при отрицательном результате теста. По «таблице два на два» .

Отсюда, по данным табл. 5.1 ПОР = 91/100*100 = 91,0%

Таким образом, возвращаясь к данным табл. 5.1, следует отметить, что среди 59 больных, которым диагноз был поставлен с помощью нового метода,действительно больных оказалось 89,3%. А среди тех, кого по результатам теста оценили как здоровых, действительно здоровых было 91,0%.

Выбор тестов зависит от объективных и субъективных факторов, например, от распространенности данной болезни среди населения, от особенностей данной патологии, от стоимости теста, от предполагаемой оценки воздействия факторов риска, от целей данного исследования и т.д. Поэтому более подробное обсуждение проблем выбора методов и критериев оценки состояния здоровья индивидуума, предмет отдельного обсуждения.

Воспроизводимость теста.

Воспроизводимость (repeatability) теста – это его способность одинаково измерять какие-либо явления, процессы, состояния в серии повторных измерений. Абсолютно одинаковые оценки, каких-либо параметров здоровья, при повторных обследованиях встречаются относительно редко. Причины (различий вариабельности) показателей связаны с истинной (объективной, биологической) и с субъективной вариабельностью.

Истинная вариабельность результатов связана с особенностями процесса жизнедеятельности организма обследуемого. Известно, что даже у здоровых лиц, многие показатели варьируют в течение небольшого промежутка времени между исследованиями.

Субъективная вариабельность объясняется погрешностями персонала или погрешностями теста (техники).

Как сильно могут влиять погрешности персонала на вариабельность результатов, наглядно показывает проверка умения измерять АД на специальных тренажерах, задающих определенные и постоянные параметры АД. Практически всегда, лица, не прошедшие специальную тренировку, по-разному измеряли заданные параметры АД. Даже у одного врача в серии измерений получались существенные варьирующие результаты. Еще больший разброс результатов измерения одного признака, наблюдается при применении разных технических средств, например разных аппаратов измерения АД.

Субъективная вариабельность порождает случайные и систематические ошибки измерений. Для оценки степени воспроизводимости теста проводят серию испытаний с изучением вариабельности полученных результатов.

Чтобы свести к минимуму субъективную вариабельность, соответствующий персонал, участвующий в проведении эпидемиологического исследования, должен быть тщательно подготовлен. Подготовка персонала, прежде всего, предусматривает его обучение особенностям использования соответствующих стандартизованных методов. Обучение должны проводить высококвалифицированные специалисты.

При этом следует учитывать, что многие врачи, особенно впервые привлекаемые к исследованиям, не склонны критически оценивать свои знания и умения, особенно если это касается применения знакомых им методов. Поэтому обучение рекомендуется начать с демонстрации вариабельности получаемых ими результатов измерений при использовании различных тренажеров, например, так как это было описано выше при измерении АД. Такая демонстрация лучше всяких объяснений показывает необходимость тренировки. Кроме того, для обучения персонала используются различные стандартные учебные материалы, требующие стандартного ответа.

Окончательная проверка и закрепление полученных навыков происходит при применении выбранного метода обследования в отношении специально подобранной группы лиц. «Специально подобранные» в данном случае означает, что они по набору индивидуальных характеристик будут сходны с теми, кого предстоит обследовать в планируемом эпидемиологическом исследовании.

Кроме обучения технике метода, персонал должен быть, если это необходимо, подготовлен относительно стандартных условий применения метода, например, температуры помещения, положения тела обследуемого, его физической активности и т.д.

Субъективная вариабельность бывает особенно велика, когда погрешности персонала соединяются с погрешностями метода (теста).

Рис. 5.4. Концентрация креатинина в одной порции крови по результатам 10 шведских лабораторий, проанализировавших одну и ту же пробу 16 раз.

Источник: А.Альбом, С Норелл. «Введение в современную эпидемиологию» 1996.

На рис. 5.4. продемонстрированы результаты биохимического анализа на концентрацию креатинина в крови. Как следует из представленных данных, большинство лабораторий завышают результаты по сравнению с эталоном. При этом в лабораториях № 8 и 9 отмечается большой разброс полученных результатов. Результаты проведенного исследования показывают, как важно стандартизировать методики теста и условия его проведения.

Поскольку от результатов теста зависит постановка диагноза, валидность тестов может существенно повлиять на результаты эпидемиологического исследования.

Валидность теста.

Чувствительность, специфичность и воспроизводимость теста определяют его достоверность или валидность (validity).

Достоверность или валидность отдельного теста означает:

· способность теста дать истинную оценку тех параметров организма индивидуума или окружающей среды, которые необходимо измерить; То есть достоверный (валидный) тест должен измерить то, что требуется измерить и ничего более. Это относиться не только к лабораторным исследованиям, а в равной мере касается и методов опроса, которые должны содержать только необходимые для диагностики вопросы;

· соответствие данных отдельного теста объективным симптомам болезни и данным анамнеза;

· согласованность данных одного теста с данными традиционных лабораторных тестов.

К сожалению, точная оценка составляющих валидности и ее самой в целом, чаще всего, представляет значительные трудности или невозможна. При проведении эпидемиологических исследований следует твердо придерживаться правила не изменять валидность применяемых методов. В противном случае, уменьшение или увеличение валидности приведет к значительной вариабельности результатов и, как следствие, к ошибочным выводам.

В заключение отметим, что неполная и недостоверная информация, независимо от объективных или субъективных обстоятельств ее получения, не может служить оправданием низкого качества выводов данного исследования.