Надежность тестовых результатов

 

Надежность тестовых результатов – основной критерий качества тестов. Многие специалисты считают, что этот термин следует применять именно к тестовым результатам, а не к самим тестам, которые в зависимости от условий применения могут давать различные результаты [3, 4].

Надежность тестовых результатов состоит в следующем:

- устойчивость (стабильность) тестовых баллов при параллельном (повторном тестировании в одной и той же группе испытуемых;

- воспроизводимость структуры подготовленности испытуемых;

- близкие значения дисперсии баллов при тестировании в параллельных группах.

Простейшим методом проверки устойчивости (воспроизводимости) тестовых результатов является проведение двух серий измерений одним и тем же тестом на одной и той же группе с последующим расчетом коэффициентов корреляции между баллами, полученными при двукратном тестировании. При этом, разумеется, база тестовых заданий должна иметь достаточное количество параллельных (одинаковых по трудности) заданий. Надежность тестовых результатов зависит также от «устойчивости» (стабильности) индивидуальных тестовых баллов по каждому вопросу теста, т.е. их «воспроизводимости» в параллельных испытаниях (см. пример в табл. 4.4).

Таблица 4.4 - Сравнение результатов тестирования в одной и той же группе испытуемых

№ пп ФИО студентов Тестирование 1 (Х) Тестирование 2 (Y) Х*Y Х2 Y2
№ варианта Сумма баллов № варианта Сумма баллов
Иванов А.А.
Петров Б.Б.
Сидоров В.В.
N ...   ...   ... ... ... ...
S - ... - ... ... ... ...

Далее рассчитывают коэффициент корреляции по формуле [6], приведенной ранее (подраздел 3.2.2). Его значение должно быть не менее 0,8...0,9. Низкое значение коэффициента корреляции может указывать на то, что задания в различных вариантах теста не являются параллельными, т.е. одинаковыми по трудности. В этом случае следует тщательно проанализировать матрицы тестовых результатов первого и второго тестирования, в частности, сравнить потенциалы трудности и дисперсии по каждому из вопросов теста. Существенное их различие будет свидетельствовать о справедливости предположения о различной трудности заданий в тесте. В этом случае соответствующие задания следует переработать.

Другим методом оценки надежности тестовых результатов является включение в тест «попарных» заданий, т.е. вместо одного задания тест содержит два-три параллельных, одинаковой трудности. По результатам тестирования рассчитывают сначала коэффициент корреляции между параллельными заданиями (по Пирсону), а затем – коэффициент надежности R по формуле Спирмен-Брауна [4]:

,

где R – коэффициент надежности;

n – число частей, на которые был поделен тест (если в тесте было по два параллельных задания одинаковой трудности, n = 2);

r – коэффициент корреляции Пирсона.

Максимальное значение коэффициента надежности равно 1. В США, Германии и ряде других стран требуют, чтобы значение коэффициента надежности в итоговых тестовых испытаниях составляло не менее 0,9. В общем случае тестовые результаты могут считаться «надежными» при значении коэффициента надежности не менее 0,8. При меньших значениях следует произвести тщательную проверку теста, т.к. он в данном случае, скорее всего, таковым не является.