Описательная статистика

Типы данных психолого-педагогического исследования

В целях классификации применимости статистических методов будем различать следующие типы исходных данных[1]:

1. одна выборка – совокупность измерений одной количественной, номинальной или ранговой переменной, произведенных в ходе эксперимента, опроса или наблюдения. Для одной выборки используются статистические методы описательной статистики.

Выборка может быть: неупорядоченная и структурированная (упорядоченная).

2. несколько выборок - совокупность измерений нескольких количественных, номинальных или ранговых переменных, произведенных в ходе эксперимента. Выборки могут быть:

- независимые - получены в эксперименте независимо друг от друга;

- зависимые – значения данных переменных каким-то образом согласованы (связаны) друг с другом в имеющихся наблюдениях.

Приведем типичные примеры зависимых переменных: рост человека связан с весом, потому что обычно высокие индивиды тяжелее низких; IQ (коэффициент интеллекта) связан с количеством ошибок в тесте, так как люди с высоким IQ, как правило, делают меньше ошибок, цена винчестера связана с его объемом и т.д.

Для экспериментальной педагогики характерна постановка исследований, преследующих цель выявления эффективности педагогических средств путем сравнения достижений или свойств одной и той же группы учащихся в разные периоды времени (такие группы получили название зависимых выборок) или разных групп учащихся (независимые выборки).

3. временной ряд или процесс – представляет собой значение количественной переменной (отклика), измеренные через равные интервалы значений другой количественной переменной (параметра). Например, время измерения. В качестве исходных данных рассматриваются, как правило, значения переменной отклика.

4. связные временные ряды – синхронные по времени измерения одной переменной в разных точках (объектах) или же измерения нескольких переменных в одной точке (объекте);

5. многомерные данные – представляются для статистического анализа в виде прямоугольной матрицы. Это могут быть измерения значений переменных у нескольких объектов или в нескольких точках, или же это могут быть измерения значений переменных у одного объекта в различные моменты времени или при различных состояниях.

Первый раздел математической статистики – описательная статистика – предназначен для представления данных в удобном виде и описания информации в терминах математической статистики и теории вероятностей.

Основной величиной в статистических измерениях является единица статистической совокупности (например, любой из критериев оценки качества педагога-исследователя). Единица статистической совокупности характеризуется набором признаков или параметров. Значения каждого параметра или признака могут быть различными и в целом образовывать ряд случайных значений x1, х2, …, хn.

Переменная (variable) - это параметр измерения, который можно контролировать или которым можно манипулировать в исследовании. Так как значения переменных не постоянны, нужно научиться описывать их изменчивость.

Для этого придуманы описательные или дескриптивные статистики: минимум, максимум, среднее, дисперсия, стандартное отклонение, медиана, квартили, мода.

Относительное значение параметра - это отношение числа объектов, имеющих этот показатель, к величине выборки. Выражается относительным числом или в процентах (процентное значение).

Пример: Успеваемость в классе = числу положительных итоговых отметок, деленному на число всех учащихся класса. Умножение этого значения на 100 дает успеваемость в процентах. 25/100=25%

Удельное значение данного признака - это расчетная величина, показывающая количество объектов с данным показателем, которое содержалось бы в условной выборке, состоящей из 10, или 100, 1000 и т. д. объектов.

Пример. Для сравнения уровня правонарушений в разных регионах берется удельная величина - количество правонарушений на 1000 человек (N)

Минимум и максимум — это минимальное и максимальное значения переменной.

Среднее (оценка среднего, выборочное среднее) — сумма значений переменной, деленная на n (число значений переменной). Если вы имеете значения Х(1), ..., X(N), то формула для выборочного среднего имеет вид:

`х = (1)

Пример: Наблюдение посещаемости четырех внеклассных мероприятий в экспериментальном (20 учащихся) и контрольном (30) классах дали значения (соответственно): 18, 20, 20, 18 и 15, 23, 10, 28. Среднее значение посещаемости в обоих классах получается одинаковое - 19. Однако видно, что в контрольном классе этот показатель подчинен воздействию каких-то специфических факторов.

Выборочное среднее является той точкой, сумма отклонений наблюдений от которой равна 0. Формально это записывается следующим образом:

(`х - х1) + (`х - х2) + ... + (`х - хn) =0

Для оценки степени разброса (отклонения) какого-то показателя от его среднего значения, наряду с максимальным и минимальным значениями, используются понятия дисперсии и стандартного отклонения.

Дисперсия выборки или выборочная дисперсия (от английского variance) – это мера изменчивости переменной. Термин впервые введен Фишером в 1918 году. Выборочная дисперсия вычисляется по формуле:

s2 = (2)

где `х — выборочное среднее,

N — число наблюдений в выборке.

Дисперсия меняется от нуля до бесконечности. Крайнее значение 0 означает отсутствие изменчивости, когда значения переменной постоянны.

Стандартное отклонение, среднее квадратическое отклонение (от английского standard deviation) вычисляется как корень квадратный из дисперсии. Чем выше дисперсия или стандартное отклонение, тем сильнее разбросаны значения переменной относительно среднего.

(3)

Пример: Для предыдущего случая имеем

Классы
Экспериментальный контрольный		48,5

Это означает, что в одном классе посещаемость высокая, стабильная, а в другом - отличается непостоянством.

Медиана разбивает выборку на две равные части. Половина значений переменной лежит ниже медианы, половина — выше. Медиана дает общее представление о том, где сосредоточены значения переменной, иными словами, где находится ее центр. В некоторых случаях, например при описании доходов населения, медиана более удобна, чем среднее.

Рассмотрим способы определения медианы при различных значениях N. Для нахождения медианы измерения записывают в ряд по возрастанию значений. Если число измерений N нечетное, то медиана численно равна значению этого ряда, стоящему точно в середине, или на (N+1)/2 месте. Например, медиана пяти измерений: 10, 17, 21, 24, 25 – равна 21 – значению, стоящему на третьем месте (N+1)/2=(5+1)/2=3.

Если число измерений четное, то медиана численно равна среднему арифметическому значений ряда, стоящих в середине, или на N/2 и N/2+1 местах. Например, медиана восьми измерений: 5, 5, 6, 7, 8, 8, 9, 9 – равна 7,5 (7+8)/2=7,5 – среднему арифметическому значений ряда, стоящих на четвертом и пятом местах (N/2=8/2=4 и N/2+1=4+1=5).

Квартили представляют собой значения, которые делят две половины выборки (разбитые медианой) еще раз пополам (от слова кварта — четверть).

Различают верхнюю квартиль, которая больше медианы и делит пополам верхнюю часть выборки (значения переменной больше медианы), и нижнюю квартиль, которая меньше медианы и делит пополам нижнюю часть выборки.

Нижнюю квартиль часто обозначают символом 25%, это означает, что 25% значений переменной меньше нижней квартили.

Верхнюю квартиль часто обозначают символом 75%, это означает, что 75% значений переменной меньше верхней квартили.

Таким образом, три точки — нижняя квартиль, медиана и верхняя квартиль - делят выборку на 4 равные части.

¼ наблюдений лежит между минимальным значением и нижней квартилью, ¼ - между нижней квартилью и медианой, ¼ - между медианой и верхней квартилью, ¼ - между верхней квартилью и максимальным значением выборки.

Мода представляет собой максимально часто встречающееся значение переменной (иными словами, наиболее «модное» значение переменной), например, популярная передача на телевидении, модный цвет платья или марка автомобиля и т. д, Сложность в том, что редкая совокупность имеет единственную моду. (Например: 2, 6, 6, 8, 9, 9, 9, 10 – мода = 9).

Если распределение имеет несколько мод, то говорят, что оно мультимодально или многомодально (имеет два или более «пика»).

Ассиметрия – это свойство распределения выборки, которое характеризует несимметричность распределения СВ. На практике симметричные распределения встречаются редко и чтобы выявить и оценить степень асимметрии, вводят следующую меру:

, (4)

Асимметрия бывает положительной и отрицательной. Положительная сдвигается влево, а отрицательная – вправо.

Эксцесс – это мера крутости кривой распределения.

Эксцесс равен:

(5)

Кривая распределения может быть островершинной, плосковершинной, средне вершинной. Эти четыре момента составляют набор особенностей распределения при анализе данных. Для нормального распределения А=0, Е=0.

[1][1] Оценка качества подготовки будущих учителей. – Тула: Изд-во Тул. гос. пед. ун-та, 2002, c. 40

[2][2] Гмурман В.Е. Теория вероятностей и математическая статистика: Учеб. Пособие для вузов/В.Е. Гмурман. – 9-е изд., стер. – М.:Высш. шк., 2003. – с.188

Лекция 2. Основные понятия и определения теории вероятностей

2.1 Случайная величина и вероятность события

2.2 Закон распределения СВ

2.3 Биномиальное распределение (распределение Бернулли)

2.4 Распределение Пуассона

2.5 Нормальное (гауссовское) распределение

2.6 Равномерное распределение

2.7 Распределение Стьюдент а