Выберите в меню Analyze (Анализ) Data Reduction (Сокращение объема данных) Factor... (Факторный анализ)
Модель факторной системы - это математическая формула, выражающая реальные связи между анализируемыми явлениями. В общем виде она может быть представлена так:
где - результативный признак;
- факторные признаки.
Таким образом, каждый результативный показатель зависит от многочисленных и разнообразных факторов. В основе факторного анализа - лежат выявление, оценка и прогнозирование влияния факторов на изменение результативного показателя. Чем детальнее исследуется зависимость результативного показателя от тех или иных факторов, тем точнее результаты анализа и оценка качества работы предприятий. Без глубокого и всестороннего изучения факторов нельзя сделать обоснованные выводы о результатах деятельности, выявить резервы производства, обосновать планы и управленческие решения.
Основная модель факторного анализа записывается следующей системой равенств:
То есть полагается, что значения каждого признака xi могут быть выражены взвешенной суммой латентных переменных (простых факторов) fi, количество которых меньше числа исходных признаков, и остаточным членом εi с дисперсией σ2(εi),действующей только на xi, который называют специфическим фактором. Коэффициенты lij называются нагрузкой i-й переменной на j-й фактор или нагрузкой j-го фактора на i-ю переменную. В самой простой модели факторного анализа считается, что факторы fj взаимно независимы и их дисперсии равны единице, а случайные величины εi тоже независимы друг от друга и от какого-либо фактора fj.
Факторный анализ может быть одноступенчатым и многоступенчатым. Первый тип используется для исследования факторов только одного уровня (одной ступени) подчинения без их детализации на составные части. Например, . При многоступенчатом факторном анализе проводится детализация факторов a и b на составные элементы с целью изучения их поведения. Детализация факторов может быть продолжена и дальше. В этом случае изучается влияние факторов различных уровней соподчиненности.
Обязательные условия факторного анализа:
· Все признаки должны быть количественными;
· Число признаков должно быть в два раза больше числа переменных;
· Выборка должна быть однородна;
· Исходные переменные должны быть распределены симметрично;
· Факторный анализ осуществляется по коррелирующим переменным.
Коэффициент корреляции – это величина, которая может варьировать в пределах от +1 до –1. В случае полной положительной корреляции этот коэффициент равен плюс 1 (говорят о том, что при увеличении значения одной переменной увеличивается значение другой переменной), а при полной отрицательной – минус 1 (свидетельствуют об обратной связи, т.е. При увеличении значений одной переменной, значения другой уменьшаются).
Дисперсия (сигма квадрат) – рассеивание – мера разброса случайной величины.
- для негрупп: сумма(Х-Хср)2/н
- для сгрупп: сумма(Х-Хср.)2*частоту/суммарную частоту
Дисперсия – средний квадрат отклонения вариант от их средней величины. При расчете дисперсии не указываются ед измерения.
Св-ва дисперсии:
- если все значения признака уменьшить или увеличить на одну и туже пост величину А, то дисперсия от этого не изменится;
- если все значения признака уменьшить или увеличить в одно и тоже число И раз, то Д.соответсвенно уменьшиься или увеличется в И2 раз.
Анализ изменений признака под влиянием контролируемых условий:
Фактор –качество, либо свойство, в соответствии с которым классифицируется данные. Каждый фактор имеет несколько уровней (высокий, низкий уровень обслуживания)
Уровень – общий термин, используемый для описания конкретного свойства, определяющего каждую категорию рассматриваемой классификации.
1. под влиянием одного фактора:
Модель факторной системы:
Модель однофакторного анализа:Уij = M + τj + ξij
Уij –значение наблюдаемое. i –номер наблюдения, j– номер класса.
M –общая средняя по выборке
τj –эффект столбца
Если не будет влияния качественного фактора, то: Уij = M + ξij
return false">ссылка скрыта2. под влиянием нескольких факторов одновременно:
Модель двуфакторная: оценивает влияет или нет два качественных фактора. Пр.: оценить влияет ли образование (гуманит, технич,..) и опыт работы (с….; без… - это уровни фактора) на уровень зарплаты.
Уij = M +αi + βj + ξij
Yij – наблюдаемое значение.
M – средний уровень (Хср зарплаты, например)
αi – влияние iго фактора
βj – jго фактора
ξij – случайная составляющая
Модель двуфакторная с взаимодействием факторов: Уij = M +αi + βj + ϒij + ξij
ϒij – совместное влияние iго и jго фактора.
При анализе в один фактор объединяются сильно коррелирующие между собой переменные, как следствие происходит перераспределение дисперсии между компонентами и получается максимально простая и наглядная структура факторов. После объединения коррелированность компонент внутри каждого фактора между собой будет выше, чем их коррелированность с компонентами из других факторов. Эта процедура также позволяет выделить латентные переменные, что бывает особенно важно при анализе социальных представлений и ценностей. Например, анализируя оценки, полученные по нескольким шкалам, исследователь замечает, что они сходны между собой и имеют высокий коэффициент корреляции, он может предположить, что существует некоторая латентная переменная, с помощью которой можно объяснить наблюдаемое сходство полученных оценок. Такую латентную переменную называют фактором. Данный фактор влияет на многочисленные показатели других переменных, что приводит нас к возможности и необходимости выделить его как наиболее общий, более высокого порядка. Для выявления наиболее значимых факторов и, как следствие, факторной структуры, наиболее оправданно применять метод главных компонентов (МГК). Суть данного метода состоит в замене коррелированных компонентов некоррелированными факторами. Другой важной характеристикой метода является возможность ограничиться наиболее информативными главными компонентами и исключить остальные из анализа, что упрощает интерпретацию результатов. Достоинство МГК также в том, что он — единственный математически обоснованный метод факторного анализа.
Весь процесс факторного анализа можно представить как выполнение 5 этапов:
1. Выбор исходных данных.
Модель факторного анализа разрабатывалась для метрических данных. Поэтому первое требование к исходным данным — представление всех признаков в метрической шкале (не обязательно с одинаковыми средними и дисперсиями).
Включение в анализ порядковых или бинарных данных допустимо, но исследователь должен отдавать себе отчет, что искажения факторной структуры при этом будут соответствовать искажениям коэффициентов корреляций, и характер этих искажений неизвестен. В общем случае желательно перейти к единой шкале для всех признаков, либо ранговой, либо бинарной, затем вычислять матрицу интеркорреляций, выбирая соответствующие меры взаимосвязи. Исследователь потеряет при этом существенную долю исходной информации. Если цель факторного анализа заключается только в определении структуры взаимосвязей переменных, то допустимо применение порядковых данных, но перед проведением факторного анализа необходимо перейти к рангам по каждой переменной. Допустимо также использовать факторный анализ в отношении дихотомических переменных, если задача ограничивается определением структуры взаимосвязей и дихотомические корреляции между переменными не очень велики (не превышают 0,7)'.
Порядковые и даже дихотомические данные могут использоваться для вычисления оценок факторов, но при условии действительно простой факторной структуры, высоких значениях общностей и факторных нагрузок переменных, определяющих каждый фактор При этом желательно проверять устойчивость факторной структуры на параллельных выборках.
Как и в других многомерных методах, недопустимы функциональные зависимости между переменными и корреляции, близкие к единице.
Количественное соотношение признаков и объектов зависит от целей исследования. Если цель анализа — изучение структуры взаимосвязей признаков, уменьшение их исходного количества путем перехода к новым пере менным — факторам, то строгих ограничений нет. Желательно лишь, чтобы количество признаков было не меньше количества объектов. Если исследователь хочет обнаружить и обосновать наличие факторов за взаимосвязями переменных, то желательно иметь в три раза больше объектов, чем признаков. Данное соотношение может сложиться и в процессе анализа — при отсеивании мало информативных переменных. Если же стоит задача обоснования выявленной факторной структуры для генеральной совокупности, то объектов должно быть еще больше, для проверки устойчивости этой структуры на параллельных выборках.
2. Предварительное решение проблемы числа факторов.
На этом этапе матрица интеркорреляций исходных признаков обрабатывается с использованием анализа главных компонент. Применяется критерий отсеивания Р. Кеттелла и критерий Кайзера — величины собственного значения фактора, большего 1 (Eigenvalue, > 1). Эти критерии не являются жесткими, поэтому далее проверяется несколько гипотез о числе факторов. Начинать при этом рекомендуется с максимально возможного числа факторов, с учетом обоих критериев, постепенно уменьшая их число.
3. Факторизация матрицы интеркорреляций.
Выбирается метод факторизации, желательно — главных осей, наименьших квадратов или максимального правдоподобия. Задается число факторов, в соответствии с проверяемой гипотезой. Результатом данного этапа является матрица факторных нагрузок (факторная структура) до вращения, которая не подлежит интерпретации.
Полезной информацией на этом этапе могут являться суммарная доля дисперсии (информативность) факторов и значения общностей переменных. Суммарная доля дисперсии — показатель того, насколько полно выделяемые факторы могут представить данный набор признаков, а этот набор — выделяемые факторы. Общность переменной — показатель ее «участия» в факторном анализе, насколько она влияет на факторную структуру. Переменные с наименьшими общностями — ближайшие кандидаты на исключение из анализа в дальнейшем.
4. Вращение факторов и их предварительная интерпретация.
На этом этапе выбирается один из аналитических методов вращения факторов, обычно — варимакс-вращение (Varimax normalized). Существуют и другие методы вращения, в том числе косоугольного, но они выходят за рамки
нашего рассмотрения. В результате вращения достигается факторная структура, наиболее доступная для интерпретации при данном соотношении переменных и факторов.
Интерпретация факторов производится по таблице факторных нагрузок после вращения в следующем порядке. По каждой переменной (строке) выделяется наибольшая по абсолютной величине нагрузка — как доминирующая. Если вторая по величине нагрузка в строке отличается от уже выделенной менее чем на 0,2, то и она выделяется, но как второстепенная. После просмотра всех строк — переменных, начинают просмотр столбцов — факторов. По каждому фактору выписывают наименования (обозначения) переменных, имеющих наибольшие нагрузки по этому фактору — выделенных на предыдущем шаге. При этом обязательно учитывается знак факторной нагрузки переменной. Если знак отрицательный, это отмечается как противоположный полюс переменной. После такого просмотра всех факторов каждому из них присваивается наименование, обобщающее по смыслу включенные в него переменные. Если трудно подобрать термин из соответствующей теории, допускается наименование фактора по имени переменной, имеющей по сравнению с другими наибольшую нагрузку по этому фактору.
5. Принятие решения о качестве факторной структуры.
Качество факторной структуры определяется степенью приближения к простой структуре.
Следует отметить общий принцип соотношения качества факторной структуры и качества исходных данных: чем ниже качество исходных данных в смысле требований, предъявляемых к метрическим переменным, тем выше требования к простоте факторной структуры, величине общностей и факторных нагрузок.
В настоящее время не существует формальных критериев соответствия факторной структуры простой. Поэтому основным критерием остается возможность хорошей содержательной интерпретации каждого фактора по двум и более исходным переменным. Если перед исследователем стоит дополнительно проблема обоснования устойчивости (воспроизводимости) факторной структуры в генеральной совокупности, то добавляется требование однозначного соотнесения каждой переменной с одним из факторов. Это требование
означает, что каждая переменная имеет большую по абсолютной величине нагрузку (0,7 и выше) только по одному фактору и малые (0,2 и менее) — по всем остальным.
Можно предложить способы максимального приближения к простой структуре путем пошагового сокращения числа факторов и переменных.
Если по результатам интерпретации выявлен фактор, по которому ни одна из переменных не получила максимальной нагрузки (по строке), то это свидетельствует о необходимости сокращения количества факторов на один и повторения этапов 3 и 4 с новым числом факторов. То же касается фактора, идентифицируемого лишь по одной переменной, когда остальные в него не попадают даже с второстепенными нагрузками.
Определяются неоднозначные переменные. Каждая такая переменная имеет примерно одинаковые по абсолютной величине максимальные нагрузки по двум и более факторам. Если обосновывается устойчивость факторной структуры, то неоднозначной является переменная, у которой между максимальной и следующей за ней по величине нагрузкой разность менее 0,5. Неоднозначные переменные поочередно удаляются из числа исходных переменных, и каждый раз повторяются этапы 3 и 4.
Очевидно, что приближение к простой структуре связано с невосполнимой потерей исходной эмпирической информации. И каждый раз исследователь должен решать, насколько целесообразна эта потеря в свете стоящих перед ним задач. Наиболее жестки требования к простой структуре в случае обоснования устойчивости и воспроизводимости факторов, например, при разработке теста или факторной теоретической модели. Гораздо мягче требования при решении наиболее часто встречающихся задач — при изучении структуры взаимосвязей или при сокращении исходного набора признаков для дальнейшего исследования, например, различий между группами объектов.
Исследователь, в зависимости от своих целей, решает, сколько раз повторить эту последовательность, какие из этапов будут пропущены и насколько глубоко будет проработан каждый из них. Например, если исследователя интересует только структура взаимосвязей признаков, то достаточно выполнить эту последовательность один раз, без последнего этапа.
Разведочный анализ (он осуществляется при исследовании скрытой факторной структуры без предположения о числе факторов и их нагрузках) или конформаторный (предназначенным для проверки гипотез о числе факторов и их нагрузках.Практическое выполнение факторного анализа начинается с проверки его условий) содержат 3 ступени (однако на практике, особенно при использовании гипотез необязательны):
1. Подготовка соответствующей матрицы ковариаций. Перед проведением ФА необходимо решить: использовать ли как исходную матрицу ковариации (корреляции) между переменными ИЛИ использовать корреляции между индивидуумами (объектами).
2. Выделение первоначальных факторов. На первом этапе может применятся модель общих факторов, а так же анализ главных компонент, цель которого отлична от цели ФА. В то же время оба метода широко используются эффективными взаимосвязями между переменнями. Их отличие др от др: мгк – линейная функция, а общ факторы – не выражаются через комбинацию наблюдаемых переменных.
Альтернатива анализа первоначальных факторов – образ-факторы, в которых предполагается, что наблюдаемые переменнные выбраны из бесконечного множества переменных, при чем вводятся «образы-факторы», являющиеся линейными комбинациями переменных.
Еще методы выделения первоначальных факторов: решение, получаемое методом максимального правдоподобия (включая канонический фа); решение по мнк; альфа-факторный анализ.
3. Вращение с целью получения окончательного решения. Вращение включает 2 варианта: ортогональное и косоугольное вращение. Косоугольные делятся: те, котороые основаны на прямом упрощении матрицы коэффициентов факторного отображения И те, которые используют упрощение матрицы нагрузок на вторичные оси.