Лекция 10. Средства визуализации и интерпретации экспертных оценок и тестовых данных

Обработчики тестовых данных

В тех случаях, когда нельзя провести компьютерное тестирование или необходимо подсчитать исследуемые показатели в целом по классу, параллели, педагогу-психологу необходимы обработчики тестов.

С помощью электронного обработчика тестов можно быстро, за 10–15 минут, подсчитать результаты тестирования сразу по нескольким классам. Кроме того, поскольку все данные заносятся в таблицы, при желании их можно распечатать и использовать, например, при составлении отчетов, консультировании, составлении статистической справки.

В качестве одного из самых распространенных обработчиков выступает офисная программа Excel, которая может делать различные выборки, считать аналитику. Кроме того, в Интернете существуют так называемые обработчики тестов, которые позволяют произвести обработку тестов, введя данные в такую программу. Полной автоматизации добиться сложно, но подспорье хорошее.

Обработчик тестов вы можете скачать здесь: http://pl-42.narod.ru/

Краткий практический курс о том, как самостоятельно создать обработчик тестов с помощью программы Excel, вы можете скачать по адресу: http://www.it-n.ru/communities.aspx?cat_no=1941&lib_no=2064&tmpl=lib. Там же можно найти готовые обработчики.

К способам визуального или графического представления данных относят графики, диаграммы, таблицы, отчеты, списки, структурные схемы, карты и т.д.

Визуализация традиционно рассматривалась как вспомогательное средство при анализе данных, однако сейчас все больше исследований говорит о ее самостоятельной роли.

Традиционные методы визуализации могут находить следующее применение:

· представлять пользователю информацию в наглядном виде;

· компактно описывать закономерности, присущие исходному набору данных;

· снижать размерность или сжимать информацию;

· восстанавливать пробелы в наборе данных;

· находить шумы и выбросы в наборе данных.

Качественная визуализация данных является важной частью любой аналитической системы. Во многих случаях эксперту достаточно просто взглянуть на данные, чтобы сделать необходимые выводы. Но одни и те же данные можно отображать множеством способов, и какой из них будет наиболее приемлем, зависит от решаемой задачи. Поэтому пользователю необходимо много механизмов визуализации, из которых он может выбрать наиболее оптимальные.

Deductor Studio – программный комплекс для визуализации данных. Визуализировать данные в Deductor Studio можно на любом этапе обработки. Система самостоятельно определяет, каким способом она может это сделать, например, если будет обучена нейронная сеть, то помимо таблиц и диаграмм можно просмотреть граф нейросети. Пользователю необходимо выбрать нужный вариант из списка и настроить несколько параметров.

Возможные способы визуализации данных:

Способ визуализации Описание
Табличные данные
Таблица Стандартное табличное представление с возможностью сортировки, экспорта и фильтрации данных.
Статистика Статистические показатели выборки по всем полям, гистограммы распределения значений.
Графики
Диаграмма График изменения любого числового показателя с возможностью детализации данных. Поддерживается множество способов отображения: линейчатые и столбчатые диаграммы, области, точки и прочее.
Гистограмма График разброса показателей. Гистограмма предназначена для визуальной оценки распределения данных. Распределение данных оказывает значительное влияние на процесс построения модели. Встроена возможность детализации данных гистограммы.
Многомерная диаграмма Позволяет визуально оценить зависимости между различными полями, отображается в виде 3D-поверхности или топографической диаграммы.
Диаграмма размещения Размещение объектов в 2-х, 3-х мерном пространстве. Дополнительную информативность обеспечивают цвет, размер и форма объектов.
OLAP анализ
Куб Многомерное представление данных. Любые данные, используемые в программе, можно посмотреть в виде кросс-таблицы и кросс-диаграммы. Пользователю доступен весь набор механизмов манипуляции многомерными данными – группировка, фильтрация, сортировка, произвольное размещение измерений, детализация, выбор любого способа агрегации, отображение в абсолютных числах и в процентах.
Очистка данных
Дубликаты и противоречия Табличное отображение информации после применения обработчика "Дубликаты и противоречия". Цветовое выделение обнаруженных дубликатов и противоречий с возможностью автоматической фильтрации.
Матрица корреляции Отображает коэффициенты корреляции, рассчитанные при помощи обработчика "Корреляционный анализ". Поддерживается возможность экспорта информации в Excel, Word, HTML.
Data Mining
Граф нейросети Визуальное отображение обученной нейросети. Отображается структура нейронной сети и значения весов.
Дерево решений Отображение дерева решений, полученного при помощи соответствующего алгоритма. Имеется возможность посмотреть детальную информацию по любому узлу и фильтровать попавшие в него данные.
Правила деревьев решений Отображает в текстовом виде правила, полученные при помощи алгоритма построения деревьев решений. Такого рода информация легко интерпретируется человеком. Поддерживаются различные способы фильтрации и сортировки полученных правил.
Значимость атрибутов Отображение значимости атрибутов. Рассчитывается при помощи алгоритма построения дерева решений.
Карта Кохонена Отображение карт, построенных при помощи соответствующего алгоритма. Широкие возможности настройки – выбор количества кластеров, фильтрация по узлу/кластеру, выбор отображаемых полей. Мощный и гибкий механизм отображения кластеризованных данных.
ROC-анализ ROC-кривая (Receiver Operator Characteristic) – кривая, используемая для представления результатов бинарной классификации в машинном обучении. ROC-кривая показывает зависимость количества верно классифицированных положительных примеров от количества неверно классифицированных отрицательных примеров.
Коэффициенты регрессии Таблица коэффициенты, рассчитанные при помощи алгоритма линейной регрессии. Поддерживается возможность экспорта информации в Excel, Word, HTML.
Профили кластеров Позволяет наглядно оценить результаты кластеризации, этот визуализатор доступен лишь для обработчика "Кластеризация". Он отображает разбиение на кластеры, значимость факторов, статистические характеристики каждого кластера.
Правила ассоциаций Отображает в текстовом виде правила, полученные при помощи алгоритма поиска ассоциативных связей. Такого рода информация легко интерпретируется человеком. Поддерживаются различные способы фильтрации и сортировки полученных правил.
Популярные наборы Часто встречающиеся множества, обнаруженные при помощи алгоритма поиска ассоциативных правил.
Дерево правил Отображение дерева правил, полученных при помощи алгоритма поиска ассоциаций. Правила могут быть сгруппированы как по условию, так и по следствию.
Что-если Таблица и диаграмма для моделей, построенных при помощи линейной регрессии, нейронной сети, дерева решений, самоорганизующихся карт и ассоциативных правил. Позволяют "прогонять" через построенную модель любые интересующие пользователя данные и оценить влияние того или иного фактора на результат. Активно используется для решения задач оптимизации. В случае отображения ассоциативных правил позволяет ввести элементы, входящие в транзакцию и получить все возможные следствия из введенного набора.
Обучающий набор Выборка, используемая для построения модели. Цветом выделяются данные, попавшие в обучающее и тестовое множество с возможностью фильтрации. Необходима для понимания, какие записи и каким образом использовались при построении модели.
Диаграмма прогноза Применяется после использования метода обработки – прогнозирование. Прогнозные значения выделяются на диаграмме цветом.
Таблица сопряженности Предназначена для оценки результатов классификации вне зависимости от используемой модели. Таблица сопряженности отображает результаты сравнения категориальных значений исходного выходного столбца и категориальных значений рассчитанного выходного столбца. Используется для оценки качества классификации. Предусмотрены механизмы анализа отклонений.
Диаграмма рассеяния График отклонения прогнозируемых при помощи модели значений от реальных. Может быть построен только для непрерывных величин и только после использования механизмов построения модели, например, нейросети или линейной регрессии. Используется для визуальной оценки качества построенной модели. Встроенное автоматическое построение гистограммы распределения ошибки.
Общие
Сведения Текстовое описание параметров импорта/обработки/экспорта/подключения. Поддерживается возможность экспорта информации в HTML и текстовый файл.

· Настроенные визуализаторы могут быть вынесены на панель Отчеты. Таким образом, конечный пользователь сможет просто получить и просмотреть необходимый результат, не задумываясь, каким способом он был получен. Кроме того, конечный пользователь для визуализации данных может воспользоваться специализированным приложением Deductor Viewer.

· Наличие большого набора механизмов визуализации позволяет легко проводить разведочный анализ, сравнивать результаты, полученные с применением различных механизмов обработки. Обычно использование механизмов визуализации благодаря простоте применения является первым шагом в построении полномасштабной аналитической системы. Таким образом, Deductor обеспечивает возможность начать с наиболее доступного метода анализа – визуализации и перейти со временем к системам с более мощным функционалом[7].

Отечественная универсальная система визуализации и обработки двумерных данных AM Lab Hesperus www.amlab.ru.

Документация, как и интерфейс программы, выполнены на русском языке.

Вид исходных данных, принимаемых программой, достаточно широк. Это и файлы стандартных графических форматов, и текстовые данные в виде матриц или наборов точек, и так называемые бинарные файлы (массивы целых, с плавающей точкой или комплексных чисел различного типа).

Система Hesperus изначально ориентировалась на обработку данных произвольного типа и большого объема, по этой причине ее отличают высокая скорость работы и многопоточность, позволяющая запускать одновременно несколько процессов обработки.

Конек программы - ее средства визуализации, позволяющие детально изучать различные данные достаточно большого объема.

Существенно облегчает работу возможность гибкой настройки цветового соответствия, позволяющая сопоставлять каждому указанному диапазону данных определенный цвет или плавный цветовой переход.

Для работы с изображениями, имеющими сложные гистограммы, будет полезна возможность динамического изменения диапазона отображаемых данных. В ряде приложений очень ценным окажется средство для работы в пользовательской системе координат. Система обладает мощным механизмом 3D визуализации, поддерживает параметрическое задание поверхностей и наложение на них произвольной текстуры. При этом программа обладает широким набором средства обработки и анализа, стандартным для подобных систем. Программа является расширяемой и позволяет пользователю писать собственные модули с использованием наиболее важных функций системы.

Всякий желающий испробовать программу может скачать ее из интернета (объем программы чуть больше 4 Мб). Скачанная таким образом программа распространяется как условно-бесплатная, не имеет никаких функциональных ограничений и лишь через некоторое время начинает напоминать пользователю о необходимости зарегистрироваться.