Педагогическое тестирование, сегодня приобрело повсеместную популярность как средство контроля знаний, в связи со своими особенностями: повышенная объективность оценки знаний, независимость от субъективных факторов, быстрая статистическая обработка результатов, большие возможности для автоматизации процесса, возможность одновременно оценить большую группу учащихся. При этом краеугольном камнем остается вопрос о разработке действительно качественного теста. Базисом для вычислений характеристик качества теста является матрица результатов тестирования. В ней по вертикали мы будем располагать полученные нами в ходе педагогического тестирования данные: профили ответов тестируемых на каждое задание теста, по горизонтали — результаты выполнения каждым тестируемым заданий теста в дихотомическом способе оценивания — ответил правильно получил единицу, ответил неправильно получил ноль или ответил полностью правильно получил единицу и ответил неправильно или частично неправильно все равно получил ноль (таблица 1). Согласно представленной ниже таблице 1 в прошедшем тестировании состоящем из десяти заданий, приняло участие одиннадцать испытуемых. Перед вычислением характеристик качества теста нам необходимо удалить крайние значения: профиль в котором правильно выполнены все задания (тестируемый № 10) и профиль в котором неправильно выполнены все задания (тестируемый № 11). Данные крайние ряды мы считать не будем.

На рисунке 1: i- количество тестируемых, j — количество заданий, Xi — индивидуальный бал i-го тестируемого, Ri — количество правильных ответов на j-е задание, xij — результат выполнения i-м тестируемым j-го задания: xij равно 1 при правильном ответе i-го тестируемого на j-е задание (в противном случае данный параметр получает 0).
Для дальнейшей работы нам необходимо провести графическую интерпретацию результатов представленных в таблице. Для этого нам необходимо упорядочить полученную матрицу по индивидуальному баллу в порядке возрастания (см. рис. 2).

Теперь построим частотное распределение: представляем результаты матрицы в виде строго ранжированного ряда (см. оис. 3), и частотного распределения (см. рис. 4), при этом в ряду частотных распределений сумма всех частот строго равна количеству испытуемых (не забудем исключить испытуемых с крайними значениями).


После этого мы можем построить гистограмму по частотному распределению (см. рисунок 5).

Для более сжатого отображения результатов (в связи с большим рядом оценочных значений) потом гистограмму по сгруппированному частотному распределению (см. рисунок 6, 7).


Таким образом мы интерпретировали данные графически, теперь необходимо провести оценку полученных результатов.
Показатель качества теста — нормальное распределение результатов. Нормальное распределение, также называют и распределением Гаусса —это такое распределение вероятностей, которая в одномерном случае задается функцией плотности вероятности, совпадающей с функцией Гаусса:
где параметр μ — математическое ожидание (среднее значение, константа, задающая сдвиг распределения по оси X), медиана и мода распределения, а параметр σ — среднеквадратическое отклонение (σ ² — дисперсия) распределения (см. рисунок 8.).

Мода — это наиболее часто встречающееся значение среди результатов выполненного теста. В рассматриваемом нами примере мода равна 4, так как этот результат встречается чаще других — 3 раза.
Если одинаково часто встречаются два значения (т.е. имеются две моды), то такое распределение называют бимодальным.
Нормальное распределение результатов всегда унимодальное (т.е. с одним значением моды) и симметричное. Бимодальное распределение говорит о неудачно построенном тесте.
Наш пример унимодальный, распределение симметричное относительно моды, мы можем сделать на основании этих данных о удачно построенном тесте.
Действительно хороший нормативно-ориентированный тест (который может качественно ранжировать испытуемых между собой) обеспечивает нормальное распределение индивидуальных баллов репрезентативной выборки тестируемых, если среднее значение баллов находится в центре распределения, остальные балы концентрируются вокруг примерно по следующему соотношению: 68% — частот баллов образуют центр, по 16% частот баллов сходятся по краям (рис.). Если при этом происходит смещение среднего значения Х влево то можно сделать вывод о том, что задания слишком сложны, смещение вправо говорит о легкости заданий.
Для последующего анализа разброса эмпирических данных вокруг среднего используют дисперсию и стандартное отклонение — меры разброса.
Дисперсия отражает меру неоднородности результатов по тесту и числена равна сумме квадратов разностей баллов испытуемых со сродним значением баллов деленное на количество испытуемых минус один: Xi — балл i-го испытуемого, ¬Х- среднее значение баллов, n — количество испытуемых. При этом дисперсия равна квадрату среднеквадратичного отклонения.
Вычислим для рассматриваемого нами примера:
Баллы испытуемых — 1,2,4,4,4,5,6,8,9. n=9, среднее значение баллов рано 4,8. Дисперсия равна 2,6.
Низкая дисперсия говорит о слабом разделении испытуемых по уровню знаний, не позволяет с приемлемой точностью ранжировать их. Излишне высокая дисперсия будет нам указывать на сильную неоднородность группы испытуемых, и на возможные нарушения процедуры тестирования, на недостаточно ясные формулировки заданий и т.п.
Дисперсия вычисленная нами по исследуемой матрице имеет среднее значение (наш диапазон от 1 до 9, со средней величиной 2,6), что указывает о качестве теста.
Чаще для статистического анализа данных в используют стандартное отклонение, равное корню из дисперсии. При этом если среднее арифметическое примерно равно утроенному стандартному отклонению, то можно считать дисперсию оптимальной, а распределение тестовых баллов близким к нормальному. При вычислении среднеквадратичное отклонение равно корню из 2,6 что примерно равно 1,61. Утроенное произведение среднеквадратичного отклонения примерно равно 4,83 что близко к среднему значению Х (равному 4,8).
Таким образом, на основании произведенных расчетов, можно сделать вывод о том, что распределение тестовых баллов близко к нормальному. Матрица результатов тестирования при этом становится удобным базисом вычисления характеристик определения качества теста.