Стандартизация теста и интерпретация результатов тестирования

Векслер Виталий Абрамович

Стандартизацией теста называется комплекс взаимосвязанных между собой процедур, позволяющий создать для всех испытуемых равные условия, и подразумевает единообразный подход к процедуре проведения и оценивания результатов выполнения испытуемыми заданий.

Определим перечень рекомендаций по организации и проведению контрольного мероприятия в форме тестирования испытуемых:

Ни одному испытуемому не может даваться никаких даже минимальных преимуществ перед другими;
Группа тестируемых, перед прохождением тестирования, должна быть «выровнена по мотивации»;
Тестирование различных групп испытуемых должно занимать равные временные промежутки и проводится при одинаковых внешних условиях. Если тест будет вторично использоваться в условиях, которые уже существенно отличаются от тех, где он был изначально проведен, то обязательно потребуется некоторое соотнесение этих условий друг с другом или адаптация теста к новым измененным условиям;
Содержание теста должно соответствовать требованиям стандартов образования;
Все испытуемые выполняют одни и те же задания (параллельные, подобные формы заданий);
В тест включаются задания одной формы либо различных форм с соответствующими весовыми коэффициентами, значение которых получены статистическим путем;
Установление норм.

Норма теста — это некий условно сформированный уровень, который можно принять за средний, отражающий развитие некоторой, возможно большой, совокупности людей, условно похожих на данного испытуемого по определенному ряду выявленных, в ходе дополнительного исследования, социально-демографических характеристик. В большинстве случаев тестовый показатель индивидуума мы можем выявить на основе сравнения с оценками, полученными по данному тесту другими людьми. Норма теста обычно будет, определяется в результате тестирования большой выборки испытуемых определённого возраста и пола, с последующим усреднением полученных оценок с их последующим дифференцированием по группам: разделением по возрасту, полу, социальному положению, уровню урбанизации, психофизическим показателям и ряду многих других показателей необходимых в контексте именно данной дифференциации. При этом, данная группа людей будет, называется выборкой стандартизации и станет служить показателем для установления норм. Всякая норма, как правило, со временем может, изменяется коррелируя вместе с естественными или другими взаимосвязанными с ней изменениями, поэтому есть правило, согласно которому нормы теста, особенно интеллектуального, должны пересматриваться, как минимум один раз в пять лет. Система подсчета баллов, на основе норм, должна быть предварительно разработана и применена ко всем ответам испытуемых без исключения;

8. Проверка тестовых работ должна быть строго регламентирована, а именно проверяющим даются эталоны правильных ответов и стандартизованные критерии оценок;

9. Стандартизация теста так же заключается в приведении процедуры оценок к общепринятым в учебной среде нормативам;

10. Тест должен быть обязательно социокультурно адаптирован т.е необходимо соблюдать соответствие тестовых заданий и оценок, которые испытуемый получает по этим заданиям, особенностям культуры, сложившимся в том или ином обществе, где данный тест используется, если он заимствован в другой стране;

11. Для полного обеспечения единообразия условий проведения теста, разработчик описывает подробные указания по проведению каждого вновь разработанного теста;

12. Учет «внешних факторов». Например, зачитывая вслух инструкцию или задание, нужно принимать во внимание тон голоса, скорость речи, интонацию, паузы и выражение лица;

13. Тест должен сопровождаться руководством для пользователя, в котором описываются:

Назначение теста и его описание;
Показания для применения;
Состав теста;
Информация об апробации теста (цели, объем и состав выборки, основные статистические характеристики);
Инструкция по процедуре проведения тестирования;
Ключи;
Трудность и дискриминативность теста («дискриминативность» — «тонкость измерения», т.е. способность дифференцировать тестируемых относительно «минимальных» и «максимальных» результатов теста, дифференцирующая способность);
Данные о надежности и валидности теста;
Другие статистические материалы;
Правила и инструкции для обработки данных;
Устройство шкалы, правила и особенности интерпретации данных.

Таким образом, если тесты стандартизированы, то мы можем сказать, что возможно провести сравнение показателей, полученные одним испытуемым, с таковыми в генеральной совокупности или соответствующих группах. Тем самым достигается адекватная интерпретация показателя отдельного испытуемого.

Дискриминативность измеряется показателем дельта Фергюсона и принимает максимальное значение при равномерном (прямоугольном) распределении показателей (d=1).

При разработке теста, безусловно, необходимо стремиться к тому, чтобы его задания как можно точнее могли измерять проверяемое свойство. Например, если в результате проведенного обследования почти все испытуемые получили примерно одинаковые результаты, то это может означать только то, что тест проводит измерения очень грубо и неточно, без особых градаций различающих особенности испытуемых. Чем большее количество градаций результатов можно получить при помощи теста, тем выше будет его разрешающая способность. Мера тонкости измерения (или степень диффиренцируемости результатов) теста называется дискриминативностью.

Дискриминативность теста измеряется показателем дельта Фергюсона:

,

где N — количество испытуемых, n — количество заданий, f_i — частота встречаемости каждого показателя. Наименьшая дискриминативность теста определена при δ = 0, наибольшая при δ = 1.

Рассмотрим простейший пример расчета индекса дискриминативности заданий.

Проводится тестирование по теме «Информационные процессы». В тестировании принимают участие 7 человек, количество заданий — 4.

Цель задания: овладение навыком расчета индекса дискриминативности.

Алгоритм вычислений:

Составьте таблицу частот встречаемости каждого показателя;
Подсчитайте, как часто встречаются значения показателей для данного теста;
Возведите эти числа в квадрат и просуммируйте их;
Прибавьте единицу к количеству заданий;
Возведите в квадрат количество испытуемых;
Помножьте количество заданий на результат шага 4;
Теперь у нас есть все элементы формулы. Подставьте их и рассчитайте коэффициент;
Сделайте вывод о дискриминативности теста «Информационные процессы».

Оснащение: микрокалькулятор или компьютер, таблица первичных данных (табл. 1).

Таблица 1. Таблица первичных данных отражающая результаты в баллах у семи испытуемых
Испытуемый	Результат (в баллах)
Испытуемый 1	2
Испытуемый 2	1
Испытуемый 3	0
Испытуемый 4	3
Испытуемый 5	2
Испытуемый 6	1
Испытуемый 7	4

На основании таблицы первичных данных получим таблицу частот встречаемости каждого показателя (табл. 2).

Таблица 2. Таблица частот встречаемости каждого из показателей теста выполненная на основе анализа предложенной в табл.1 таблицы частотных данных
Баллы	0	1	2	3	4
f_i	1	2	2	1	1

Вычислим квадраты частот (табл. 3):

Таблица 3. Таблица квадратов частот определенная по таблице частот показателей теста
Баллы	0	1	2	3	4
f_i	1	2	2	1	1
f_i²	1	4	4	1	1	11

Произведем вычисления показателем дельта Фергюсона, где n=4 (количество заданий), N=7 (количество испытуемых), N²=49 (рис. 4).

На основании проведенного вычисления сделаем вывод: δ = 0,97 данный показатель указывает на высокую дискриминативность теста «Информационные процессы», так как наибольшая дискриминативность при δ = 1. Показатель δ = 0,97 приближается к единице.

Дискриминативность или дифференцирующая способность как показатель отражает общую способность созданного исследователем теста отделять испытуемых с высоким общим баллом по тесту от тех, кто получает низкий балл и позволяет проверить качество созданных заданий в тесте.

Для проверки качества отдельных заданий будем использовать метод крайних групп. Данный метод позволяет определить может ли задание дифференцировать учащихся. Задания, на которое одинаково хорошо могут ответить испытуемые, как с высокими, так и с низкими способностями, не обладает хорошей дифференцирующей способностью. Таким образом, цель использования на практике данного метода выражается в удалении некачественных заданий.

Для определения дифференцирующей способности задания будем использовать формулу метода крайних групп (рис. 6).

,

где от количества испытуемых, N_nmax — количество испытуемых в группе худших верно выполнивших задание, Nnmax — количество испытуемых в группе лучших верно выполнивших задание.

Опишем показатель интерпретации, полученный в результате вычисления результата:

если D в промежутке от 0,3 до 1 — задание эффективно (обладает высокой дифференцирующей способностью среди испытуемых, качество задания высокое);
если D в промежутке от 0,1 до 0,3 — задание обладает низкой степенью дифференциации (задание «слабое», его рекомендовано удалить и заменить другим);
если D меньше 0,1 — задание не качественное (оно должно быть удалено и заменено другим).

Рассмотрим простейший пример расчета показателя дифференцирующей способности по методу крайних групп.

Было проведено тестирование в группе из 30 испытуемых. Количество заданий — 10. Полученные результаты приведены в таблице частот встречаемости показателей (табл. 4). Цель исследования: необходимо проверить качество задания № 1.

Таблица 4. Таблица частот встречаемости показателей теста (исходные данные для проведения вычисления)
Баллы	0	1	2	3	4	5	6	7	8	9	10
f_i	2	1	3	2	1	2	4	4	3	5	3

Проведем вычисления основных индексов, которые нам понадобятся в основной формуле. Определим 27% от количества испытуемых для создания крайних групп. Примерно получим 8 испытуемых (округлим результаты). Таким образом, мы возьмем 8 человек набравших малое количеств баллов (в нашем примере 0,1,2,3 балла) — так сформирована слабая группа и 8 человек набравших наибольшее количество баллов (в нашем примере — 9,10 баллов) — так сформируем сильную группу. Теперь проверим, как эти испытуемые отвечали на задание № 1 (табл. 5).

Таблица 5. Результаты выполнения исследуемого задания (задания № 1) испытуемыми из крайних групп (сильная и слабая группа)
Испытуемый	1	2	3	4	4	5	6	7	1	2	3	4	5	6	7	8
Результат	0	1	0	0	0	0	0	0	1	1	1	0	1	1	1	1
Группа	Слабая								Сильная

Приведем данные для подстановки в формулу метода крайних групп:

, ,

Подставим данные и получим следующий результат:

.

На основе полученных данных мы можем сделать вывод: задание №1 в тесте является эффективным, так как показатель находится в диапазоне от 0.3 до 1.

Таким образом, стандартизация теста является целенаправленным процессом позволяющим определить условия для качественного прохождения испытаний теста и сделать тест психологически комфортным при прохождении для испытуемых. Стандартизация теста наиболее важна и в тех случаях, когда осуществляется сравнение показателей обследуемых. При этом важна выработка нормы, или нормативных показателей. Для получения стандартных норм нужно тщательно отобрать большее количество испытуемых в соответствии с ясно обозначенным критерием. Интерпретация результатов тестирования будет иметь значимых характер только в том случае если сам тест был создан качественно, одним из показателей данной характеристики может является и дискриминативность как теста в целом так и каждого задания в отдельности.

Стандартизация теста и интерпретация результатов тестирования

Аннотация

Ключевые слова

Текст научной работы

Читайте также

Матрица результатов тестирования

Использование программных средств тестирования в педагогической практике

Особенности определения валидности педагогического теста

Особенности проектирования нестандартных тестовых заданий

Психолого-педагогические аспекты тестирования

Список литературы

Цитировать

Поделиться