Особенности определения валидности педагогического теста

№36-1,

педагогические науки

В статье рассматривается понятие валидности, ее виды, приводится вычислительный алгоритм проверки качества педагогического теста с помощью коэффициента валидности.

Похожие материалы

Педагогический тест сегодня стал одним из наиболее распространенных инновационных педагогических инструментов контроля качества образовательного процесса. Так или иначе, в своей деятельности педагоги сталкиваются с необходимостью разработать педагогический тест. Созданный тест необходимо проверить на его качество. Одним из показателей качества теста является проверка его на валидность.

Понятие «валидность» произошло от анг. слова «valid», что в переводе означает «годный». Валидность — один из базовых показателей качества созданного теста, характеризует пригодность результатов полученных после тестирования именно для той цели, ради которой и проводилось само тестирование.

Аванесов В.С. в своей статье «Тесты: история и теория» пишет: «Валидность характеризует пригодность теста для измерения определенной величины, но нельзя говорить о валидности не указав его применения» [2]. Приведем пример для понимания смысла валидности. Два лучника стреляют по мишеням. Первый лучник набрал 70 очков, а второй 80 из 100. На первый взгляд кажется, что второй лучник лучше первого. Но при уточнении результатов оказалось, что второй лучник поразил чужую мишень. Поэтому, второй стрелок является «не валидным», он не может достигнуть цели, которая перед ним ставилась.

В научной работе Майорова А. «Теория и практика создания тестов для системы образования» говорится «Валидность – должна определять насколько тест может отражать то, что он должен оценивать» [6].

Валидизация теста, это ни что иное, как процесс накопления подтверждений для доказательства его валидности. В теории тестирования существует несколько классификаций валидности. Майоров А. выделяет три вида валидности: конструктная, критериальная и содержательная [6].

Конструктная валидность – определяется в тех случаях, когда представление об измеряемом свойстве существует в форме абстрактного образа. В критериальной или эмпирической валидности оценивается величина связи теста с независимыми критериями. Для оценки степени связи используются средства математической статистики (корреляция двух рядов значений: баллов по тесту и показателей по внешним параметрам). При этом можно выделить два подвида: текущая и прогностическая валидность. Текущая валидность рассматривает корреляцию с критерием существующим в настоящее время (например, тест по предмету сравнивается со школьными оценками). Прогностическая валидность определяется на основе сравнения результатов с критериями которые предположительно появятся в будущем (например, результаты прошлого года переносим на следующий год).

Содержательная валидность характеризует тест по степени его соответствия предметной области, глубина и проработка соответствия. Анна Анастази пишет «Содержательная валидность означает систематическую проверку содержания теста, с тем чтобы установить соответствует ли оно репрезентативной выборке измеряемой области» [4].

Согласно Клайну П., тест с высокой содержательной валидностью можно определить следующим образом [5]:

  1. Указать категорию лиц, для которых предназначен тест.
  2. Составить список знаний, умений и навыков, подлежащих тестированию.
  3. Выполнить внешнюю экспертизу полученного списка на предмет его полноты и обоснованности.
  4. На основе списка составить перечень заданий.
  5. Выполнить внешнюю экспертизу составленных заданий.
  6. На данной основе создать тестовые задания образующие тест, при этом тест будет содержательно валидным.

Вычислить числовой коэффициент валидности теста означает эмпирически установить, как выполнение теста испытуемыми соотносится с другими независимо опредленными оценками их знаний. Для определения валидности требуется независимый внешний критерий, то есть оценка эксперта (преподавателя). За коэффициент валидности принимают коэффициент корреляции результатов тестовых измерений и критерия. Если экспертная оценка знаний испытуемых, полученная независимо от процедуры тестирования, представлена числовой последовательностью Y1,Y2, …, Yn, то коэффициент валидности теста может быть рассчитан по формуле, предложенной в своих работой Анастази А., Аванесовым В.С [1, 3, 4, 7]:

V=\frac{\frac{\sum\limits_{i=1}^n {(Y_{i}\cdot y_{i})} }{n}-\bar{Y}\cdot \bar{y}}{S_{Y}\cdot S_{y}}\cdot \frac{n}{n-1},

где n – количество испытуемых, Y_i - экспертная оценка i-го учащегося, \bar{Y} - средняя арифметическая экспертных оценок, S_Y - стандартное отклонение экспертных оценок, y_i - количество правильных ответов у i-го учащегося, - \bar{y} средняя арифметическая количества правильных ответов, S_y - стандартное отклонение количества правильных ответов.

 \bar{Y}=\frac{\sum\limits_{i=1}^n Y_{i} }{n}

S_{Y}=\sqrt{ \frac{\sum\limits_{i=1}^n {(Y_{i}-\bar{Y})}^{2} }{n-1}},

 \bar{y}=\frac{\sum\limits_{i=1}^n y_{i} }{n}

S_{y}=\sqrt{\frac{\sum\limits_{i=1}^n {(y_{i}-\bar{y})}^{2} }{n-1}}

Интерпретация результатов:

a) если V принимает значение в диапазоне от 0,6 до 1 – валидность считается высокой,

b) если V принимает значение в диапазоне от 0,3 до 0,6 – валидность считается средней,

c) если V принимает значение меньшее 0,3– валидность считается низкой,

Рассмотрим пример расчета валидности теста.

Тест «Информационные процессы» должна выполнить группа студентов из 7 человек (в нашем примере мы рассмотрим небольшую группу, на практике рекомендуется проводить проверку теста на группе не менее 30 человек). Тест состоит из 10 заданий.

Экспертом, предварительно оцениваются результаты (экспертом может выступить преподаватель информационных технологий, хорошо знающий данную группу студентов, и имеющий возможность предсказать результата выполнения ими данного теста).

Результаты оценивания экспертов приведены в таблице 1.

Таблица 1. Результаты оценивания экспертов.

Номер студента

1

2

3

4

5

6

7

Yi

5

10

3

4

7

6

9

Расчеты можно произвести в электронных таблицах Microsoft Excel используя встроенные функции для вычислений.

Рассчитаем - среднюю арифметическую экспертных оценок:

 \bar{Y}=\frac{\sum\limits_{i=1}^n Y_{i} }{n}=\frac{5+10+3+4+7+6+9}{7}\approx 6,3 .

Функция СРЗНАЧ в Microsoft Office Excel вычисляет среднее арифметическое значение чисел выбранного диапазона. В частности, если диапазон B4:B15 содержит числовые значения, то формула =СРЗНАЧ(B4:B15) вернет среднее арифметическое значение этих чисел.

Найдем - стандартное отклонение экспертных оценок:

S_{Y}=\sqrt{\frac{\sum\limits_{i=1}^n {(Y_{i}-\bar{Y})}^{2} }{n-1}}

\sqrt{\frac{{(5-6,3)}^{2}\cdot {(10-6,3)}^{2}\cdot {(3-6,3)}^{2}\cdot {(4-6,3)}^{2}\cdot {(7-6,3)}^{2}\cdot {(6-6.3)}^{2}\cdot {(9-6.3)}^{2}}{6}}\approx 2,6.

Функция СТАНДОТКЛОН в Microsoft Office Excel вычислят стандартное отклонение используя указанную выборку, на основании «n-1» вычислительного метода. При этом, укажем, что стандартное отклонение — это оценка того, насколько массово разбросаны данные относительно среднего арифметического этих данных.

После проведения теста, были получены результаты, приведенные в таблице 2.

Таблица 2. Результаты тестирования.

Номер студента

1

2

3

4

5

6

7

yi

4

9

3

3

8

6

9

Рассчитаем - среднюю арифметическую количества правильных оценок:

 \bar{y}=\frac{\sum\limits_{i=1}^n y_{i} }{n}=\frac{4+9+3+3+8+6+9}{7}=6 .

Найдем - стандартное отклонение количества правильных оценок:

S_{y}=\sqrt{\frac{\sum\limits_{i=1}^n {(y_{i}-\bar{y})}^{2} }{n-1}}

\sqrt{\frac{{(4-6)}^{2}\cdot {(9-6)}^{2}\cdot {(3-6)}^{2}\cdot {(3-6)}^{2}\cdot {(8-6)}^{2}\cdot {(6-6)}^{2}\cdot {(9-6)}^{2}}{6}}\approx 2,7

Рассчитаем коэффициент валидности:

V=\frac{\frac{\sum\limits_{i=1}^n {(Y_{i}\cdot y_{i})} }{n}-\bar{Y}\cdot \bar{y}}{S_{Y}\cdot S_{y}}\cdot \frac{n}{n-1}\approx

\approx\frac{\frac{(5\cdot 4)+(10\cdot 9)+(3\cdot 3)+(4\cdot 3)+(7\cdot 8)+(6\cdot 6)+(9\cdot 9)}{7}-6,3\cdot 6}{2,6\cdot 2,7}\cdot\frac{7}{6}\approx 0,94

На основании расчетов можно сделать вывод о том, что валидность, рассмотренного в примере теста «Информационные процессы», высокая. На основании определенного показателя мы можем сказать. Что тест достигает своих результатов, а значит, разработчик теста справился со своим заданием – разработкой качественного теста по данной тематики. Заметим, что качество теста определяется не только показателем валидности, но и многими другими дополнительными показателями.

Таким образом, рассмотренный способ определения коэффициента валидности, является одним из доступных, для педагога, вариантом расчета и позволяет определить соответствие созданного теста поставленным педагогическим условиям.

Список литературы

  1. Аванесов В. С. Основные понятия педагогической тестологии//Научные проблемы тестового контроля знаний: Тез. докл. участников школы-семинара. М., 2005.
  2. Аванесов В.С. Тесты: история и теория // Управление школой, 1999, №12.
  3. Аванесов В.С. Формы тестовых заданий: учебное пособие для учителей школ, лицеев, преподавателей вузов и колледжей. 2-е изд. перераб. и расширен. — М.: Центр тестирования, 2005. — 156 с.
  4. Анастази А., Урбина С., Алексеев А.А. Психологическое тестирование - Санкт-Петербург, 2007. Сер. Мастера психологии (7-е международное издание).
  5. Клайн П. Введение в психометрическое проектирование. Справочное руководство по конструированию тестов. –Киев: ПАН Лтд, 1994. -184 с.12.
  6. Майоров А.Н. Теория и практика создания тестов для системы образования. – М.: «Интеллект-центр», 2001. -296 с.
  7. Самылкина Н.Н. Современные средства оценивания результатов обучения: учебное пособие - М.:Бином. Лаборатория знаний, 2012. - 197 с.