Математика
Методы сравнения и интеграции результатов педагогического контроля, олейник. Шкалы процентильных рангов

Методы сравнения и интеграции результатов педагогического контроля, олейник. Шкалы процентильных рангов

Z-показатель или стандартизированный показатель - этопоказатель, определяющий количество стандартных отклонений, на которое отклоняется полученный результат от среднего результата в нормативной выборке.

Шкала Z-оценок (стандартизированныйZ-показатель)

Шкала стандартных отклонений

Шкала стандартных отклонений в самом простом варианте представляет собой шкалу из трех уровней, каждый из которых соответствует определенной степени выраженности диагностируемого свойства. Дадим характеристику этих уровней.

· Первый уровень соответствует левой части распределения до одной сигмы и отражает низкуюстепеньвыраженности свойства. Все сырые оценки, которые попадают в данный диапазон, независимо от первичного значения, будут свидетельствовать о низкой выраженности диагностируемого параметра.

· Второй уровень шкалы соответствует диапазону от 1 сигмы слева до одной сигмы справа. В центре этого диапазона находится среднее значение по выборке. Данный уровень отражает среднюю степень выраженности свойства. Согласно функции нормального распределения этот уровень имеют 68, 27% испытуемых в нормативной выборке.

· Третий уровень, отражающий значительную выраженность исследуемого свойства, занимает диапазон от первой сигмы справа до правого конца кривой нормального распределения.

В простом варианте описанная шкала состоит из трех уровней, однако возможны варианты и с большим количеством градаций. Как правило, в этих вариантах первый и третий уровни разбиваются на дополнительные уровни в соответствии с интервалами стандартных отклонений.

Недостатки данной шкалы очевидны. Во-первых, шкала имеет небольшое количество градаций, что обусловливает потери диагностической информации. Во-вторых, данная шкала представляет собой, по сути, рейтинговую нормализованную шкалу. Это ограничивает возможности статистического анализа полученных результатов.

На основе значений Z-показателя составляется шкала Z-оценок. Дадим ее характеристику.

· Математически Z-показатель рассчитывается как отношение разности данной сырой оценки и средней оценки в нормативной группе к величине стандартного отклонения.

· Шкала Z-оценок включает 7 или 9 меток. По своей структуре она эквивалентна шкале стандартных отклонений.

· Название «Z-показатель» соответствует представлению данных в форме нормального распределения (Z-распределения).

· Метка в середине шкалы соответствует сырому среднему значению в популяции и принимает значение «0».

· Слева и справа от средней метки находятся равные интервалы, которые соответствуют интервалам 1, 2, 3 и 4 сигм (средних квадратичных отклонений).

· Метки справа имеют соответственно значения «1», «2», «3» и «4 (в случае, если добавляется интервал от 3 сигмы до 4 сигмы).

· Метки справа от среднего значения имеют соответствующие отрицательные значения от «-1» до «-3» или «-4».

Таким образом, шкала Z-оценок включает отрицательные и положительные значения, а также оценку «0». Такая структура шкалы создает трудности для последующего анализа и интерпретации полученных данных. В связи с этим на основе Z-показателя предложены более приемлемые варианты нормализации сырых значений. Одним из таких вариантов является преобразованныйZt-показатель.

Zt-показательпредставляет собой преобразованную Z-оценку.Zt-оценкавычисляется по формуле Zt = A+BxZ, где

А – среднее значение распределения преобразованных оценок,

В – стандартное отклонение преобразованного распределения,

символ «х» - знак умножения.

Из приведенной формулы следует, что Zt учитывает не только среднее значение и среднее квадратичное отклонение распределения сырых оценок, но также среднее значение и среднее квадратичное отклонение распределения уже нормализованных оценок. Преимущество такого преобразования Z-показателя состоит в том, что статистические параметры нормализованного распределения могут выбираться произвольно. В психометрии по общему согласию специалистов в качестве среднего значения нормализованного распределения было выбрано значение «50», а значение стандартного отклонения - «10». В этом случае Zt-показатель стал называться как «Т-балл».

Шкала Т-баллов – это шкала стандартизированных оценок, в которой каждая оценка рассчитывается по формуле:

T = 50+10х(сырая оценка – средняя сырая оценка)/стандартное отклонение распределения сырых оценок.

Т-баллы всегда принимают положительные значения и имеют нормальное распределение со средним значением «50» и стандартным отклонением «10». «Нормальные» оценки по шкале Т-баллов, свидетельствующие о средней выраженности диагностируемого свойства, соответствуют диапазону в пределах 2 стандартных отклонений, обычно от 30 до 70 Т-баллов.

Как и в случае шкалы Z-оценок, основные метки Т-шкалы в целом соответствуют меткам шкалы стандартных отклонений. Например, интервал Т-баллов соответствует интервалу [среднее значение…. одна сигма] по шкале стандартных отклонений слева, или интервалу по шкале Z-оценок.

Шкала Т-баллов удобнее для интерпретации по сравнению с предыдущими шкалами. По своей форме она представляет собой шкалу интервалов и имеет непрерывный характер. С другой стороны, следует помнить, что шкала Т-баллов по сути подобна шкале стандартных отклонений и в строгом смысле она не является шкалой интервалов. В ее конструкции приняты определенные условные допущения, функция которых заключается в обеспечении удобства восприятия и трактовки диагностических данных. Поэтому при интерпретации Т-баллов не стоит переоценивать численные значения нормализованных показателей. Например, если у одного испытуемого по диагностической шкале Т=55, а другого по этой же шкале Т=60, то это совсем не означает, что у первого диагностируемое свойство имеет меньшую выраженность, чем у второго. Оценка значений Т-баллов проводится по диапазонам, эквивалентным шкале стандартных отклонений. Еще раз отметим, что преимущество Т-баллов состоит в возможности более удобного и наглядного представления результатов, например, в виде графика.

Преобразование в шкалу Т-баллов нашло применение в ряде широко используемыхвклиникеопросников, например, Миннесотском мнгогофазном личностном опроснике (MMPI).

Основным недостатком преобразования Z-оценки в Zt-показатель является привязка оценки полученных диагностических результатов к нормативным данным, точнее говоря, к среднему значению и среднему квадратичному отклонению нормативной выборки. Поскольку получить полностью репрезентативную нормативную выборку крайне трудно, нормативные данные чаще всего отражают распределение диагностируемого свойства не в популяции в целом, а лишь в выборке испытуемых, взятой для проведения нормализации. Следует учитывать, что выборканормализации может значительно отличаться от популяции, представителем которой является данный конкретный испытуемый. В результате некорректного перевода первичных оценок в стандартизированныеможетзначительно снизиться валидность и достоверность полученных диагностических данных.

С целью устранения указанного выше недостатка предложены способы перевода в стандартизированные показатели, не зависящие от выборки стандартизации. Такой способ нормализации первичных оценок используется в технологии анализа тестовых заданий . В этой технологии нормализация сырых оценок осуществляется не на основе описательной статистики, а с помощью метода максимального правдоподобия с логарифмическимшкалированием.

Способ перевода в Т-баллы на основе теории анализа тестовых заданий показал достаточно высокую эффективность в ряде психодиагностических методик в клинике.

Имеется несколько способов выражения тестовых результатов таким образом, чтобы их можно было сравнивать для тестов различной длины, по различным дисциплинам и для разных учебных заведений. Более того эти способы позволяют суммировать тестовые результаты и проводить их накопление, т.е. по сути определять рейтинги испытуемых по всему объему полученных ими знаний. Этим условиям удовлетворяют следующие шкалы оценок тестовых результатов.

Шкала Z

Для определения оценки по результатам тестирования в шкале Z помимо суммарного бала xi i-го испытуемого по j-й дисциплине (тесту, вузу),- необходимо знать среднее арифметическое баллов для всей группы студентов и стандартное отклонение . Тогда оценка Z будет определяться по формуле:

Здесь Zij – стандартный результат, представляющий собой нормированное отклонение балла испытуемого от среднего арифметического по тесту. При подчинении результатов тестирования закону нормального распределения, когда , величина Z непрерывно изменяется от -3 до +3.

При округлении оценок в шкале Z до целых единиц возникает семибалльная шкала: -3, -2, -1, 0, +1, +2, +3. Шкала Z очень неудобна, ибо дробная и имеет отрицательные и положительные значения.

Шкала Т

Для устранения указанных выше недостатков шкалы вводится шкала Tij:

Здесь произведение 10Zij округляют до целых чисел, поэтому шкала Т в 10 раз более дифференцирующая знания, чем шкала Zij. Для сравнения этих шкал приведем пример для семи испытуемых:

Процентная шкала

Процентная шкала рассчитывается для большого массива данных. Для примера рассчитаем процентную шкалу по результатам тестирования 50 студентов, получивших следующие баллы: 4, 15, 6, 14, б, 7, 12, 9, 6, 5, 11, 8, 11, 8, 10, 7, 6, 8, 8, 8, 3, 12, 9, 14, 12, 13, 7, 9, 10, 5, 9., 6, 8, 7, 7, 11, 7, 11, 9, 4, 8, 12, 5, 7, 8, 10, 13, 10 (N=50).

Прежде всего данные группируются и на этой основе определяется характер распределения тестовых баллов. Характер распределения будет приближаться к нормальному, если N>>100. Поэтому приведенные здесь пример далек от нормального распределения.

Группировка данных по так называемым классам выполняется таким образом, чтобы число классов было в пределах от 10 до 15. Для этого определяется размах тестовых результатов (R), который в нашем примере равен R=15-4=11. Таким образом, у нас образуется 11 классов, и в каждый класс, попадает один тестовый балл.

Далее строится вспомогательная табл. 4.1, где в первую колонку помешают тестовые баллы испытуемых от большего значения к меньшему сверху вниз. Вторая колонка представляет собой результат разноски исходных данных по баллам (классам). В третью колонку внесены частоты, с какими встречаются в результатах тестовые баллы. В четвертой колонке показаны кумулированные (накопленные) частоты, представляющие собой сумму частот снизу вверх.

Таблица 4.1. Вспомогательная таблица для расчета процентного ранга

Так как уровень знаний непрерывно изменяется, мы оперируем дискретными значениями баллов, то необходимо ввести понятие "верхняя и нижняя граница” балла (класса). В нашем примере, например, для балла 12 нижняя граница 11,5 (12-0,5, где 0,5-точность измерения балла, поскольку мы измеряемую величину, т.е. уровень знаний, округляем до целого значения балла с точностью до 0,5), верхняя – 12,5. Именно эти понятия используются для построения шкалы процентных рангов, цель которой узнать, сколько процентов испытуемых показывают результаты, равные интересующему нас баллу или меньше него.

Вычислим для примера процентный ранг для тестового балла 5. В пределах от нижней границы балла 4,5 до верхней 5,5 находятся результаты 3 испытуемых. Предполагается, что эти результаты равномерно располагаются в указанном интервале, т.е. от 4,5 до 5,5. Следовательно, в интервале от 4,5 до 5 находится 1,5 долей испытуемых (половина от 3 см предпоследнюю колонку). Таким образом, балл ниже 5 имеют 4,5 (3 + 1,5) долей испытуемых, или 9 %. Балл 3 и ниже имеют 0,5 доли испытуемых, или 1%. Балл 15 имеют 49+0,5=49,5 доли испытуемых, т.е. 99%.

Итак, что значит PR=86% для балла 12. Это значит, что знания испытуемого, получившего 12 баллов, превосходят знания 86% студентов группы и он принадлежит к лучшим 14% студентов. Для сравнения общего результата по нескольким тестам процентные данные каждого студента суммируются и суммы сравниваются.

Приведение шкал стандартных величин к 11-балльной шкале оценок

Существующая в настоящее время пятибалльная шкала оценок (вернее, даже 4 балльная: неудовлетворительно, удовлетворительно, хорошо и отлично) чрезвычайно не дифференцирующая. Она порождает проблему полупроходных баллов на вступительных экзаменах, не позволяет определить самого лучшего из группы лучших и самого худшего из группы худших. Поэтому наблюдается тенденция к расширению шкалы оценок. В разд. 4.1 уже упоминалась 7-балльная шкала, легко перейти к 9-балльной. Мы предлагаем ввести в практику 11-балльную шкалу, хотя рекомендовать можно и 21-балльную, и 41-балльную и т.д. Однако шкалы, содержащие более 11 баллов, в отличие от 11-балльной шкалы, могут оказаться психологически неудобными и искусственно растянутыми. С нашей точки зрения, в настоящей ситуации, в которой находится педагогика, эта шкала является достаточно дифференцирующей, поскольку позволяет идентифицировать целых 11 групп учащихся вместо 5 при нынешней шкале оценок.

11-балльная шкала вытекает из шкалы логитов, получаемых по самой современной технологии обучения, основанной на латентном анализе. Оказалось, что уровень знаний в шкале логитов лежит в интервале от -6 до +6, что легко трансформируется в 11-балльную шкалу, как это представлено в таблице 4.2.

Таблица 4.2. Сравнение различных шкал оценки знаний обучаемых по результатам тестирования

Даже беглого взгляда на табл. 4.2 достаточно, чтобы оценить дифференцирующую способность 11-балльной шкалы по сравнению с ныне существующей 5-балльной, народному образованию, особенно высшей школе, давно пора переходить к более дифференцирующей шкале оценок.

Н.М. Олейник. Фрагмент из учебного пособия по спецкурсу: "Тест как инструмент измерения уровня знаний и трудности заданий в современной технологии обучения. Донецкий государственный университет".

Психодиагностика: конспект лекций Алексей Сергеевич Лучинин

2. Шкальные оценки

Шкальные оценки – способ оценки результата теста путем установления его места на специальной шкале. Шкала содержит данные о внутригрупповых нормах выполнения данной методики в выборке стандартизации. Так, индивидуальные результаты выполнения заданий (первичные оценки испытуемых) сравниваются с данными в сопоставимой нормативной группе (например, результат, достигнутый учеником, сравнивается с показателями детей того же возраста или года обучения; результат исследования общих способностей взрослого сопоставляется со статистически обработанными показателями репрезентативной выборки лиц в заданных возрастных пределах).

Шкальные оценки в этом смысле имеют четко определенное количественное содержание и могут быть использованы при статистическом анализе. Одной из распространенных в психологической диагностике форм оценки результата теста путем соотнесения с групповыми данными является расчет процентилей .

Процентиль – процентная доля индивидов из выборки стандартизации, результат которых ниже данного первичного показателя. Шкалу процентилей можно рассматривать как совокупность ранговых градаций (см. ранговая корреляция) при числе рангов 100 и отсчете от 1-го ранга, соответствующего самому низкому результату; 50-й процентиль (PSQ) соответствует медиане (см. меры центральной тенденции) распределения результатов, Р ›50 и Р ‹50 соответственно представляют ранги результатов выше и ниже среднего уровня результата.

Процентили не следует смешивать с обычными процентными показателями. Последние представляют собой долю правильных решений из общего количества заданий теста в индивидуальном результате (см. первичные оценки). Ранги Р, и Р 100 получают соответственно самый низкий и самый высокий результаты из наблюдавшихся в выборке, однако этим рангам могут соответствовать и далеко не нулевой (ни одного правильного решения) или абсолютный (все решения правильны) показатели (например, при общем количестве 120 заданий минимальный результат, соответствующий первому рангу, может составить 6 правильных решений, в то время как максимальный результат, соответствующий рангу Р 100 , будет составлять 95 правильно решенных заданий). Такая ситуация наблюдается, например, при оценке тестов скорости.

Основной недостаток процентильных шкал состоит в неравномерности единиц измерения. При нормальном распределении отдельные переменные тесно группируются в центре распределения и по мере удаления к краям рассеиваются. Поэтому равным частотам случаев вблизи центра соответствуют более короткие интервалы по оси абсцисс, расположенные по краям распределения оценок. Процентили показывают относительное положение каждого испытуемого в нормальной выборке, но не величину различий между результатами. Это создает некоторые неудобства в интерпретации индивидуальных результатов. Так, разница в первичных показателях, соответствующая интервалу Р 70 -Р 80 , может составить 10 баллов, а различие в количестве правильных решений в интервале рангов Р 50 -Р 60 – лишь 1–3 балла.

Вместе с тем процентильные оценки обладают и рядом достоинств. Они легкодоступны пониманию пользователей психодиагностической информацией, универсальны по отношению к различным типам методик и легко рассчитываются.

Процентильные оценки не относятся к типичным шкальным показателям. Более широкое распространение в психодиагностике получили стандартные показатели , рассчитываемые на основе линейного и нелинейного преобразования первичных показателей, распределенных по нормальному или близкому к нормальному закону. При таком расчете проводится г-преобразование оценок (см. стандартизация, нормальное распределение). Чтобы определить 2-стандартный показатель, определяют разность между индивидуальным первичным результатом и средним значением для нормальной группы, а затем делят эту разность на а нормативной выборки. Полученная таким образом шкала z имеет среднюю точку М = 0, отрицательные значения обозначают результаты ниже среднего и убывают по мере удаления от нулевой точки; положительные значения обозначают, соответственно, результаты выше среднего. Единица измерения (масштаб) в шкале z равна 1а стандартного (единичного) нормального распределения.

Для преобразования полученного при стандартизации распределения первичных нормативных результатов в стандартную z-шкалу необходимо исследовать вопрос о характере эмпирического распределения и степени его согласованности с нормальным. Поскольку для большинства случаев значения показателей в распределении умещаются в пределах М ± 3?, единицы измерения простой z-шкалы слишком велики. Для удобства оценивания применяется еще одно преобразование типа z = (x – ‹x›) / ?. Примером такой шкалы могут быть оценки тестовой батареи SAT(СЕЕВ) методики для оценки способности к обучению (см. тесты достижений). Эта r-шкала пересчитана таким образом, что средней точке соответствует значение 500, а? = 100. Другим аналогичным примером является шкала Векслера для отдельных субтестов (см. шкала измерения интеллекта Векслера, где М = 10, ? = 3).

Наряду с определением места индивидуального результата в стандартном распределении групповых данных введение ШО направлено и на достижение другой важнейшей цели – обеспечение сопоставимости количественных результатов различных тестов, выраженных в стандартных шкалах, возможности их совместных интерпретаций, сведение оценок к единой системе.

В случае, если оба распределения оценок в сравниваемых методиках близки к нормальному, вопрос о сопоставимости оценок решается довольно просто (в любом нормальном распределении интервалам М ± n? соответствует одинаковая частота случаев). Для обеспечения сопоставимости результатов, принадлежащих к рас-пределениям другой формы, применяются нелинейные преобразования , позволяющие придать распределению форму заданной теоретической кривой. В качестве такой кривой обычно используется нормальное распределение. Как и 160–150 в простом г-преобразовании, нормализованным стандартным показателям можно придать любую желаемую форму. К примеру, умножив такой нормализованный стандартный показатель на 10 и прибавив константу 50, получаем Т-показатель (см. стандартизация, миннесотский многоаспектный личностный опросник).

Примером нелинейно преобразованной в стандартную шкалу является и шкала станайнов (от англ. standart nine – «стандартная девятка»), где оценки принимают значения от 1 до 9, М = 5, ?=2.

Шкала станайнов получает все большее распространение, сочетая в себе достоинства стандартных шкальных показателей и простоту процентилей. Первичные показатели легко преобразуются в станайны. Для этого испытуемых ранжируют по возрастанию результатов и из них образуют группы с числом лиц, пропорциональным определенным частотам оценок в нормальном распределении тестовых результатов (табл. 14).

Таблица 14

Перевод первичных тестовых результатов в шкалу станайнов

При трансформации оценок в шкалу стэнов (от англ. standart ten – «стандартная десятка») проводится аналогичная процедура с той лишь разницей, что в основании этой шкалы лежат десять стандартных интервалов. Пусть в выборке стандартизации 200 человек, тогда по 8 (4 %) испытуемых, имеющих самые низкие и самые высокие оценки, будут отнесены к 1 и 9 станайнам соответственно. Процедура продолжается до заполнения всех интервалов шкалы. Соответствующие процентным градациям баллы по тесту, таким образом, будут упорядочены в шкалу, соответствующую стандартным частотам распределения результата.

Одной из наиболее распространенных форм шкальных оценок в тестах интеллекта является стандартный IQ-показатель (М = = 100, ? = 16). Эти параметры для стандартной шкалы оценок в психодиагностике выбраны в качестве эталонных. Существует довольно много шкал, опирающихся на стандартизацию; их оценки легко сводимы друг к другу. Шкалирование, в принципе, допустимо и желательно для широкого круга методик, применяемых в диагностических и исследовательских целях, в том числе и для методик, результаты которых выражены в качественных показателях. В этом случае для стандартизации можно использовать перевод номинативных шкал в ранговые (см. шкалы измерительные) или разработать дифференцированную систему количественных первичных оценок.

Следует отметить, что при всей простоте, наглядности шкальные показатели являются статистическими характеристиками, позволяющими лишь указать на место данного результата в выборке из множества аналогичных по характеру измерений. Шкальный показатель даже для традиционного психометрического инструмента является лишь одной из форм выражения показателей теста, используемых при интерпретации результатов обследования. Количественный анализ при этом должен всегда проводиться в комплексе с многосторонним качественным изучением причин возникновения данного тестового результата с учетом как комплекса сведений о личности испытуемого, так и данных о текущих условиях обследования, надежности и валидности методики. Гипертрофированные представления о возможности обоснованных заключений лишь по количественным оценкам приводили к многим ошибочным представлениям в теории и практике психологической диагностики.

Из книги Медицинская статистика автора Ольга Ивановна Жидкова

22. Методика групповой оценки физического развития. Акселерация Оценка физического развития коллектива производится путем анализа возрастных изменений средних величин их средних квадратических отклонений, годичных приростов показателей в различные возрастные

Из книги Пропедевтика детских болезней автора О. В. Осипова

8. Цент ильный метод оценки физического развития Учитывая наблюдающееся варьирование различных показателей физического развития ребенка, нужно знать так называемое нормальное, или гаусс-лапласовское, распределение. Характеристиками этого распределения являются

Из книги Общая гигиена автора Юрий Юрьевич Елисеев

50. Методы оценки физического развития детей и подростков Метод сигмальных отклоненийПоказатели развития индивидуума сравниваются со средними показателями, характерными для соответствующей возрастно-половой группы, разница между ними выражается в долях

Из книги Общая гигиена: конспект лекций автора Юрий Юрьевич Елисеев

51. Методы оценки физического развития детей и подростков (продолжение) На втором этапе определяют морфофункциональ-ное состояние по показателям массы тела, окружности груди в дыхательной паузе, мышечной силе кистей рук и жизненной емкости легких (ЖЕЛ). В качестве

Из книги Пропедевтика детских болезней: конспект лекций автора О. В. Осипова

ЛЕКЦИЯ № 14. Физическое развитие детей и подростков, методы их оценки Показатели физического развития Для полного представления о состоянии здоровья подрастающего поколения, кроме заболеваемости, демографических данных, необходимо еще изучение ведущего критерия

Из книги Развитие базовых познавательных функций с помощью адаптивно-игровых занятий автора Ирина Константинова

Методы оценки физического развития детей и подростков При разработке и выборе методов оценки физического развития необходимо прежде всего учитывать основные закономерности физического развития растущего организма:1) гетероморфность и гетерохронность развития;2)

Из книги Стройность с детства: как подарить своему ребенку красивую фигуру автора Аман Атилов

5. Показатели физического развития детей. Центильный метод оценки физического развития Учитывая наблюдающееся варьирование различных показателей физического развития ребенка, нужно знать так называемое нормальное, или гаусс-лапласовское, распределение.

Из книги Ваш ребенок от рождения до 6 лет. Выявление отклонений в развитии и их коррекция. Книга, необходимая в каждой семье автора Леонид Ростиславович Биттерлих

Способы оценки результативности работы В работе с детьми, имеющими тяжелые нарушения развития, используется качественный анализ нарушений и происходящей динамики. Так, например, для специалиста не столько важно количество освоенных ребенком слов, сколько его умение

Из книги Формирование здоровья детей в дошкольных учреждениях автора Александр Георгиевич Швецов

Критерии оценки гибкости Для определения эффективности учебно-тренировочного процесса необходимо использовать критерии оценки гибкости с учетом ее разновидностей и проявлений. Каждому проявлению гибкости должны соответствовать определенные критерии оценки.

Из книги Психотерапия семейно-сексуальных дисгармоний автора Станислав Кратохвил

Способы оценки правильного развития недоношенного ребенка и близнецов Вы можете использовать два нижеприведенных способа для того, чтобы проверить, отстает ли ваш недоношенный ребенок в развитии от доношенного ребенка так, как это ему положено в норме, или имеется

Из книги Энциклопедия Амосова. Алгоритм здоровья автора Николай Михайлович Амосов

Методика оценки физического развития детей В настоящее время наиболее распространенным способом оценки физического развития является метод взаимосвязи антропометрических признаков (по шкалам регрессии), которые обеспечивают гармоничность, пропорциональность их

Из книги Диетология: Руководство автора Коллектив авторов

Из книги Мой инсульт был мне наукой. История собственной болезни, рассказанная нейробиологом автора Джилл Болти Тейлор

Экспертные оценки психики В социологических опросах через газеты в 1990 г. я попробовал получить модель личности конкретного респондента. Для этого ему задавались вопросы с градуальными вариантами ответов. Они позволяли определить точки на моделях: притязания, плату,

Из книги автора

Комплексные методы оценки нутриционного статуса Как следует из вышеизложенного, не существует отдельных маркеров, которые позволяют выявить наличие и степень белково-энергетической недостаточности. По рекомендациям Европейского общества парентерального и

Из книги автора

Приложение А Десять вопросов для оценки моего состояния 1. Проверили ли вы мое зрение и слух, чтобы убедиться, что я не перестала слышать и видеть?2. Различаю ли я цвета?3. Вижу ли я мир трехмерным?4. Есть ли у меня хоть какое-то чувство времени?5. Все ли части своего тела я

1. Необходимость тестовых норм

Любые тестовые заключения при использовании статистических тестовых норм являются относительными. Они зависят от той выборки, на которой производилась стандартизация теста. То, насколько выборка стандартизации позволяет применить тест на широкой популяции, называется репрезентативностью тестовых норм. (Популяция – категория испытуемых определенной социальной, профессиональной или половозрастной принадлежности.) Норма теста – средний диапазон значений на шкале измеряемого свойства характерный для испытуемых определенной группы. Их меняют каждые 5 лет.

Репрезентативность (от фр. – показательный) тестовых норм – свойство выборочной совокупности представлять генеральную совокупность.

Репрезентативность означает, что с некоторой наперед заданной или определенной статистической погрешностью можно считать, что представление в выборочной совокупности распределение изучаемых признаков соответствует их реальному распределению. Ошибка репрезентативности – различие характеристик выборки и генеральной совокупности.

Выборка, на которой определяется статистические тестовые нормы, называется выборкой стандартизации. Ее численность, как правило, не меньше 200 человек.

2. Определение норм для теста

На этапе создания теста формируется некоторая группа испытуемых, на которой проводится данный тест. Средний результат выполнения этого теста в данной группе принято считать нормой. Средний результат – это не единственное число, а диапазон значений (см. рис. 1: зона средних значений – 43, 44, 45 баллов). Существуют определенные правила формирования такой группы испытуемых, или, как ее иначе называют, выборки стандартизации.

Правила формирования выборки стандартизации:

· выборка стандартизации должна состоять из респондентов, на которых в принципе ориентирован данный тест, то есть если создаваемый тест ориентирован на детей (например, тест Амтхауэра), то и стандартизация должна происходить на детях заданного возраста;

· выборка стандартизации должна быть репрезентативной, то есть представлять собой уменьшенную модель популяции по таким параметрам, как возраст, пол, профессия, географическое распределение и т.д. Под популяцией понимается, например, группа дошкольников 6-7 лет, руководителей, подростков и т.д.

Распределение результатов, полученных при тестировании испытуемых выборки стандартизации, можно изобразить с помощью графика – кривой нормального распределения. Этот график показывает, какие значения первичных показателей входят в зону средних значений (в зону нормы), а какие выше и ниже нормы. Например, на рис.1 изображена кривая нормального распределения для теста "Прогрессивные матрицы Равена".

Чаще всего в руководствах к тому или иному тесту можно встретить выражения нормы не в виде сырых баллов, а в виде стандартных производных показателей. То есть нормы к данному тесту могут быть выражены в виде Т-баллов, децилей, процентилей, станайнов, стандартных IQ и др. Перевод сырых значений (первичных показателей) в стандартные (производные) делается для того, чтобы результаты, полученные по разным тестам, можно было сравнивать между собой.

Производные показатели получаются путем математической обработки первичных показателей.

Первичные показатели по разным тестам нельзя сравнивать между собой по причине того, что тесты имеют различное внутреннее строение. Например, IQ, полученный с помощью теста Векслера, нельзя сравнивать с IQ, полученным с помощью теста Амтхауэра, так как эти тесты исследуют разные особенности интеллекта и IQ как суммарный показатель по субтестам складывается из показателей разных по строению и содержанию субтестов.

"Любая норма, в чем бы она ни выражалась, ограничивается конкретной совокупностью людей, для которых она вырабатывалась... Применительно к психологическим тестам они (нормы) никоим образом не абсолютны, не универсальны и не постоянны. Они просто выражают выполнение теста испытуемыми из выборки стандартизации"

А.Анастази

3. Проблемы репрезентативности тестовых норм

В репрезентативности тестовых норм рассматривают следующие проблемы:

1. Стандартизация шкалы.

2. Статистическая природа тестовых шкал. Как повысить долю постоянного компонента и сократить долю случайного в величине суммарного балла по шкале теста.

3. Проблема меры в психометрике. В дифференциальной психометрике отсутствуют физические эталоны: мы не располагаем индивидами, которые были бы постоянными носителями заданной величины измеряемого свойства. Роль косвенных эталонов в психометрике выполняют сами тесты.

4. Оценка типа распределения тестовых баллов и проверка устойчивости распределения. Используют следующие параметры: среднее арифметическое, среднее квадратическое (стандартное) отклонение, асимметрия, эксцесс, общее неравенство Чебышева, критерий Колмогорова. Общая логика проверки устойчивости распределения основывается на индуктивном рассуждении: если «половинное» (полученное на половине выборки) распределение хорошо моделирует конфигурацию целого распределения, то можно предположить, что это целое распределение будет хорошо моделировать распределение генеральной совокупности.

Доказательство устойчивости распределения означает доказательство репрезентативности норм. Традиционный способ доказательства устойчивости сводится к выяснению хорошего приближения эмпирического распределения к какому-либо теоретическому (например, нормальному распределению, хотя может быть и любое другое).

5. Тестовые эталоны (или тестовые нормы).

5.1. Сама сырая шкала может иметь практический смысл.

5.2. Стандартизированные шкалы: Шкала IQ, Т-шкала, шкала стэнайнов (стандартная девятка), шкала стэнов.

5.З. Процентильная шкала. Процентиль – процент испытуемых из выборки стандартизации, которые получили равный или более низкий балл, чем балл данного испытуемого. Процентили указывают на относительное положение индивида в выборке стандартизации. Их можно рассматривать как ранговые градации, общее число которых равно ста, только (в отличие от ранжирования) отсчет ведется снизу. Поэтому чем ниже процентиль, тем хуже позиция индивида. Процентили отличаются от процентных показателей. Процентные показатели фиксируют качество выполненных заданий. Процентиль – это производный показатель, указывающий на долю от общего числа членов группы.

5.4. Критериальные нормы. В качестве эталона используется целевой критерий. Высокую эффективность показывают узкоспециализированные диагностические методики, нацеленные на очень конкретные и узкие критерии. Хорошо зарекомендовали в сфере образования (тесты достижений и КОТ).

5.5. Социально-психологический норматив.

Независим от результатов испытаний и объективно задан. СПН реализуется в совокупности заданий, составляющих тест. Следовательно, сам тест в полном его объеме и является таким нормативом. Для анализа данных относительно их близости к СПН, рассматривается как 100% -ое выполнение теста, испытуемые делятся на 5 подгрупп. Для каждой из подгрупп подсчитывается средний процент правильно выполнивших задания.

10% – наиболее успешные, 20% – близкие к успешным, 40% – средние,

20% – мало успешные, 10% – наименее успешные.

4. Стандартизация теста.

Стандартизация – это единообразие процедуры проведения и оценки выполнения теста. Стандартизация как выработка единых требований к процедуре эксперимента и как определение единого критерия оценки результатов диагностических испытаний.

· В первом случае (см. письменную лекцию ), стандартизация процедуры эксперимента подразумевает регламентацию процедуры, унификацию инструкций, бланков обследованияспособов регистрации результатов, условий проведения обследования, характеристика контингентов испытуемых (указывается область применения теста). К числу требований, которые необходимо соблюдать при проведении эксперимента относятся такие: инструкции следует сообщать испытуемым одинаковым образом, как правило, письменно; в случае устных указаний они даются в разных группах одними и теми же словами, понятными для всех, в одинаковой манере; ни одному испытуемому не следует давать никаких преимуществ перед другими; в процессе эксперимента не давать отдельным испытуемым дополнительные пояснения; эксперимент с разными группами следует проводить в одинаковое, по возможности, время дня, в сходных условиях; временные ограничения в выполнении заданий для всех испытуемых должны быть одинаковыми.

Обычно авторы методики в руководстве приводят точные и подробные указания по процедуре ее проведения. Формулирование таких указаний составляет основную часть стандартизации новой методики, т.к. только строгое и соблюдение дает возможность сравнить между собой показатели, полученные разными испытуемыми.

· Во втором случае под стандартизацией понимается преобразование нормальной (или искусственно нормализованной) шкалы оценок в новую шкалу, основанную уже не на количественных эмпирических значениях изучаемого показателя, а на оценке его относительного места в распределении результатов в выборке испытуемых.

Первоначальный суммарный балл, подсчитанный с помощью ключа, не является показателем, который можно диагностически интерпретировать. Его называют «сырым тестовым баллом». Для применения тестовых норм необходимо перевести тестовые баллы из «сырой» шкалы в «стандартную». Эта процедура называется «стандартизация тестового балла».

При простейшей линейной стандартизации сначала высчитывается –

Z-показатель (стандартный балл по стандартной шкале Z).

Z = ------------;

где Z (с центром 0 и отклонением 1), Х – сырой балл по тесту, X 1 – средний балл по выборке стандартизации, Sx (о) – стандартное отклонение по выборке стандартизации.

После получения стандартного балла Z можно перевести тестовый балл в любую стандартную тестовую шкалу, принятую в психодиагностике.

Например, перевод в шкалу IQ, производится по формуле:

IQ = 100 + 15* (X−X 1 / σ)

В шкале IQ центр равен 100, а отклонение равно 15.

Если перевод требуемся в шкалу «стенов» (от англ. «standart ten» – стандартная десятка), то формула пересчета из шкалы Z выглядит так:

S = 5,5 + (X−X 1 / σ)

В шкале стенов центр равен 5.5, а отклонение равно 2.

Т-шкала Маккола (MMPI) (центр равен 50, отклонение равно 10):

T = 50 + 10 * (X−X 1 / σ)

Для серьезных профессиональных тестов вместо простейшей линейной стандартизации используется более сложная процедура нелинейной нормализации (форсированный переход к нормальному распределению).

В результате этой, более точной процедуры разработчики снабжают пользователей теста конверсионной таблицей для перевода сырых баллов в стандартные баллы по заданной шкале. В ней приводится полный перечень соответствий между интервалами сырой шкалы и интервалами стандартной.

Таким образом, благодаря стандартизации методики достигается сопоставимость полученных результатов у разных испытуемых, появляется возможность выражения тестовых оценок в относительных к выборке стандартизации показателях, сопоставления таких оценок в разных тестовых методиках.

Что, несомненно, должен знать и уметь делать каждый грамотный пользователь теста – это понимать, что такое тестовые нормы и как ими пользоваться.

Первоначальный суммарный балл, подсчитанный с помощью ключа, не является показателем, который можно диагностически интерпретировать. Его называют в тестологии “сырым тестовым баллом”. Применение тестовых норм в профессионально организованной психодиагностике основывается на переводе тестовых баллов из “сырой” шкалы в “стандартную”. Эта процедура называется “стандартизацией тестового балла”.

Пусть мы провели тест из 20 заданий и испытуемый дал 12 правильных ответов. Можно ли при этом сказать, что способность у испытуемого выражена лучше или хуже, чем в среднем? Нет. Для такого вывода нужно сравнить балл 12 со средним баллом по представительной выборке испытуемых.

Выборка, на которой определяются статистические тестовые нормы, называется выборкой стандартизации . Ее численность, как правило, не меньше 200 человек. Столько людей должно принять участие в психометрическом эксперименте по определению тестовых норм – в эксперименте по стандартизации теста.

Если после стандартизации теста выясняется, к примеру, что среднее арифметическое по сырой шкале теста равно 14, то оказывается балл 12 – это не лучше, а хуже среднего (хотя испытуемый и справился больше чем с половиной заданий). Просто в данном случае тест содержит слишком простые задания, несколько отклоняясь по этому параметру от оптимальной трудности.

Простейшая линейная стандартизация тестового балла производится по формуле

где Z – стандартный балл на так называемой стандартной шкале Z (с центром 0 и отклонением 1);

Х – сырой балл по тесту;

– средний балл по выборке стандартизации,

Sх – стандартное отклонение по выборке стандартизации.

После получения стандартного балла Z можно перевести тестовый балл в любую стандартную тестовую шкалу, принятую в психодиагностике. Например, перевод в шкалу IQ производится по формуле

Напомним, что в шкале IQ центр равен 100, а отклонение – 15.

Если перевод требуется в так называемую шкалу “стенов” (от англ. “ standart ten” – стандартная десятка), то формула пересчета из шкалы Z выглядит так:

Sten = Z..2 +5,5,

так как в шкале стенов центр равен 5,5, а отклонение равно 2.

Обобщенная формула перевода сырого балла в заданную стандартную шкалу имеет вид:

Y = S s ×Z+M, (7)

где Y – стандартный балл, по произвольной шкале, с центром М и отклонением Ss.

Для серьезных профессиональных тестов вместо описанной здесь простейшей линейной стандартизации используется более сложная процедура нелинейной нормализации (форсированный переход к нормальному распределению). В результате этой, более точной процедуры разработчики снабжают пользователей теста так называемой конверсионной таблицей для перевода сырых баллов в стандартные баллы по заданной шкале. В ней приводится полный перечень соответствий между интервалами сырой шкалы и стандартной.

Ниже приведен пример того, как может выглядеть конверсионная таблица для некоторого теста арифметических вычислений из 30 заданий. Простейшая процедура подсчета баллов (за правильный ответ – 1 очко, за ошибку –0) дает нам сырую шкалу от 0 до 30.

Таблица 1

Пример фрагмента конверсионной таблицы
для перевода сырых баллов в стены

Сырой балл

Как пользовались таблицей? Если испытуемый показал 5 сырых очков (решил только 5 заданий), то ему ставится минимальный стандартный балл 1. Если испытуемый решил 25 заданий, то получает балл 9.

После того, как балл по тесту стандартизирован, можно выносить диагностическое заключение. Общее правило здесь таково: если стандартный балл Y превышает единицу “верхней” (или “высокой”) группы M+Ss, то данному испытуемому приписывается повышенное значение измеренного психического свойства. Например, про ученика говорят, что он является определенно более дисциплинированным, чем средний ученик в российской школе (или московской, или иркутской – в зависимости от того, на какой выборке стандартизации получены нормы). Если же стандартный балл Y ниже границы “нижней” (“низкой”) группы M-Ss, то о данном испытуемом формулируется заключение, соответствующее низкому полюсу измеряемого свойства. Если стандартный тестовый балл Y заключен в пределах центрального интервала (M-Ss, M+Ss), то про испытуемого говорят, что у него измеренное свойство выражено в средней степени – как у большинства людей.

На шкале стенов граница “верхней” группы равна 7,5, а “нижней” – 3,5, то есть при получении 8 стенов и больше испытуемый зачисляется в “верхнюю” группу, а при получении 3 стенов и меньше – в “нижнюю”.

Если мы имеем дело с биполярным (двухполюсным) психическим свойством, например, “гибкость – ригидность”, то для “высокой” группы формулируется заключение как для “гибких” людей, а для “низкой” группы – как для ригидных людей. Соответственно средняя группа из центрального интервала признается нейтральной, неполяризованной по данному тестовому параметру.

Любые тестовые заключения при использовании статистических тестовых норм являются относительными. Они зависят от той выборки, на которой производилась стандартизация теста. То, насколько выборка стандартизации позволяет применять тест на широкой популяции, называется репрезентативностью тестовых норм. Репрезентативность – третье важнейшее психометрическое свойство теста. Понимание смысла этого требования к тесту помогает правильно учитывать ограничения в сфере его применения.

Например, если тест проходил стандартизацию на студентах, то перед его применением на школьниках следует вначале произвести рестандартизацию , то есть снова собрать тестовые нормы на представительной выборке, сформированной именно из школьников. В противном случае диагностические выводы, произведенные по неадекватным тестовым нормам, будут неточны и неверны.

Проверка репрезентативности тестовых норм осуществляется с помощью анализа так называемого распределения частот тестовых баллов. Одним из простейших методов является проверка нормальности этого распределения. Более сложный и универсальный подход предполагает сравнение двух распределений, построенных для двух случайных половин выборки стандартизации. Если эти два распределения оказываются практически тождественными, то можно говорить о репрезентативности тестовых норм.

Введение понятия репрезентативности позволяет нам дать более строгое определение того, что такое стандартизация теста. О стандартизации теста в строгом смысле можно говорить, когда задана полная таблица соответствия сырой шкалы и стандартной шкалы и содержание этой таблицы обосновано статистической структурой распределения тестовых баллов на выборке стандартизации.

Кроме статистических тестовых норм в современных тестах часто используются критериальные нормы . Они особенно важны для сферы образования. Действительно, что дает нам знание о том, что Петров выполнил тест лучше среднего испытуемого, если средний испытуемый тоже не справился с большинством заданий? Мы прогнозируем, что подавляюще большинство испытуемых без специального дополнительного обучения не смогут показать требуемого уровня эффективности в будущей деятельности.

При построении так называемого “теста по критерию” шкала сырых тестовых баллов калибруется особыми реперными точками, которые соответствуют уровням рассчитанной вероятности достижения какого-то критерия (заданной эффективности деятельности). Например, если оператор АЭС был точен в 45 из 48 процентов заданий, то это может еще и не соответствовать требуемому уровню критериальной “надежности оператора” (в данном случае “надежность” – измеряемое свойство), а вот если он был точен в 47 из 48 заданий, то это может считаться достаточным уровнем “надежности”. Таким образом, при построении диагностических заключений по критериальным тестам мы интересуемся не степенью отклонения балла от центра шкалы, а достижением или недостижением какого-то критического уровня на шкале.