ВАЛИДНОСТЬ

Мы не так уж часто имеем возможность непосредственно измерить понятия, используемые в социологических теориях. Такие понятия, как власть, демократия и представительство, не так просто представить количественно, [c.99] как понятия типа длины и веса. Нам приходится пользоваться показателями, лишь косвенно соответствующими понятиям, которые они представляют. А в таком случае всегда существует опасность, что выбранные показатели будут неадекватно отражать понятия, которые мы хотим с их помощью измерять. Для обозначения степени соответствия измерений понятиям, которые эти измерения должны отражать, используется термин валидность. Интересоваться валидностью измерения – то же самое, что интересоваться, действительно ли с помощью данного измерения мы измеряем то, что предполагали измерять. Обеспечение валидности часто считается основной проблемой, связанной с измерением в социальных науках.

Чтобы быть валидным, измерение должно быть исчерпывающим и полным. Если, например, мы сравниваем качество коммунальных служб в разных городах, у нас может возникнуть искушение считать показателем качества системы образования количество преподавателей в школах. Это – неуместное измерение, поскольку количество работающих в системе школьного образования в значительной степени определяется количеством учащихся и размерами города и может иметь мало общего с качеством образования. Если за показатель качества системы образования принять отношение количества учащихся к количеству учителей, мы получим более уместное измерение, так что различия, вызванные размерами города, уменьшатся или вообще исчезнут. Тем не менее измерение все еще останется недостаточным. Образование – это не только преподаватели. Образование – это также школьные задания, фильмы, книги, учебные пособия и множество других факторов. Рассмотрение каждого из этих факторов в отрыве от остальных может создать неверное впечатление о качестве системы образования. Система школьного образования может иметь в высшей степени благоприятное соотношение учащихся и преподавателей, однако недостаточное количество средств обучения и учебных материалов. Было бы ошибкой утверждать, что эта система школьного образования не отличается от системы с таким же соотношением учащихся и преподавателей и прекрасными средствами обучения и учебными материалами. Если мы стремимся к валидности, мы должны [c.100] попытаться выбрать такие измерения, которые были бы и уместными и полными.

В этой ситуации возникает два вопроса: как осуществить исчерпывающие, полные и уместные измерения и как убедиться в том, что нам удалось это сделать.

Ответ на первый вопрос начинается с процесса операционализации. Мы можем определить валидность как степень, в которой различия оценок измерения отражают только различия в распределении значений переменной, которую мы собираемся измерять. Так как мы, вероятно, никогда не сможем достичь полной и всеобщей валидности, наша цель должна заключаться в выборе измерений, которые были бы минимально чувствительны к воздействию всех иных различий, кроме различий, обусловленных интересующей нас переменной. Для этого необходимо внимательно рассмотреть все процессы, связанные с нашими измерениями, для обнаружения возможных причин различий в оценках. На этом этапе мы должны быть особенно внимательны, чтобы застраховаться от влияния систематических ошибок.

Рассмотрим такой пример. Возможно, нам понадобится измерить, в какой степени граждане разных государств согласны с политикой своих правительств. Мы решаем использовать в качестве показателя согласия или несогласия ответы на ряд специально подготовленных вопросов. Мы считаем, что единственным источником различий в ответах на вопросы являются различия мнений. Однако минутное размышление наводит на мысль о другом возможном источнике вариаций. Если среди исследуемых нами государств есть государства с авторитарным правительством, прибегающим к услугам секретной полиции для подавления инакомыслия и рассматривающим любую критику своей политики как акт государственной измены, граждане этих государств, вполне возможно, побоятся высказывать в интервью несогласие со своим правительством. В этом случае оценки, полученные для нашего измерения, могут по крайней мере в той же степени определяться отношением правительства данного государства к несогласным, в какой – мнением интервьюируемых, Поскольку вероятность ошибки измерения такого рода очень высока, подготовленные вопросы оказываются неподходящей операционализацией. [c.101]

Сходным образом в самом начале процесса исследования мы должны позаботиться о полноте. Если мы хотим измерить относительное влияние различных групп интересов в законодательном собрании штата, можно подумать об использовании в качестве показателя газетных сообщений о выступлениях этих групп перед законодательными комиссиями. Однако следует спросить себя, сводится ли политическое влияние к произнесению клятвенных заверений на публичных заседаниях. Эта деятельность законно считается частью процесса влияния, однако существует так много других средств оказания влияния, что измерение, опирающееся исключительно на произнесение заверений как показатель влияния, оказывается неполным.

Таким образом, получение уместных и относительно полных операционализаций зависит как от хорошего знания объекта нашего исследования, так и от осуществления тщательного логического анализа альтернативных операционализаций. Однако проверить валидность наших измерений для определения того, хороши ли они, можно лишь после того, как собраны данные. Процесс оценки валидности измерений называется валидизацией.

Имеется четыре основных подхода к валидизации. Первый часто называется прагматической валидизацией, поскольку валидность измерения оценивается на основе данных о том, насколько хорошо оно позволяет предсказывать поступки и события. Например, мы разрабатываем измерение для определения пригодности кандидатов на общественную должность, с точки зрения избирателей. Некоторый показатель валидности этого измерения можно получить, применив его ко всем кандидатам в сенат США в данном избирательном году и предсказав их шансы быть выбранными на основе сравнительных оценок по шкале привлекательности для избирателей. Чем более успешно мы предскажем результаты выборов для всех кандидатов, тем сильнее наша уверенность в валидности измерения, в том, что оно точно отражает понятие, которое мы имеем в виду. Принято говорить, что измерения, позволяющие предсказать будущие события, обладают прогностической валидностью,

Прагматическая валидизация требует наличия у переменных некоторого альтернативного показателя, [c.102] который, по нашему убеждению, является их валидным отражением. Мы проверяем наши измерения по этому альтернативному показателю, как могли бы проверять точность сообщения о возрасте по свидетельству о рождении. К сожалению, для понятий, используемых в социологических исследованиях, редко встречаются явно валидные альтернативные показатели. В итоге нам обычно приходится рассчитывать на валидизацию второго типа – конструктную валидизацию.

Конструктную валидизацию осуществляют, выводя валидность измерения из данных о степени соответствия реальных соотношений между оценками по различным измерениям ожиданий, следующих из теории, предписывающей нам использовать данный показатель. При этом рассуждение ведется по двум направлениям.

Прежде всего, мы должны сказать себе: “Если понятие Х положительно связано с понятием Y и отрицательно – с понятием Z (как и предсказывает наша теория), верно будет также и то, что оценки понятия Х в валидном измерении будут положительно связаны с оценками понятия Y в валидном измерении и отрицательно – с оценками понятия Z в валидном измерении”. Мы не можем валидизировать измерение, сравнивая оценки в этом измерении с оценками той же переменной в другом измерении, которое, как мы знаем, является валидным (как в случае свидетельства о рождении). Однако мы можем судить о его валидности по тому, в какой степени использование данного измерения в качестве показателя переменной создает те же типы отношений между данной переменной и другими переменными, которые мы ожидаем в соответствии с нашей теорией.

В качестве примера возьмем изучение международных сообществ. Мы могли бы построить измерение надежности такого союза на основе контент-анализа газетных публикаций соответствующих стран. Является ли валидным показателем надежности сообщества двух стран то. что газеты данного государства пишут о другом государстве? Мы могли бы ответить на этот вопрос, рассуждая следующим образом: “В соответствии с нашей теорией, чем надежнее сообщество государств, тем чаще они будут одинаково голосовать в ООН и тем меньше ограничений на взаимную торговлю они будут накладывать. Поэтому оценки [c.103] надежности сообщества в валидном измерении будут положительно связаны с оценками в измерениях одинакового голосования в ООН и отрицательно связаны с оценками в измерениях количества торговых ограничений. Затем мы переходим к анализу данных, необходимому для установления того, подтверждается ли это ожидание нашими наблюдениями. Если соотношения окажутся такими, как ожидалось, наша уверенность в валидности измерения надежности сообщества будет выше. Если соотношения будут иными, чем мы ожидали, мы зададимся вопросом, надежным ли измерением для этого понятия мы располагаем”.

То, что мы только что описали, часто называют внешней валидизацией При этом осуществляется сравнение оценок в измерении, подвергающемся валидизации, с оценками в измерениях для других переменных. Разумеется, для использования этого метода валидизации нам придется включить в наше исследование измерения других переменных. Это означает, что нем следует обдумывать способы валидизации наших измерений уже на ранних этапах процесса исследования. Безусловно, к тому моменту, когда мы будем готовы разрабатывать план исследования, мы должны знать, как будет проверяться валидность наших измерений, для того чтобы наверняка собрать всю необходимую информацию.

Попытки внешней валидизации дадут убедительные доказательства валидности нашего измерения для одной переменной лишь в том случае, если мы будем убеждены в валидности измерений, используемых для остальных переменных. Так, в последнем примере мы не смогли бы сделать никаких выводов относительно валидности измерения надежности сообщества на основе соотношений оценок в данном измерении и оценок двух других переменных, если бы мы не считали показатели одинакового голосования и торговых ограничений валидными. Поскольку часто бывает трудно обнаружить безусловно валидные показатели для переменных, с которыми должна быть связана ключевая переменная, процедуры внешней валидизации следует применять с осторожностью. Все это очень напоминает процедуру проверки гипотезы. Никакой отдельно взятый результат не гарантирует валидности (или невалидности) измерения. Скорее, по мере накопления случаев успешной валидизации наша уверенность [c.104] в валидности измерения возрастает. По этой причине для использования во внешней валидизации разумно искать как можно больше предсказанных теорией отношений. Чем больше имеется в нашем распоряжении разных способов проверки валидности, тем надежнее наш результат.

Та же самая логика рассуждений применима ко второму типу конструктной валидизации – внутренней, или конвергентной, валидизции. Этот тип валидизации включает разработку нескольких измерений для одной и той же переменной и сравнение между собой этих разных измерений. Мы считаем, что, если каждый из показателей дает для рассматриваемого понятия валидное измерение, оценки, получаемые конкретными объектами в этих измерениях, должны быть тесно связаны. Если и А, и В, и С являются валидными измерениями для Х, то оценки любого конкретного объекта в измерениях А, В и С должны быть очень близки.

Предположим, например, что мы хотим получить показатель для качества уличного освещения в окрестностях жилья в рамках изучения работы коммунальных служб. Мы могли бы использовать в качестве такого показателя оценку достаточности уличного освещения, по мнению жителей (выявляется с помощью выборочных интервью). Мы можем выборочно опросить живущих по соседству людей, насколько хорошо, по их мнению, освещена улица около их дома, и взять среднюю оценку за меру качества уличного освещения. Чтобы осуществить внутреннюю валидизацию, мы можем измерить качество уличного освещения также: 1) использовав световой счетчик для получения физической меры яркости и распределения освещения; 2) получив оценки освещенности, сделанные специально обученными наблюдателями; 3) попросив жителей сравнить освещение на улицах с освещением на фотографиях, изображающих улицы, освещенные в разной степени, и усреднив их оценки для получения значения освещенности окрестностей их домов. Таким образом, мы получаем четыре измерения переменной. Если каждое из них является валидным, все они должны быть тесно связаны. Можно проверить это с помощью соответствующих статистических расчетов. Если мы обнаружим, что оценки измерения, в основе которого лежат ответы на вопросы интервью, слабо связаны с оценками остальных трех измерений и что при этом оценки этих трех измерений тесно [c.105] связаны друг с другом, у нас будет основание подозревать, что первое измерение невалидно.

Это очень похоже на взвешивание одного и того же предмета на трех разных весах. Если каждые весы показывают точный вес и у нас нет оснований считать, что в ходе эксперимента вес объекта изменился, мы вправе ожидать, что все эти весы покажут один и тот же вес. Если еще одни весы показывают вес, отличный от данного, можно подозревать, что они не отрегулированы.

На рис.3.5 изображены различия между внутренней и внешней формами конструктной валидизации. Рис.3.5а показывает, что внутренняя валидизация осуществляется через проверку соответствия оценок нескольких разных измерений для одного и того же понятия. Чем точнее это соответствие, тем увереннее мы себя чувствуем, утверждая, что каждое измерение валидно. Рис. 3.5б демонстрирует, что для внешней валидизации требуется установить, как наше измерение одной переменной связано с другими переменными, согласно теоретическим представлениям. Если ожидаемое отношение не проявляется, мы вправе подозревать, что выбранный нами показатель не обеспечивает валидного измерения для понятия. (В гл.14 мы обсудим статистические расчеты, которые можно использовать для определения степени реальной связанности разных измерений.)

Пользуясь внутренней валидизацией, необходимо соблюдать те же предосторожности, которые требуются при внешней валидизации. Мы не всегда можем быть уверены, что наши альтернативные измерения ключевого понятия валидны, и поэтому мы должны с осторожностью делать вывод о валидности или невалидности измерения [c.106] на основании любой проверки валидизации. Наша уверенность в результатах внутренней валидизации может существенно возрасти, если мы последуем простому правилу: альтернативные измерения понятия должны основываться на возможно большем числе различных операционализаций.

В примере с уличным освещением измерения имеют в качестве источника четыре разных типа операционализаций: словесные оценки жителей, физические измерения, оценки наблюдателей и отбор фотографий, произведенный жителями. Каждый из них представляет особый способ операционализации. Чем больше разных способов мы можем использовать и чем более они взаимонезависимы, тем больше мы можем доверять нашей валидизации. Почему? Логика рассуждения здесь такова. Основной источник невалидности – это систематические и случайные ошибки измерения. Разные измерения подвержены ошибкам разных типов. Чем больше показателей для некоторой переменной у нас имеется и чем сильнее они отличаются друг от друга, тем менее вероятно, что во всех показателях проявится одна и та же ошибка измерения. А если это так, то у нас будет больше возможностей обнаружить ошибку измерения как источник различий в оценках в любом измерении и получить точное измерение для переменной в том случае, если мы будем использовать множественные показатели7.

Например, факторы, способные сделать непригодным физическое измерение качества уличного освещения (такие, как неисправный световой счетчик), по-видимому, совершенно не связаны ни с какими факторами, которые могли бы внести систематические ошибки в измерение, основанное на оценках жителей (такими, как характерная для людей тенденция считать, основываясь на чувстве местного патриотизма, что их коммунальные службы не хуже, чем в других местах). Если мы используем только один способ измерения, любой источник ошибок измерения может сказаться на оценках в каждом измерении, постоянно предоставляя нам негодный показатель и не давая возможности осуществлять значимые сравнения между измерениями. Если, например, мы опираемся только на физическое измерение освещенности, но снимаем показания несколькими разными способами (на [c.107] тротуаре, на краю тротуара и на мостовой), любой дефект измерительного инструмента (в данном случае светового счетчика) будет оказывать влияние на все измерения и ни одно нельзя будет использовать для проверки другого.

При таком подходе множественные показатели для переменных имеют очень большое значение. Наличие множественных измерений не только дает нам возможность проверить валидность наших показателей, но также в первую очередь увеличивает наши шансы получить валидное измерение переменных. Множественные измерения могут на самом деле повысить валидность измерения, позволяя скомбинировать результаты нескольких разных процедур для получения сложной оценки, которая скорее будет являться правильным отражением действительного значения переменной, чем каждое из измерений, взятое в отдельности. Такая сложная оценка с большей вероятностью будет представлять собой валидное измерение, так как не исключено, что при объединении результатов нескольких процедур измерения ошибки, приводящие к невалидности каждого измерения, нейтрализуются.

Здесь действует практически тот же принцип, что и при взвешивании предмета на многих разных весах. Поскольку весы несовершенны, каждый прибор может показать несколько иное значение веса – чуть тяжелее или чуть легче. Однако если предмет взвешивается на нескольких весах, в соответствии с законами теории вероятности достаточно высока вероятность того, что эти небольшие ошибки нейтрализуют друг друга, давая средний вес, который является правильным. Сходным образом, если мы операционализируем понятия несколькими разными способами, так что ошибка измерения, связанная с каждой операционализацией, не зависит от ошибок, сопровождающих все остальные операционализации, мы получаем хорошие шансы обеспечить точное измерение понятия, комбинируя разные оценки. (В разделах гл.8, посвященных шкалированию и индексированию, будут описаны некоторые возможные методы комбинирования оценок для получения составного измерения.)

Третий способ валидизации называется дискриминантной валидизацией. Задавая вопрос, обладает ли измерение дискриминантной валидностью, мы интересуемся главным образом тем, возможно ли, используя данное [c.108] измерение в качестве показателя некоторого понятия, отличить это понятие от других. Например, если бы мы захотели измерять понятие доверия к политическим деятелям с помощью ряда вопросов обследования, а в нашей анкете есть ряд вопросов, предназначенных для измерения понятия доверия к людям (вообще), то, сравнивая оценки двух измерений, мы можем спросить себя, не отражает ли первый набор вопросов всего лишь иной способ измерения доверия к людям. Если оценки очень близки, мы скажем, что измерение политического доверия не обладает дискриминантной валидностью, поскольку не позволяет отличить понятие “доверие к политическим деятелям” от понятия “доверие к людям”. [c.109]

Наконец, последний способ валидизации опирается на понятие очевидной валидностн. Некоторые измерения основаны на столь прямом наблюдении за исследуемым поведением, что задавать вопрос об их валидности представляется неразумным: такое измерение кажется валидным “по внешнему виду”. Предположим, например, что мы хотим измерить степень соблюдения государственного закона, требующего наличия на входной двери каждой фирмы патента на соответствующую деятельность. По-видимому, обучив наблюдателей просто отмечать наличие или отсутствие таких патентов, мы получим явно валидное измерение выполнения закона. И хотя мы всегда должны спрашивать себя, являются ли выбранные нами измерения валидными по внешнему виду, как правило, мы совершали бы ошибку, если бы гарантировали точность результатов исследования, опираясь на одну лишь очевидную валидность. Мы должны попытаться удостоверить валидность наших измерений с помощью стандартных процедур типа тех, что описывались выше.

Основные свойства четырех рассмотренных типов валидизации представлены в табл. 3.1. Если мы хотим на основании наших исследований сделать правильные выводы, мы должны располагать валидными измерениями. Однако чтобы быть валидными, измерения должны быть также надежными. [c.110]

Таблица 3.1

Типы валидизации

Прагматическая валидизация

Конструктная валидизация

Дискриминантная валидизация

Очевидная
валидизация

Сверить результаты, полученные путем использования показателя, с результатами, полученными путем использования другого показателя, признанного в качестве валидного измерения соответствующего понятия; или проверить прогностическую валидность показателя, использовав его для предсказания событий, отражающих измеряемое понятие.

Внутренняя (конвергентная) валидизация: сделать вывод о валидности показателя на основании его соотношения с другими показателями для того же самого понятия, использующего множественные показатели.

Внешняя валидизация: сделать вывод о валидности показателя на основании его соотношения с показателями для других понятий, с которыми измеряемое понятие теоретически должно быть связано.

Сделать вывод о валидности показателя на основании степени несоответствия показателям для других понятий, теоретически отличных от измеряемого понятия.

Признать валидность, исходя из непосредственной очевидности показателя. (Можно ли убедить людей, находящихся в курсе дела, что это валидный показатель для данного понятия?)

Далее:
Надежность

К оглавлению

 

Карта сайта

 
Реклама:
Hosted by uCoz