GARANTÍAS CIENTÍFICAS Y ÉTICAS DE LA EVALUACIÓN

1. TEST, TÉCNICAS Y OTROS PROCEDIMIENTOS:

Definición de test

“es un procedimiento sistemático para observar la conducta y describirla con la ayuda de escalas numéricas o categorías establecidas…el testólogo recoge información preguntando y observando a todas las personas de la misma manera. Esta definición engloba los cuestionarios…. observaciones… aparatos… registro de conducta” (Cronbach 1990) “permitiendo comparaciones inter-individuales” (Pelechano, 1988)

Existen otros dispositivos de recogida de información que vamos a denominar técnicas o instrumentos que diferenciamos de los tests por el hecho de no cumplir con alguna de las características antes mencionadas. Finalmente existen técnicas cualitativas en las que no se dan formas de puntuación preestablecidas y que permiten formas subjetivas de valoración (por parte del evaluador)

Además, aunque en muchos casos se utiliza el término instrumento como sinónimo de técnica, vamos a utilizar tal denominación, también para referirnos a aquellos aparatos a través de los cuales puede recogerse información sobre manifestaciones observables o amplificables de los sujetos. Tales instrumentos permiten la aplicación de tests o técnicas estándar.

También se utilizan medidas simples o moleculares que son registradas mediante instrumentos o técnicas. EJ: Tasa cardiaca. Así pues los procedimientos de recogida de información no se reducen a los tests o técnicas estándar, sino que en muchas ocasiones el evaluador debe realizar observaciones, recoger informes o respuestas psicofisiológicas.

=> Técnicas e instrumentos de evaluación

Técnicas estándar y flexibles:

Técnicas generales (o estándares) y

Específicas (flexibles o idiográficas)

Instrumentos:

Aparatos

Equipos

2. PUNTUACIONES UTILIZADAS

Escalas de medida:

Nominales: Determinación de igualdad.

Ordinales: Mayor o menor que.

De intervalo: Igualdad de intervalos o de diferencias.

De razón: Igualdad de razones.

Tipos de puntuaciones:

Puntuación directa: Número de respuestas. Pero no sabemos cual es la puntuación máxima del test ni podemos compararlo con su grupo o consigo mismo en otra prueba.

Puntuaciones criteriales: Necesitan una referencia. Este criterio de objetivos a cumplir sería el marco de referencia frente al cual interpretar la información. Ej: a partir del 4 apruebas

Puntuaciones referidas a normas: Cuando el marco de referencia con el que se compara para que obtenga significado es un grupo (posición relativa). Se debe transformar la puntuación directa y tener un grupo de referencia adecuado.

Puntuaciones percentiles: nos indica el porcentaje del grupo que el sujeto en cuestión sobrepasa o si obtiene puntuaciones inferiores a éste. No nos informa sobre el grado en que el individuo posee lo evaluado ni sobre la cuantía de las diferencias entre dos personas, dado que su distribución no es homogénea. Tampoco puede compararse una prueba con otra.

Puntuaciones típicas: transformación en función de la media y desviación típica (derivadas/normalizadas). Nos indica cuánto se separa el sujeto de la media del grupo en relación con lo que se separan los demás. Tiene el inconveniente de presentar valores negativos y decimales, pero se salva realizando diversas transformaciones lineales (puntuaciones típicas derivadas), en las cuales su distribución original no varía. También hay otro procedimiento por el cual se obtienen puntuaciones típicas normalizadas que sí la modifican ajustándola a la curva normal, pero añade la ventaja de poder compararlas aunque provengan de pruebas distintas.

2. PRINCIPIOS, NORMAS O GUÍAS EN EVALUACIÓN

Construcción de Tests (APA, 1999)

Adaptación de Tests (Hambleton 1994)

Distribuidores de Tests (Muniz, et al, 01)

Usuarios de Tests (Fremer, 1997)

Administradores de Tests (ITC-Bartram, 1997)

Proceso de evaluación: los GAPs

Qué es una “Guía”

“sugerencia procedural entendida para ayudar al evaluador y a sus audiencias a buscar sus requerimientos, estrategias para evitar errores al aplicar esas guías, normas o estándares” (Joint Committee, 1994, p. 206)

3. PROPIEDADES DE LOS TESTS Y TÉCNICAS ESTÁNDAR

3.1 Fiabilidad

“el cuadrado de la correlación entre las puntuaciones observadas y las

puntuaciones verdaderas”

Spearman => Coeficiente de correlación entre una forma experimental de un test y una forma hipotéticamente equivalente.

Un test será más fiable cuanto mayor sea la proporción de la variabilidad de las puntuaciones recogidas que se deba a la variabilidad de las puntuaciones verdaderas y menor la que se deba a la de los errores. TCT => Detrás de la puntuación observada que obtiene una persona en un test hay una puntuación verdadera. La puntuación verdadera es el valor promedio de las puntuaciones observadas obtenidas en n administraciones <> del test. Las diferencias entre esta puntuación y la observada se consideran <>.

El coeficiente de correlación de Pearson entre mediciones es el estimador más frecuente.

Teoría clásica de los tests: Fuentes de variación

Tiempo: Estabilidad/ Test-retest. Medidas hechas en momentos distintos serían iguales.

Formas Paralelas o Consistencia Interna. En un test compuesto por agregados de elementos todos los ítems que componen una técnica deben ser equivalentes.

Acuerdo inter-jueces: objetividad. No debe haber diferencias entre los datos obtenidos por diferentes evaluadores.

Los procedimientos que requieren dos administraciones serían los de <> y de <> correspondientes al primer y último tipo de evidencia antes señaladas, mientras que los que necesitan una sola administración serían el de <> y los basados en las covarianzas entre los ítems estarían referidos al segundo.

El procedimiento de formas paralelas es el que se deduce de manera directa del modelo lineal clásico. La correlación entre las mediciones obtenidas con dos tests supuestamente paralelos aporta información sobre la equivalencia de las mediciones, de ahí que la correlación obtenida se denomine también <>. Las debilidades del procedimiento se derivan de las dificultades a superar para construir dos test paralelos.

El procedimiento de test-retest parte de la consideración de que un mismo test puede considerarse paralelo consigo mismo, por lo que si se administra en dos ocasiones separadas debe proporcionar mediciones iguales. La correlación entre las mediciones obtenidas en las dos administraciones informa de la estabilidad de éstas, de ahí que se denomine <>.

La dificultad de realizar dos administraciones del test y el excesivo coste y dificultad para elaborar dos formas paralelas condujeron al desarrollo del procedimiento de dos mitades, en el cual se agrupa los ítems en dos mitades intentando que sean lo más paralelas posibles (por pares-impares por ejemplo). A continuación se calcula la correlación y por último se corrige el valor para obtener la estimación de la fiabilidad del test completo. El valor corregido informa de la <> del test.

Desde esta misma perspectiva (homogeneidad) se estima el coeficiente de fiabilidad a partir de las covarianzas entre todos los ítems del test, que nos informa de la consistencia interna. Existen numerosos procedimientos como el coeficiente alfa de Cronbach, el coeficiente lamba de Guttmman,…

El análisis de varianza permite tratar el problema desde una perspectiva más global al poder aplicarse siempre que se disponga de m medidas o repeticiones de un grupo de personas: más de dos medidas equivalentes, más de dos ocasiones, más de dos ítems, etc. En este caso no es necesario tener presentes los supuestos del modelo de tests paralelos, pero se debe asumir que las personas y los ítems concretos son representativos.

Mientras el concepto de validez con el paso del tiempo ha sufrido grandes cambios el concepto de fiabilidad ha permanecido invariable reflejando simplemente el desarrollo normal de la ciencia incluyendo las teorías surgidas con el transcurso de los años. La inclusión de estas teorías, como la TRI ha hecho que se preste una atención especial el error de medida condicional. Por ello en esta última versión de los estándares se entiende que la fiabilidad o función de información del test <>.

La TRI entiende la fiabilidad como la precisión o el error cometido a la hora de estimar la puntuación de cada persona. La diferencia entre la TRI y TCT reside en que para la TCT el concepto de fiabilidad opera globalmente para el conjunto de valores posibles de habilidad, y por tanto, se define de manera incondicionada, mientras que para la TRI la función característica del ítem introduce el concepto de precisión con la que se hace la estimación para un sujeto, que es independiente de cualquier criterio normativo.

Cómo hacer más fiable un test

Añadir items

Eliminar items

Mejorar las instrucciones

3.2 Teoría clásica de los tests: la validez

Medida en la que un test mide la variable que pretende medir.

Medida en la que pueden tomarse decisiones adecuadas, basadas en dicho test.

Hasta 1954 el término validez era un concepto unitario que hacía referencia a la correlación de un test con un criterio.

En 1954 aparece el concepto de validez de constructo que establecen para ser utilizado en aquellas técnicas menos cuantitativas y/o menos susceptibles de operacionalización. A partir de entonces la validez se fragmenta en cuatro tipos, cada uno relacionado con el uso que del test se planea hacer:

1. Validez de contenido: para los tests que describen el desempeño de las personas sobre un universo definido de tareas

2. Validez predictiva: cuando el test predice el desempeño futuro.

3. Validez concurrente: Cuando se demuestra la concurrencia con medidas simultáneas.

4. Validez de constructo: cuando se pretende hacer inferencias sobre constructos no observables.

Según esto, la información sobre la validez indica al usuario el grado en el que el test es capaz de alcanzar ciertos objetivos. Por otro lado, la validez de constructo se estudia cuando no se dispone de una medida criterio definitiva de la cualidad y debe utilizar medidas indirectas para validar la teoría.

En 1966 se da un pequeño paso hacia la unificación y se habla sólo de tres tipos de validez. La validez predictiva y concurrente se reunifican bajo la etiqueta de validez criterio. Esta división pone énfasis en la diferenciación entre la estructura interna y externa del test (contenido y criterio):

Validez de contenido: relevancia y representatividad de los ítems que conforman el test, pero no en las interpretaciones que se hacen.

Validez de criterio: Enfatiza la estructura externa del test, o sea, sus relaciones con el criterio, pero no las posibilidades de generalización de éste.

Validez de constructo

1974: La validez se refiere a la adecuación de las inferencias hechas desde las puntuaciones de los tests u otras formas de evaluación. La validez en sí es inferida, no medida. Según esto el constructo es más que una etiqueta, es una dimensión inferida.

La influencia de Cronbach y Messick en los años 80 fuerza la evolución del concepto hacia un constructo unitario, pues éstos entienden que todas las interpretaciones que de un test se hacen van dirigidas al constructo. Según ellos es necesario validar el significado, o sea, la interpretación de las puntuaciones, tanto como las implicaciones que para la acción tiene ese significado. El núcleo fundamental de la validez es la representación del constructo.

En este sentido, en la versión de 1985 se define validez como la apropiación, significación y utilidad de las inferencias específicas realizadas a partir de las puntuaciones de los tests. Las tres categorías son consideradas ahora estrategias de validación y pasan a denominarse <>

Posteriormente Messick plantea que la división clásica es incompleta porque no tiene en cuenta las consecuencias sociales del test y promueve la consideración de otros conceptos tales como la relevancia, la utilidad, las implicaciones de la evaluación y las consecuencias sociales de ésta, dividiéndolas a su vez en dos grupos:

Las que justifican el test (evidencias y consecuencias)

Las centradas en los resultados del test (interpretación y uso)

Por tanto, la validación de un test sería la valoración empírica de su significado y las consecuencias de su medida. Así pues en los estándares de 1999 presentan una teoría unificada de la validez en la que incorporan el énfasis en las consecuencias del uso de los tests, el papel de la teoría de la generalizabilidad, etc. (énfasis también en las interpretaciones del sujeto).

Así el planteamiento general de los estándares de 1999, vigentes en la actualidad, no sólo reafirma la posición central de la validez, sino que entiende que los principios de la validez se basan en las inferencias sobre el significado de comportamientos o de atributos consistentes. Esta perspectiva integra resultados cuantitativos (atributos y comportamientos) y cualitativos (puntuaciones). Los datos no son la información sino que ésta procede de la interpretación de los datos.

Volviendo a Messick, éstas son las principales fuentes de evidencias:

1. Basadas en el contenido. Incluye evidencias de relevancia, representatividad y calidad técnica del instrumento. Éstas proceden del análisis de las relaciones entre el <> del test y el constructo que se pretende medir. Por contenido se entiende los temas, formatos de ítems, instrucciones,… Podría considerarse integrada en ésta la validez aparente que hacer referencia a la relevancia asignada al contenido del test por parte de las personas evaluadas, aspecto que se puede determinar en cierta medida los resultados obtenidos.

2. Basadas en los procesos de respuesta (validez sustantiva). Se trata de recurrir al análisis teórico y empírico de los procesos de respuesta de las personas para valorar el ajuste entre el constructo y la respuesta real de los examinados.

3. Basadas en la estructura interna. Tratan de analizar las relaciones de los ítems de tests entre sí y de ellos con el constructo que sirve para la interpretación de las puntuaciones obtenidas.

4. Basadas en la relación con otras variables (validez externa). Análisis de relaciones entre las puntuaciones del test y otras variables externas utilizadas como criterio.

5. Evidencias de generalizabilidad serían aquellas que examinan la extensión en que las puntuaciones y su interpretación son generalizables a través de grupos, contextos y tareas, incluyendo relaciones test-criterio.

6. Evidencias sobre las consecuencias del uso. Se trata de atender a las consecuencias previstas y no previstas, negativas o positivas, del uso del test.

A partir del 99: Concepto unificado de validez

En definitiva con los estándares de 1999 se ha llegado a la reunificación de un concepto de validez aplicable a las diversas técnicas de evaluación. Con esta definición de validez:

Se recogen las teorías y métodos que durante estos años se han desarrollado: teoría de la generalizabilidad, métodos factores en las matrices multirrasgos X multimétodo, teoría de respuesta al ítem, etc.

Se incorpora, además el interés por lo social y por la responsabilidad del psicólogo en relación a la toma de decisión que él y otros, según sus datos, hacen.

Se integran conceptos que, aunque respondían al nombre de validez, se separaban en su consideración de requisito psicométrico, pues se asociaban más a los efectos del proceso de evaluación que a las técnicas en si. Éstos eran los conceptos de validez aparente, validez social y/o utilidad.

Implica la aceptación del concepto de validez desde esquemas conductuales de construcción de técnicas de evaluación. Cone propone:

Representacional: Grado en que la medida representa al criterio.

Elaborativa: utilidad de la medida

Lo importante es entonces comprobar que la técnica de evaluación que seleccionemos para ser aplicada en determinado caso haya utilizado el procedimiento empírico de recogida de evidencias acorde con el uso que nosotros pretendamos hacer, al margen del modelo teórico.

Concepto de exactitud (accuracy)

La perspectiva psicométrica tradicional mantenida hasta 1985 era difícilmente aceptada por la evaluación conductual porque los supuestos psicométricos base, estabilidad y continuidad del constructo, chocaban con sus planteamientos teóricos. Esto hizo que muchos instrumentos se hicieran al margen de los estándares conformándose con mostrar algunas evidencias de fiabilidad o a lo sumo de validez de contenido. También se generaron conceptos alternativos como el de exactitud (Cone, 1977).

Para este autor la exactitud no era equivalente a la fiabilidad ni a la validez. La exactitud se define como: “Grado en que una medida describe la topografía de una conducta.” Así los hechos implícitos son los siguientes:

La verdadera ocurrencia de una conducta

Su aparición repetida en varios momentos

Su ocurrencia en más de una situación

Su covariación con otros comportamientos

Su contrastación con diversos métodos

Existe una diferencia importante entre exactitud y validez, ésta estriba en que con exactitud se está implicando la existencia de una verdadera medida independiente, mientras que la validez conlleva la ausencia de tales valores, por lo que éstos deben ser estimados mediante criterios de validación. Para entender esto hay que diferenciar entre tres tipos de datos.

Datos exactos (presencia/ausencia de un hecho observable). Está libre de error de medida, siempre que el que lo registra lo haga bien. Ej: Fumar

Sometidos a interpretación (significación), aún siendo referidos a conductas observables y objetivas. Ej: Cuánto fuma el sujeto, mucho o poco.

Datos procedentes de una conducta observable para inferir algo no observable.

El concepto de exactitud sería una evidencia de validez externa, aplicable tanto a los datos exactos como a aquellos que siendo estimables presentan una medida verdadera independiente.

Evidencias sobre las consecuencias

Los últimos estándares incorporan las consecuencias sociales de la evaluación al propio concepto de validez. Otros conceptos como validez social y/o utilidad han sido aceptados y/o debatidos en evaluación, lo novedoso es su incorporación como componente de validez de un instrumento y/o técnica. (Esto es lo que suscita más polémica). Conceptos relacionados:

V. consecuencial: Efectos colaterales no anticipados. Considerar qué efectos, positivos y negativos, puede tener el uso de una técnica sobre el sujeto evaluado. La polémica está en la posibilidad de rechazar hipótesis confundiendo los efectos con las preferencias de la gente. Además la confusión de validez de la mediad con validez de resultado puede llevar a confundir test con evaluación. Por otra parte desde las empresas editoras de test, la mayoría de los editores no pueden obtener ningún tipo de evidencia sobre las consecuencias debido a:

El periodo de cinco años que transcurre entre la conceptualización del test y su utilización sustantiva

La variedad de usos del test

La dificultad para convencer a los usuarios de la descripción más adecuada sobre el constructo

La ausencia de mecanismos directos para obtener evidencias creíbles

Validez social: Aparece relacionado con la evaluación e intervención en sujetos deficientes y tiene su origen en el análisis conductual aplicado, aunque podría considerarse integrado dentro de la utilidad como requisito exigible al proceso de evaluación. Tres significados: Establecimiento de criterios normativos o estándares de comparación de los individuos en relación con la pertinencia ética y económica de los procedimientos utilizados y en relación con la valoración de los tratamientos utilizados relativos a la repercusión social que, para el paciente y su entorno, tengan los efectos conseguidos. Dos métodos para evaluarla:

a. La valoración subjetiva de la aceptabilidad social y de la importancia de las metas, procedimientos y/o resultados obtenidos

b. La valoración cuantitativa de resultados mediante comparaciones normativas.

Resultados cuantitativos significativos no garantiza que el cambio sea significativo para el cliente, por eso es importante la valoración subjetiva.

Utilidad: No se trata de lograr un diagnóstico válido sino de lograr, a través de un diagnóstico, un máximo de decisiones correctas, un máximo de utilidad. La utilidad es, por tanto, una característica del proceso de evaluación, no de las técnicas, y no tiene por qué estar relacionada con fiabilidad y validez.

Sensibilidad para detectar variables de tratamiento

Eficacia para identificar objetivos de intervención

Contribución para mejorar los efectos de tratamientos

3.3 Garantías del proceso de evaluación

Dos son las vías mejor establecidas para garantizar el proceso de evaluación:

Las guías del proceso de evaluación (GAP)

Recientemente se han desarrollado unas guías del proceso de evaluación que han sido desarrolladas en distintas etapas a través de las cuales se ha mantenido contacto con un amplio grupo de evaluadores que han revisado las distintas ediciones presentadas. Los objetivos de las GAP son los siguientes:

Asistir a los evaluadores en su esfuerzo por optimizar la calidad del trabajo.

Asistir al cliente para que pueda enjuiciar el trabajo evaluativo.

Facilitar el entrenamiento en evaluación.

Existe además, una <> (HAPE) que comprende 95 normas, que en realidad resultan de transformar las normas GAP en términos imperativos.

Garantía de los datos recogidos

Una cosa es que los instrumentos estándar presenten las garantías científicas necesarias y otra que los datos recogidos en nuestra evaluación las presenten. También hay que recordar que nuestros datos no solo proceden de técnicas cuantitativas, sino muchas veces cualitativas ya que pueden proceder incluso de observaciones no sistemáticas durante el proceso de evaluación, por tanto necesitamos garantías científicas de todos nuestros datos sean de la naturaleza que sean. La conceptualización sobre estas garantías procede de la teoría de la generalizabilidad (TG) formulada por Cronbach et al. La TG ha tenido múltiples aplicaciones, lo que proponemos es la utilización de su racional como un heurístico para indagar la bondad de los datos.

En este marco, una medida conductual (procedente de un test o técnica de evaluación psicológica) es entendida como una muestra de la total colección de observaciones posibles, es decir, tiene que ser representativa de los universos a los que se pretende generalizar.

En teoría de tests se habla de una puntuación verdadera y una puntuación observada entre las cuales media el error de medida – Xo= Xv + Xe -. Por su parte, la TG prefiere hablar, en lugar de puntuación verdadera, de puntuación universo, para enfatizar que lo que el evaluador hace es una inferencia desde una muestra de datos observados a un conjunto de datos de interés, y por otro lado, que el conjunto de datos de interés procede de distintos ámbitos.

La TG propone que existen distintos universos a través de los cuales los datos obtenidos podrían ser generalizables. Así como en estadística inferencial se estudia que la población, y su definición dependen del estudio concreto que queremos realizar, también aquí los universos dependen de la teoría o de la práctica involucradas en el proceso evaluador.

Cone propone seis universos a través de los cuales se generalizan los datos:

Generalizabilidad de las puntuaciones

Hace referencia a lo que, desde la perspectiva de la psicometría clásica se denomina objetividad o fiabilidad interjueces y que ha sido reformulado desde la teoría de la generalizabilidad, haciendo referencia al universo de generalización de los evaluadores y observadores. En todo caso se pretende constatar la medida en la cual los datos obtenidos no dependen de la persona que los obtiene.

Generalizabilidad de los elementos

Hace referencia a lo que, desde la perspectiva de la psicometría clásica, se denomina <>, así como la fiabilidad entendida como <>. Este punto está ligado a la necesidad de especificar el ámbito al cual se va a dirigir la evaluación, una vez hecho esto será más sencillo seleccionar las pruebas en las que figuren elementos representativos del conjunto de conductas que nos interesa evaluar.

En definitiva, los elementos de los cuales se derivarán nuestros datos deben ser representativos del ámbito total sobre el que vamos a generalizar éstos.

Generalizabilidad temporal

Si los datos que recogemos en un momento concreto se repiten en otros períodos, podríamos hablar de estabilidad de nuestras mediciones o, también, de que hemos obtenido una adecuada fiabilidad test-retest o, en otras palabras, la posibilidad de generalizar nuestros datos a un universo temporal desde la teoría de generalizabilidad.

En observaciones, registros fisiológicos, etc. suele presentarse una importante fuente de error, la reactividad, la cual puede hacer que el sujeto responda, en un primer momento, de forma no habitual y que, por tanto, los datos registrados hoy puedan no contrastarse en otros momentos.

Dos son los procedimientos garantes de la generalizabilidad temporal de los datos: el establecimiento de períodos de habituación en la recogida de información y la obtención de estabilización de la medida previa al inicio de la observación (o la introducción de un tratamiento).

También hay que tener en cuanta que existen conductas más estables que otras y este hecho habrá de ser tenido en cuenta a la hora de pretender aplicar el universo de generalizabilidad temporal. Al estudiar conductas sensibles a acontecimientos externos será conveniente poner en relación el universo de generalizabilidad del tiempo y el de las situaciones.

Universo de generalizabilidad de las situaciones

Hace referencia a distintos tipos de criterios de bondad de la medida. Por una parte, si el comportamiento es consistente intersituacionalmente, y por otra, también se hace referencia a la <> en cuanto a la posibilidad de que los datos recogidos en situaciones artificiales de laboratorio (test y técnicas), sean generalizables a la vida real del sujeto.

El uso del muestreo intersituacional permite la obtención de datos representativos al respecto. La validez ecológica de la evaluación puede comprobarse a través de la concordancia que las medidas procedentes del laboratorio tengan con las medidas obtenidas en situaciones naturales, así como la utilización de estas últimas de modo prioritario en evaluación.

Universo de generalizabilidad de los métodos

El evaluador debe utilizar diferentes procedimientos de recogida de información a la hora de realizar una evaluación. Todo ello ha de llevarnos al establecimiento de las covariaciones entre las técnicas empleadas siempre y cuando éstas evalúen un mismo conjunto de comportamientos de un sujeto.

Desde una perspectiva general, la pregunta formulada hace referencia ala <> y <> (de constructo o predictiva) de los instrumentos de evaluación. No obstante, lo que interesa es hasta qué punto los datos obtenidos a través de distintos procedimientos son convergentes entre sí en el sujeto explorado.

Tales concordancias dependerán, por un lado, de los sesgos especiales de los procedimientos evaluados, así como el tipo de comportamientos evaluados y de la modalidad de respuesta a la que éstos pertenezcan. En ocasiones, la falta de concordancia entre distintos métodos puede ser imputada a la ausencia de consistencia entre modalidades de respuesta y ser, en algunos casos, objetivo de modificación.

En todo caso, la apreciación de la consistencia intermétodos en la evaluación de un solo sujeto habrá de ser valorada de forma racional, no obstante se debe examinar minuciosamente las puntuaciones y llegar a conclusiones sobre la bondad de los datos.

Universo de generalizabilidad de las dimensiones

Hace referencia a la <>. El objetivo no viene dado por un afán del evaluador de hallar dimensiones básicas o atributos intrapsíquicos específicos aunque en ocasiones, de lo que se trata es de hallar dimensiones cognitivas en el sujeto, el objetivo es conocer en qué medida una serie de conductas, que teóricamente saturan una misma variable, se dan con esta asociación en nuestro caso concreto o, también si distintas modalidades de respuesta, que teóricamente han de verse asociadas, covarían entre sí.

En este caso habrá que tener especial atención a la varianza debida a la dimensión y a la debida al método.

3.4 Garantías: Modelización del razonamiento

Modelo= Guía, simplificación de la realidad.

Modelizaciones prescriptitas: Indicaciones sobre cómo debe ser.

Modelos lineales

Ecuaciones de regresión

Teorías de la decisión

Teoría bayesiana (probabilidad)

Teoría de la utilidad esperada

Modelizaciones descriptivas

Elstein,A.S.; Shulman, L.S. & Sprafka, S.A.(1978): Medical Problem solving: An analysis of clinical reasoning. Cambridge, HarvardUniversityPress.

1. Resultados:

El método característico del razonamiento humano en ambientes complejos y de baja definición es el método hipotético deductivo.

Los problemas clínicos son sistemas abiertos en los que se utiliza el método hipotético deductivo para la generación inicial de hipótesis.

Para el diagnóstico diferencial (discriminación y elección entre distintas hipótesis), se utiliza una forma de análisis medios-fines.

En el análisis medios-fines, el referente más relevante son los hallazgos clínicos específicos.

2. Expertos-No expertos:

No se detecta una capacidad que pueda identificarse como “competencia clínica”. Sin embargo podemos establecer las siguientes diferencias:

Mayor campo de experiencia (información del dominio). Un experto conoce el dominio mejor y más parceladamente, es decir, tienen una especial organización de la experiencia en la memoria a largo plazo (comportamiento más eficiente). Además los expertos realizan “podas eficaces”.

Las diferencias no están relacionadas con:

Procesos de razonamiento ya que todos utilizan el hipotético-deductivo.

Heurísticos utilizados.

3. Modelo propuesto, fases:

Adquisición de información

Búsqueda activa de la información que permita la definición del problema (que no es la demanda)

Transformación del ambiente de la tarea en espacio del problema.

El espacio del problema (análisis de la demanda) permite planificar el inicio de la evaluación:

Identificación de agentes

Identificación de contexto

Previsión de objetivos

Cuando finaliza la recogida de información obtenemos la definición del problema

Doble necesidad: identificar datos constitutivos el problema y los datos para solucionar el problema (Godoy, 1996). Este problema no se da en el modelo organicista ya que los datos constitutivos del problema son los síntomas.

Generación de hipótesis

El número total de hipótesis que se generan depende de la naturaleza del problema, y no tanto por la experiencia.

El número de hipótesis generadas es de ±5, una por cada supuesto.

La estrategia de generación de hipótesis depende más del ambiente de la tarea.

Las hipótesis se generan en un momento muy temprano respecto a la presentación de los datos (primeros 5 minutos), por eso son muy sesgadas y deben ser extinguidas mediante el procedimiento de evaluación.

Interpretación de la información

Tres valores: Corroboran/desmienten/no afectan

En modelo de regresión lineal estos valores corresponden a:-1/ 1 / 0

En modelo bayesiano estos valores corresponden a: p=1 p=0.5/ p= 0

Los errores más frecuentes son:

Asignar valor positivo o negativo a información neutra. Sesgo natural.

Asignar valor positivo a información de valor negativo

Asignar valor negativo a información de valor positivo

Los dos últimos tienen que ver con la naturaleza de los datos.

Comprobación de la validez de las hipótesis. Estrategias:

Elegir la hipótesis que cuenta con más datos a favor.

Elegir la hipótesis que cuenta con una diferencia mayor entre los datos a favor y los datos en contra.

Entrenamiento en heurísticos.

3.5 Garantías del Proceso: Plausibilidad de las hipótesis

Definición: “Grado de ajuste entre una hipótesis y los datos disponibles”. EXAMEN

Cuanto más cantidad de datos la apoyan

Cuanto menor cantidad de datos en contra

Compatibilidad que presenten los datos irrelevantes. En el momento en el que yo lo veo, se vuelve relevante aunque aparentemente no lo fuera.

Comprobación de la validez de la hipótesis: Antes no tenía datos (plausibilidad), pero ahora si los tengo.

1. Efecto de la hipótesis plausible:

Determina el modo de interpretar la información disponible

Cambia el modo en que se percibe el problema

Guía la búsqueda de nueva información

No se busca información incompatible (además de que los datos irrelevantes se interpretan positivamente)

2. Sesgos:

Cuanto más creíble (compatible) más confianza suscita.

Tendencia a la aceptación de la primera hipótesis

Tendencia a verificar la compatibilidad de la información irrelevante.

3. Evidencias sobre el razonamiento. Marcos teóricos de los que proceden: Marco proposicional del razonamiento clínico, marco semántico-estructural, marco encapsulación del conocimiento, influencias bidireccionales, sistemas basados en conocimiento.

3.6 Garantías éticas: “Normas Deontológicas del Psicólogo”

Art 5: Respeto a la persona, protección de los derechos humanos, sentido de responsabilidad, sinceridad, prudencia en la aplicación de instrumentos y técnicas, competencia profesional, solidez de la fundamentación objetiva y científica de sus intervenciones profesionales.

Art 17. La autoridad profesional del psicólogo/a se fundamenta en su capacitación y cualificación para las tareas que desempeña. El/la psicólogo/a ha de estar profesionalmente preparado y especializado en la utilización de métodos, instrumentos, técnicas y procedimientos que adopte en su trabajo. Forma parte de su trabajo el esfuerzo continuado de actualización de su competencia profesional. Debe reconocer los límites de su competencia y las limitaciones de sus técnicas.

Art 18. Todo tipo de material estrictamente psicológico, tanto de evaluación cuanto de intervención o tratamiento, queda reservado al uso de los/las psicólogos/as, quienes se abstendrán de facilitarlos a otras personas no competentes.

Art. 24 El/la psicólogo/a debe rechazar llevar a cabo la prestación de sus servicios cuando haya certeza de que puedan ser mal utilizados en contra de los legítimos intereses de las personas, los grupos, las instituciones y las comunidades.

Art 14. Sin perjuicio de la legítima diversidad de teorías, escuelas y métodos, ella psicólogo/a no utilizará medios o procedimientos que no se hallen suficientemente contrastados, dentro de los límites del conocimiento científico vigente. En el caso de investigaciones para poner a prueba técnicas o instrumentos nuevos, todavía no contrastados, lo hará saber así a sus clientes antes de su utilización.

Art. 46 Los registros escritos y electrónicos de datos psicológicos, entrevistas y resultados de pruebas, si son conservados durante cierto tiempo, lo serán bajo la responsabilidad personal del psicólogo en condiciones de seguridad y secreto que impidan que personas ajenas puedan tener acceso a ellos.

Arts 43-48) Los informes psicológicos realizados a petición de instituciones u organizaciones en general, estarán sometidos al mismo deber y derecho general de confidencialidad antes establecido, quedando tanto el psicólogo/a como la correspondiente instancia solicitante obligados a no darles difusión fuera del estricto marco para el que fueron recabados (art. 43). Estos habrán de ser claros, precisos, rigurosos e inteligibles para su destinatario. Deberán expresar su alcance y limitaciones, el grado de certidumbre que, acerca de sus varios contenidos, posea el informante, su carácter actual o temporal, las técnicas utilizadas para su elaboración, haciendo constar, en todo caso, los datos del profesional que lo emite (art 48).

3.7 Directrices y guías que afectan a la evaluación

Criterios sobre la revisión de los tests

En los últimos años se han hecho nuevas revisiones de tests tradicionales, sin embargo en ocasiones resulta un proceso demasiado costoso y largo por eso, a pesar de que no existen estándares que señalen cuándo un test requiere una revisión, si existe consenso científico. Por ejemplo la APA sugiere que sea revisado cuando existen nuevos datos de investigación que representan cambios significativos en el dominio, en las condiciones de uso o en la interpretación.

Silverstein y Nelson => Se debe hacer una nueva revisión cuando la investigación sobre el test ha mostrado nuevos conceptos subyacentes que deben ser incorporados.

Strauss, Spreen y Hunter => Seis razones que justifican la revisión:

La actualización de las normas. Ej: CI que aumenta 1dv cada 50 años

El efecto del tiempo sobre un test no es homogéneo ya que hay subtests más sensibles que otros. Esto significa pueden verse afectadas las relaciones entre subtests y al propio constructo medido. O sea, puede afectar a la interpretación de las puntuaciones.

Cuando se amplia el uso a minorías de otras culturas o a otros rangos de edad.

Existen ítems que quedan obsoletos con el paso de los años. Ej: hablar en ptas.

Los estudios acumulados sobre el test permiten aumentar su fiabilidad o su validez y, por tanto, se requiere una constante actualización.

También se producen nuevos modos de aplicación: aparecen versiones informatizadas, o se modifican las alternativas de respuesta, etc.

Directrices para la traducción y adaptación de tests

Internacional Test Comission (ITC). 22ppos agrupados en cuatro áreas:

a. Contexto: Hace referencia a la minimización de las diferencias entre poblaciones no relevantes para el estudio que se pretende y a la significación del constructo evaluado para la población objetivo. Muchos constructos son dependientes de aspectos culturales y por tanto no son equiparables entre culturas diferentes, lo que exige la demostración de equivalencia cultural del constructo antes de llevar a cabo la adaptación del mismo.

b. Desarrollo o adaptación de instrumentos: Consta de diez ppos en los que se establecen las normas que deben regir en la traducción, la exigencias que deben cumplir para poder ser utilizados en estudios transculturales, la equivalencia de tests y de elementos y la validación para diferentes poblaciones.

c. Administración: Normas relativas a las instrucciones, relación evaluador-evaluado y condiciones contextuales que afectan a la equivalencia de los tests.

d. Interpretación: Diferencias culturales en las normas de interpretación de un test. La información sobre todo el proceso de adaptación que permita aportar datos para la interpretación de un resultado.

Directrices internacionales para el uso de los tests

También generadas por la ITC, tienen el objetivo de mejorar el uso profesional y ético de los tests y está dirigido no sólo a constructores, investigadores y usuarios sino también a las personas que participan en un proceso en el que esté implicada la evaluación psicológica (editores, vendedores, legisladores,…)

Posee un contexto de aplicación internacional aunque deja margen de flexibilidad para tener en cuenta las peculiaridades contextuales de cada país.

Leave a Reply

You must be logged in to post a comment.


administracion - administracion de empresas - derecho - psicologia - contaduria - forex - articulos gratis - preparatoria abierta - bajar de peso rapido - hoteles en mexico - apuntes de medicina - forex- recetas de cocina