TEST Y EVALUACION PSICOLÓGICA
Las raíces de las
pruebas y la evaluación psicológica contemporánea pueden encontrarse en Francia
a principios del Siglo XX. En 1905 Alfred Binet había publicado una prueba que
fue diseñada para ayudar a colocar a los niños parisienses en edad escolar en
clases apropiadas. La prueba de Binet tuvo consecuencias que superaron los
límites de París, en poco tiempo se preparó una versión en inglés para usar en
escuelas de Estados Unidos.
En ese país se
estaba estudiando el uso de pruebas psicológicas por primera vez en el
ejército. Tanto en la primera como en la segunda guerra mundial, las pruebas
cumplieron con el objetivo de examinar con rapidez a grandes cantidades de
reclutas en busca de problemas intelectuales y emocionales.
El apogeo de las
pruebas psicológicas se dio en la década de 1950 y principios de la de 1960. Se
administraban pruebas en escuelas, en instituciones de salud mental, en
dependencias gubernamentales, etc.
“Prueba” era el
término usado para referirse a todo, desde la administración de una prueba
hasta la interpretación de la evaluación de la misma. Sin embargo, para la
época de la Segunda Guerra Mundial comenzó a surgir una distinción semántica
entre “prueba” y otro término más incluyente “evaluación”.
Si bien es cierto
que subsiste aún hoy día la ambigüedad en el uso de dichos términos, para este
caso se define a “evaluación psicológica” como
la recopilación e integración de datos relacionados con la psicología con el
propósito de hacer una valoración psicológica, lograda con el uso de
herramientas como pruebas, entrevistas, estudios de caso, observación
conductual y aparatos y procedimientos de medición diseñados en forma especial.
Y por tanto se define
a la: “prueba psicológica” como el
proceso de medir variables relacionadas con la psicología por medio de dispositivos
o procedimientos diseñados para obtener una muestra de comportamiento (Cohen y
Swerdlik, 2001).
¿QUIÉN, A QUIÉN Y CON
QUÉ EVALUAR?
¿Quién?
Quienes se dedican a elaborar pruebas, brindan una
amplia variedad de antecedentes y detalles respecto del proceso de elaboración.
Sin embargo, la APA (American Psychological Association) estima que más de
20.000 pruebas nuevas se elaboran cada año y abarcan pruebas elaboradas para un
estudio de investigación específico, revisiones de anteriores publicadas , etc.
Reconociendo que las pruebas y las decisiones tomadas como resultado de su
administración pueden tener un impacto significativo en las vidas de las
personas que responden las pruebas, varias organizaciones publicaron normas de
comportamiento ético referidas a la elaboración y uso responsable de pruebas.
Las más conocidas son las Normas o Standards for Educational and Psychological
Testing elaboradas por la Asociación Estadounidense de Investigación Educativa,
la Asociación Psicológica Estadounidense y el Consejo Nacional sobre Medición
en Educación.
¿Con qué?
Las pruebas son usadas por una variedad de
profesionales, y todos deberán cumplir los principios éticos correspondientes.
La prueba debe guardarse para que su contenido específico no sea dado a conocer
con anticipación. Descripciones previas a la administración de la prueba, de
los materiales que contiene la misma, en el caso de pruebas de inteligencia, no
son aconsejables pues podrían comprometer los resultados. El que administra la
prueba debe estar familiarizado con los materiales y procedimientos de la
prueba y tener todos los materiales necesarios para administrarla en forma
apropiada. También debe asegurarse de que el salón en el que se realice la
prueba sea el adecuado, evitando condiciones distractoras como ruido excesivo,
calor, frío, interrupciones, luz solar deslumbrante, hacinamiento, ventilación
inadecuada, etc. Es fundamental la empatía entre el evaluador y el evaluado. En
el contexto de situación de prueba, la empatía puede definirse como una
relación de trabajo entre evaluador-evaluado. Lograr la empatía con el evaluado
no debe alterar las condiciones de administración de la prueba. Existen otros
factores que pueden influir en el desempeño en pruebas de inteligencia como por
ejemplo que el evaluador sea familiar o no, que esté presente o ausente, y sus
modales en general. Otro factor importante ha sido el género.
¿A quién?
Las personas evaluadas enfocan una situación de
evaluación de diferentes formas y los administradores deben ser sensibles a la
diversidad de respuestas posibles ante una situación de prueba. El evaluado en
situación de diagnóstico o evaluación puede variar en: a) ansiedad
experimentada y grado en que ésta podría afectar los resultados
b) capacidad y disposición para cooperar con el
evaluador o comprender las instrucciones escritas.
c) el dolor físico o la angustia emocional que esté
sufriendo el evaluado.
d) malestar e incomodidad derivado de no haber comido
suficiente o por otras condiciones físicas.
e) grado en que está alerta y despierto y no
somnoliento
f) grado en que estén predispuestos a estar de acuerdo
o en desacuerdo cuando se les presenten los reactivos
g) grado en que han recibido preparación previa.
h) importancia que atribuyan a describirse a sí mismos
en forma buena o mala
i) grado de “suerte” que tiene el evaluado al responder
sin conocer de lo que responde.
También el evaluado tiene derechos en situaciones de
evaluación como por ejemplo a dar su consentimiento para ser evaluado, a que
los resultados sean confidenciales y a ser informado de los resultados.
CONSTRUCCIÓN Y
ADAPTACIÓN DE LOS TESTS
La
elaboración de las pruebas es un tema complejo que implica la aplicación de
principios establecidos; la obtención de una buena prueba no es una cuestión
fortuita sino la respuesta a diversos interrogantes como los que se describen a
continuación:
TEORÍAS DE LOS
TESTS
Existen
diversos paradigmas o modelos que permiten explicar el significado de las
puntuaciones obtenidas con los Tests. El análisis o modelado de las matrices de
datos obtenidas da como resultado:
• La estimación del nivel en que poseen los sujetos
la(s) característica(s) que mide el test (valores escalares de los sujetos)
• La estimación de los parámetros de los items
(valores escalares de los items).
Es
decir que el objetivo de cualquier teoría de tests es realizar inferencias
sobre el nivel en que los sujetos poseen la característica o rasgo inobservable
que mide el test, a partir de las respuestas que éstos han dado a los elementos
que forman el mismo. Así para medir o estimar las características latentes de
los sujetos es necesario relacionar éstas con la actuación observable en una
prueba y esta relación debe de ser adecuadamente descrita por una función
matemática. Las distintas teorías de tests difieren justamente en la función
que utilizan para relacionar la actuación observable en el test con el nivel
del sujeto en la variable inobservable. Y sirven para dar cuenta del error de
medida a toda medición psicológica o estimación del error; y proporcionar una
estimación del rasgo o característica evaluada (estimación del rasgo).
Existen dos teorías de medición
psicométrica y a continuación se explican cada una de ellas.
Teoría
Clásica de los Tests
La Teoría Clásica de los Tests, iniciada por Spearman,
sostiene que la puntuación observable de una persona en un test es una función
de dos componentes: su puntaje verdadero (inobservable) y el error de medición
implícito en la prueba. El TCT (modelo lineal de la teoría clásica) es un
modelo de puntuación verdadera como valor esperado, esperado como concepto
matemático, probabilístico. Es decir, el puntaje verdadero de un sujeto en un
test sería el promedio aritmético de las puntuaciones empíricas obtenidas en
infinitas aplicaciones (Muñiz, 2001).
La Teoría Clásica de los Tests (TCT) es, en síntesis,
el conjunto de principios teóricos y métodos cuantitativos derivados de ellos,
que fundamentan la construcción, aplicación, validación e interpretación de
distintos tipos de tests y que permiten derivar escalas estandarizadas
aplicables a una población (Hambleton, 1994). Los principios en que se basa son
relativamente simples y se aplican tanto a las pruebas de desempeño, como a las
de aptitud. Durante sus diferentes fases de desarrollo, se han elaborado
procedimientos de análisis cuantitativo que han sido de gran utilidad,
destacándose en lo general, tres grandes etapas que se identifican por su
objeto de interés primordial, así como por los métodos cuantitativos y tipos de
análisis teóricos que utilizan.
La primera etapa que Cattell (1986) denomina
itemetría, se caracteriza principalmente por la construcción de pruebas
conformadas por reactivos cuyas propiedades estadísticas eran el centro de
atención principal. Los tests se consideraban como el producto de la
integración de un conjunto de reactivos cuyas propiedades estadísticas tenían
que ser determinadas antes de que se les incluyera en esa prueba particular.
Esto propició que el concepto de confiabilidad adquiriera prominencia como la
principal virtud de la escala y se medía a partir de la correlación entre los
reactivos individuales y el instrumento en su conjunto. Si la correlación era
alta, se decía que los reactivos eran los adecuados. Sin embargo, con frecuencia
resultaba que la correlación no era tan buena, y el resultando era que se
obtenían reactivos deficientes y la prueba en su conjunto era de escaso valor.
El concepto mismo de confiabilidad implicaba al de error de la medida y
tuvieron que desarrollarse procedimientos distintos para determinar la
confiabilidad del test de una manera más precisa. Tal fue el caso de los
procedimientos de pruebas paralelas y de división por mitades.
La itemetría hizo contribuciones valiosas a la
psicología debido al énfasis que puso en el análisis del error. Entre sus
contribuciones se encuentran varios conceptos sobre precisión de la medida, las
técnicas para el tratamiento del error y el uso generalizado del error estándar
de la medida como la medida básica del error. Además, dio lugar a
contribuciones tales como las fórmulas de Spearman-Brown (Spearman, 1904),
Kuder-Richardson (Kuder & Richardson, 1937), Alfa de Cronbach (Cronbach,
1951) y a varios principios básicos de escalamiento, así como al uso
generalizado de la curva normal, el uso de las correlaciones múltiples y la
fórmula de atenuación, etc. La siguiente etapa es la que Cattell (1986)
denomina psicometría estructural y se caracteriza por el uso de las nuevas
herramientas estadísticas tales como el análisis factorial con sus diversas
variantes técnicas, como un medio para encontrar la "estructura
natural" de las habilidades en el contexto de los factores culturales, la
dotación genética, la personalidad, los rasgos, los motivos dinámicos y las
dimensiones que dan lugar a la acción y al comportamiento. Su objetivo
primordial no era como tal, aplicar pruebas, sino determinar la relación que
hay entre los conceptos clínicos sobre personalidad, y los fundamentos de la
investigación experimental multivariada (cuantitativa por naturaleza), así como
analizar las interacciones dinámicas entre los rasgos y los estadíos de la
personalidad. Los tests se consideraban significativos en la medida que
armonizaban con los constructos teóricos formulados conceptualmente.
La etapa funcional en el desarrollo de los tests es
aquella que "trasciende a las aplicaciones inmediatas y simplistas que
identificaban a las estadísticas con factores conductuales, y profundiza en las
leyes y formulaciones conceptuales del comportamiento: que relaciona rasgos,
procesos y estados psicológicos con las mediciones y estrategias
estructurales" (Cattell, 1986). Ese tipo de leyes, según Cattell, se
refieren a las relaciones sistemáticas y consistentes obtenidas de los estudios
empíricos sobre el desarrollo, en el conocimiento acerca de los rasgos
determinados en forma hereditaria, de los rasgos modificables por las
experiencias y el aprendizaje y de la modulación de los estados psicológicos
producidos por las relaciones psicofisiológicas. En resumen, el desarrollo de
la teoría clásica de los tests ha procedido de etapas orientadas en forma
pragmática para desarrollar tests y validar reactivos, (donde los constructos
psicológicos teóricos se definían operacionalmente como "aquéllo que mide
la prueba x"); hacia etapas conceptualmente más elaboradas en que los
tests se derivan de teorías del comportamiento más articuladas y donde cada
reactivo tiene un significado conceptual definido en un contexto teórico
particular.
Limitaciones de la Teoría Clásica de los Tests: De
acuerdo a la Teoría Clásica de los Tests (TCT), la elaboración de pruebas de
desempeño máximo involucra la selección de reactivos de acuerdo a su contenido,
nivel de dificultad y poder de discriminación. Los reactivos más deseables son
los que poseen un nivel mayor de discriminación. El nivel de dificultad por su
parte, se ajusta de acuerdo a: 1. El propósito de la prueba, y; 2. El criterio
preestablecido para el grupo al cual se aplicará la prueba. Los índices
estadísticos empleados por la TCT no se mantienen constantes cuando se aplican
a poblaciones que difieren en habilidad respecto de la población empleada para
obtener las normas del test. Por lo tanto, el éxito de las técnicas clásicas de
selección de reactivos depende de qué tan parecida es la población con la cual
se obtuvieron los índices respecto de la población a la que se pretenden
aplicar. Si la diferencia es grande, los índices obtenidos de los ítems no
serán apropiados para la población objetivo. En otros términos, la teoría clásica
de los tests no puede predecir cómo responderá un individuo a los ítems a menos
que esos ítems hayan sido previamente administrados a personas similares (Lord,
1980) Durante el trabajo práctico de elaboración de tests, normalmente el grupo
a partir del cual se obtienen los índices y el grupo al cual el test va
dirigido, difieren considerablemente. Un caso especial en el cual los índices
clásicos de los reactivos se obtienen a partir de grupos que difieren de la
población a la que van dirigidos, puede verse al estructurar bancos de
reactivos. Al elaborar un banco de reactivos, las características de los ítems
que van a ser incluidos en el banco, deben ser determinadas. Los ítems con
frecuencia denominados "experimentales", se incluyen en un test que
es administrado a un grupo de personas de tal manera que se obtienen como
resultado, los índices de esos reactivos. Por supuesto, no todos los reactivos
experimentales serán incluidos en un test particular. Por lo tanto, se crean
múltiples formas del test, cada uno de los cuales contiene diferentes reactivos
experimentales y las diferentes formas se aplican a grupos distintos de
examinados. Dado que generalmente no es posible asegurar que las diferentes
formas del examen sean administradas a grupos equivalentes, los índices de los
reactivos experimentales que se aplicaron a grupos distintos no pueden ser
equivalentes (Hambleton & Swaminathan, 1985). Por lo tanto, si los
reactivos fueron incluidos en el examen bajo el supuesto de que sus índices
eran comparables, entonces cualquier test construído a partir de ese banco de
reactivos no podrá ser apropiado para ninguna de las poblaciones que pudieran
ser seleccionadas en un momento dado. Por otra parte, aún cuando un banco de
reactivos se encuentre bien conformado, otro problema de la TCT es la precisión
de la medición. Y es que en la teoría clásica de los Tests, la contribución de
un ítem a la confiabilidad de la prueba no depende de las características del
reactivo sólamente, sino que también depende de la relación que hay entre el
reactivo en cuestión y los otros reactivos del test. Por lo tanto, no es
posible aislar la contribución de un ítem a la confiabilidad de la prueba y por
lo consiguiente, tampoco su participación al error estándar de la medida
(Hambleton, Swaminathan, & Rogers, 1991).
Finalmente, no obstante que el desarrollo de la teoría
clásica de los tests llegó, con la etapa funcional de los tests, a un punto en
que la conceptualización de los resultados de los tests, y consecuentemente su
proceso de desarrollo, permitían mediante sofisticados procedimientos
estadísticos, sacar a los reactivos de los límites impuestos por la prueba en
su conjunto, la limitación teórica aún permanecía y se hacía necesario un nuevo
marco conceptual para salvarlo. Este nuevo esquema para la conceptualización de
los reactivos como unidades independientes del test y del grupo utilizado para
normarlo, se obtuvo con la Teoría de Respuesta al ítem.
Teoría de
la Generalizabilidad
Cronbach y Glaser (1972) postularon la Teoría de la
Generalizabilidad (TG) que es una extensión del modelo clásico en el que
diversas mediciones del mismo individuo pueden variar tanto por efecto de una
variación en lo que se mide como por el error de medición (Nunnally y
Bernstein, 1995). En esta teoría las decisiones sobre la bondad de un
instrumento se basan en estudiar las fuentes y tipos de error, utilizando el
análisis de varianza. Cuando se mide una variable se trata de generalizar los
resultados a un dominio o universo confiable de observaciones. El puntaje del
universo es semejante al puntaje verdadero en el modelo clásico. La diferencia
es que en la TCT se considera que la varianza de error es de una sola clase y,
en cambio, la TG reconoce que existen otros universos de generalización y por
lo tanto muchos puntajes de universo posibles. Solo cuando el universo se ha
definido podemos afirmar cuáles son las fuentes de variación que producen
error. Las diferentes fuentes de error en esta teoría se denominan facetas,
término que introdujo Cronbach para designar cada una de las características de
la situación de medición que pueden cambiar de un momento a otro y, por tanto,
hacer variar los resultados obtenidos.
Según esta teoría los puntajes observados solo poseen
interés si son representativos de todos los puntajes posibles de un mismo
universo. Población es el conjunto de personas de las que se extrae una
muestra; y Universo es el conjunto de todos los ítems posibles de un
constructo; y Universo de Condiciones de Medición al conjunto de todas las
facetas estudiadas. Las distintas fuentes de variaciones asociadas a las
facetas y a sus interacciones se estima que contribuyen a la varianza de error
y disminuyen la generalizabilidad de los puntajes observados en las personas
evaluadas.
Teoría de
Respuesta al Ítem
La literatura sobre tests registra en los últimos 30
años un desplazamiento progresivo del esquema proporcionado por la Teoría
Clásica de los Tests, hacia el contexto y los procedimientos delineados por la
Teoría de Respuestas al Ítem (TRI) [Del inglés: Ítem Response Theory - IRT].
Esta teoría, fue desarrollada para resolver varios de los problemas que
presentaba la TCT (Hambleton & Swaminathan, 1985) y que no habían sido
resueltos de una manera satisfactoria. Algúnos de esos problemas son: (1) El
uso de índices de los reactivos cuyos valores dependen de la población
particular de la cuál fueron obtenidos, y
(2) La estimación de la habilidad del examinado
depende del conjunto específico de reactivos incluidos en la prueba.
Es decir, las características del examinado y las
características de la prueba no pueden separarse en un instrumento elaborado
conforme a los principios de la Teoría Clásica de los Tests; y por el
contrario, cada uno sólo puede ser interpretado en términos del otro. Las
características del examinado en las cuales la teoría TRI está interesada, son
la "habilidad" que mide el test. Para la TCT, la noción de habilidad
se expresa por medio del llamado puntaje verdadero que se define como "el
valor esperado a partir de la destreza observada en la prueba en cuestión"
(Hambleton, Swaminathan, y Rogers, 1991).La habilidad del examinado se define
sólo en términos de una prueba específica. Si el test es "difícil",
el examinado parecerá tener un nivel bajo de habilidad. Si el test es
"fácil", el examinado parecerá tener un mayor nivel de habilidad. Y
el nivel de dificultad de la prueba se define como "la proporción de
examinados en el grupo de interés, que contestó el reactivo correctamente"
(Hambleton, Swaminathan y Rogers, 1991) Por lo tanto, el que un ítem sea
difícil o fácil depende de la habilidad de los examinados a quienes se aplicó
la prueba y a su vez, la habilidad de los examinados depende del nivel de
dificultad de la prueba. De la misma forma, el nivel de discriminación de los
reactivos y los coeficientes de validez y confiabilidad de la prueba se definen
también en base a las características del grupo particular de examinados. Así,
las características del test y de los reactivos cambian a medida que cambia el
contexto de la prueba. Por lo tanto, es muy difícil comparar examinados a
quienes se aplican diferentes tests; o aún, comparar ítems cuyas
características se obtuvieron utilizando diferentes grupos de examinados. Esto
significa que los coeficientes de los reactivos son dependientes del grupo al
mismo tiempo que son dependientes del test. Esta clase de dependencia es la que
se trata de eliminar mediante la TRI. Otro problema de la TCT es que es
centrada-en-el-test, más que centrada-en-el-reactivo. No se toma en
consideración cómo responde el examinado a un reactivo dado, y por lo tanto, no
se tienen bases para determinar qué tan bien podría desempeñarse un examinado
particular ante un reactivo individual. Es decir, la TCT no permite hacer
predicciones acerca de cómo se comportará un individuo o grupo particular ante
un reactivo dado. Esta posibilidad de predicción es importante en una gran
variedad de situaciones como por ejemplo, cuando se intenta predecir el
comportamiento de un profesional ante diferentes tipos de situaciones
prácticas. De acuerdo a Hambleton, Swaminathan y Rogers (1991), las principales
características de la TRI como una alternativa a la teoría clásica de los tests
son: 1. Las características de los reactivos no dependen del grupo del cuál
fueron obtenidos; 2. Los puntajes que describen la habilidad del examinado no
dependen del test en su conjunto; 3. El modelo se expresa a nivel del reactivo
más que a nivel del test; 4. El modelo no requiere de pruebas paralelas para
determinar el índice de confiabilidad; y
5. Provee una medida de la precisión de cada índice de
habilidad. Los postulados básicos de la TRI son:
1) El resultado de un evaluado en un ítem puede ser
explicado por un conjunto de factores llamados rasgos latentes o aptitudes
2) La relación entre la respuesta de un sujeto a un
ítem y el rasgo latente que subyace puede describirse como una función
monotónica creciente que se llama función característica del ítem o curva
característica del ítem (CCI) Esta función específica que a medida que la
aptitud aumenta la probabilidad de una respuesta correcta al ítem también
aumenta.
3) Las estimaciones de la aptitud obtenidas con
distintos ítems serían iguales y las estimaciones de los parámetros de los
ítems obtenidos en distintas muestras de examinados serán iguales. Es decir que
en la TRI los parámetros de aptitud y de los ítem son invariantes.
La ejecución de un examinado en una prueba puede ser
predichos por un conjunto de rasgos, rasgos latentes y habilidades; y (2) la
relación entre las respuestas de los examinados a los reactivos y el conjunto
de rasgos que subyacen a la respuesta ante el reactivo, pueden describirse por
una función monotónicamente incrementada llamada función característica del
reactivo o curva característica del ítem (CCI). Esta función especifica que a
medida que el nivel del rasgo incrementa, también incrementa la probabilidad de
una respuesta correcta ante ese reactivo." (p.7) Son supuestos de la TRI:
1. La unidimensionalidad del rasgo latente: que las
respuestas del examinado estén determinadas por una única variable denominada
Rasgo. Ej.: Un ítem de un test espacial medirá solo habilidad espacial y no
ninguna otra cosa (Ferreres Traver, 2005)
2. La independencia local: Las respuestas de un
evaluado a cualquier par de ítem son independientes y la probabilidad de
responder correctamente a un ítem es independiente de la probabilidad de
responder correctamente cualquier otro ítem (Ferreres Traver, 2005).
Existen muchos modelos de la TRI, pero los básicos
son:
Para construir una prueba de acuerdo a los principios
de la TRI, es necesario construir un banco de reactivos con parámetros
estimados para cada ítem, de acuerdo al modelo seleccionado. El procedimiento
recomendado por Lord (1977) consiste en los siguientes cuatro pasos:
1. Decidir acerca de la forma deseada de la función de
información de la prueba o curva de información deseada (target information
curve).
2. Seleccionar los reactivos del banco cuya curva de
información deseada cae bajo el área de la curva de información de la prueba,
de tal manera que saturen el área bajo la curva de la función deseada de la
prueba.
3. Conforme se adicionan reactivos a la prueba, se
recalcula la curva de información de la prueba con los reactivos seleccionados
hasta ese momento.
4. Continuar la selección de los reactivos hasta que
la función de información de la prueba se aproxime a la función de información
deseada con un grado satisfactorio." (p. 23)
Sin embargo, la TRI no se encuentra libre de problemas
y su aplicación contiene ciertos puntos riesgosos debido a que el uso de
criterios estadísticos para la selección de los reactivos no asegura una prueba
con contenidos completamente válidos. Deficiencias en los procedimientos de
selección de los contenidos pueden generar una prueba con un bajo nivel de
validez de contenido (Hambleton, Swaminathan y Rogers;1991). Otro problema de
la TRI es que cuando se utilizan funciones de información de los reactivos
durante el desarrollo de una prueba, es probable que los valores sean
sobrevalorados y por lo tanto, la función de información podría sesgarse. Una
prueba construida con ítems de valores elevados puede ser que no corresponda a
los de la prueba esperada. Como consecuencia, la función de información de la
prueba será sobrevalorada y por lo tanto, habrá que añadir varios reactivos
adicionales para compensar esta sobrevaloración.
Sin embargo, una de las ventajas de la construcción de
los tests de acuerdo a los modelos de la TRI es que se pueden elaborar tests
individualizados, es decir, “a la medida” de los sujetos que permiten inferir
en cada uno de los evaluados un verdadero valor del rasgo de la manera más
precisa.
¿Qué
es el Dominio del Test?
Siguiendo a Tornimbeni et al. (2004) la construcción
de una escala de medición de algún aspecto del comportamiento humano requiere
previamente un exhaustivo análisis conceptual del dominio o rasgo a medir. Para
estos autores se debe obtener definiciones conceptuales ajustadas del rasgo en
cuestión y decidir cuál tipo de indicadores operacionales son adecuados para
describirlo. Todas las dimensiones importantes del rasgo estudiado deben
incluirse. Si se trata de una prueba para medir “rendimiento”, la definición
del dominio puede realizarse delimitando el universo de situaciones a ser
evaluadas. Así por ejemplo, en el caso de un examen de Estadística, el universo
abarcaría los objetivos y contenidos del programa de la asignatura. En la
medición del rendimiento se pueden utilizar pruebas referidas a criterios o
referidas a normas. Los procedimientos de construcción de las pruebas referidas
a criterios difieren de aquellos usados tradicionalmente en las pruebas de
rendimiento. Para la elaboración de pruebas por normas, se parte de la
construcción de una tabla de especificaciones que es una tabla de doble entrada
por medio de la cual se relacionan los objetivos cuyo logro se desea evaluar
con los contenidos específicos correspondientes. A partir de esta tabla se
determina la cantidad de ítems que conformará la prueba y se lleva a cabo su
redacción.
En la construcción de una prueba con referencia a
criterios, en cambio, no se realiza una tabla de especificaciones, sino que se
define y delimita el dominio de conductas correspondientes a cada objetivo.
Siguiendo dicha definición se elaboran los ítems que evaluarán ese dominio de
conductas y todos los desempeños individuales serán referidos a ese dominio.
Tal como lo establece Pophan (1975) citado por Tornimbeni et al.(2004) por
dominio debe entenderse “el conjunto de conductas que debería exhibir el alumno
en relación con un objetivo dado, si éste ha sido alcanzado”. Es decir, todas
aquellas tareas que el alumno debería poder realizar si el objetivo ha sido
logrado. Para Hambleton y Rogers (1991) citados por los mismos autores, el
“dominio” puede ser de conductas, objetivos, destrezas y competencias y la
amplitud del dominio varía en función de la finalidad del test. Si el dominio
comprende más de un objetivo pueden construirse subtests para cada objetivo, y
se evalúa el rendimiento de los sujetos en cada uno de ellos. Para la
especificación del dominio de conductas o clase de tareas que el individuo debe
realizar, seguiremos el esquema propuesto por Tornimbeni et al (2004) que
proponen:
Las Escalas
La medición es la asignación numérica de acuerdo con
reglas y las escalas son las reglas de medición. La elaboración de escalas
puede definirse como el proceso de establecimiento de reglas para la asignación
numérica en la medición. O sea es el proceso por el cual se diseña y calibra un
dispositivo de medición y la forma en que se asignan números, valores de
escala, a diferentes cantidades del rasgo o atributo que se está midiendo. Al
prolífico L. Thurstone se le acredita la adaptación de los métodos de
elaboración de escalas psicofísicas al estudio de variables psicológicas. Las
escalas son instrumentos usados para medir algo, ese algo en psicometría es un
“rasgo” o atributo psicológico. Las escalas pueden clasificarse a lo largo de
un continuo del nivel de medición y denominarse por su naturaleza como
nominales, ordinales, de intervalo o de razón.
Quienes elaboran las pruebas diseñan un método de
medición, es decir, hacen la escala de una prueba, en la forma que creen que se
adapta mejor a la manera en que han conceptualizado la medición del rasgo o
rasgos que son su objetivo. No hay un único método para la elaboración de
escalas, el que una escala sea de naturaleza nominal, ordinal, de intervalo o
de razón dependerá en parte de los objetivos de la escala y de la legitimidad
matemática de las manipulaciones y transformaciones de los datos resultantes.
Existen “escalas de estimación” que son agrupamientos
de palabras, afirmaciones o símbolos en los que juicios relativos a la
intensidad de un rasgo, actitud o emoción particular es indicada por quien
responde la prueba. Un tipo de “escala de estimación sumatoria”, la escala
Likert se usa en forma extensa dentro de la psicología, por lo general en
escala de actitudes. Las escalas Likert son relativamente fáciles de elaborar,
cada reactivo presenta cinco respuestas alternativas, por lo general, en un
tipo de continuo entre acuerdo y desacuerdo o aprobación y desaprobación. Las
escalas Likert son confiables, lo cual puede explicar su popularidad. Otro
método de elaboración de escalas que produce datos ordinales es el método de comparaciones
apareadas. A quienes responden la prueba se les presentan pares de estímulos y
se les pide que los comparen y seleccionen uno por medio de alguna regla. Otra
forma de derivar información ordinal por medio de un sistema de elaboración de
escalas implica tareas de clasificación. En estos enfoques se presentan
tarjetas impresas, dibujos, fotografías, u otros estímulos y se les pide a los
evaluados que los clasifiquen desde las más hasta las menos justificables o que
los jerarquicen. Todos los métodos anteriores producen datos ordinales, el
método de intervalos aparentemente iguales descripto por Thurstone es un método
de elaboración de escalas para obtener datos que se supone son de intervalo.
El método de elaboración de escalas particular empleado
en la elaboración de un test dependerá de las variables que se van a medir, el
grupo para el que se pretende la prueba (por ejemplo los niños pueden requerir
un método de elaboración de escalas menos complicado que los adultos) y las
preferencias del elaborador de la prueba.
Los Ítems
Según lo afirman Tornimbeni et al. (2004) existen
pautas convencionales para la redacción de ítems de prueba. Estas incluyen
recomendaciones tales como: redactar ítems congruentes con el objetivo de
medición y evitar los ítems demasiado largos (de más de 20 vocablos), las
oraciones complejas con ambigüedades de sentido, las frases con dobles
negaciones, el uso de expresiones extremas (nunca, siempre, todos) y utilizar
el lenguaje más apropiado al nivel de maduración y educativo de la población
(Osterlind, 1990). Para Nunnally (1991) los dos errores más comunes en la
redacción de ítems son: a) ambigüedad (preguntas difusas que admiten varias
respuestas) y b) trivialidad (centrarse en aspectos poco importantes del rasgo
o dominio en cuestión)
Existen formatos de selección de respuesta y de
construcción de respuesta, los primeros facilitan la calificación automatizada
y pueden aplicarse con facilidad a gran cantidad de evaluados. El formato de
selección de respuesta en presentar una elección de respuestas y requerir la
selección de una alternativa. Existen tres tipos: los ítem de opción múltiple,
los ítem de relación y los ítem de verdadero/falso. Un reactivo de opción
múltiple consta de tres elementos un enunciado o base del ítem, una alternativa
u opción correcta o clave y varias alternativas u opciones incorrectas llamadas
distractores.
ADAPTACIÓN
DE LOS TESTS
Métodos:
Actualmente se reconoce que la adaptación de un Test
es un proceso mucho más complejo que la mera traducción de ese test en un
idioma diferente. Una adaptación implica considerar no sólo las palabras
utilizadas al traducir la prueba sino también las variables culturales
involucradas. La traducción del inglés al español del siguiente ítem del NEO
PIR “I wouldn´t enjoy vacationing in Las Vegas “ por “No disfrutaría tomando
vacaciones en Las Vegas” es correcta. Sin embargo, este ítem probablemente
tenga un significado distinto ara muchas personas en Argentina que para los
estadounidenses y, probablemente, el significado sea mucho más diferente en
culturas no occidentales. Así una correcta traducción no asegura un significado
unívoco. Van de Vijver y Leung (1997) establecieron tres niveles de adaptación
de las pruebas psicológicas. El primero corresponde al de la aplicación, este
es, la simple y llana traducción de un test de un idioma a otro Este método
asume la equivalencia de constructo. Desafortunadamente, es el método más común
y más utilizado en todo el mundo. Como se indicara anteriormente la sola
traducción de una prueba no nos indica ningún nivel de equivalencia entre ambas
versiones de la misma.
La segunda alternativa es la adaptación. En este caso
a la traducción se agrega la transformación, adición o substracción de algunos
ítems de la escala original. Como se explicó, algunos ítems pueden cambiar su
significado a través de las culturas y, por lo tanto, necesitan modificaciones
o ser eliminados. Así mismo ítems que no existen en la versión original del
test pueden representar mejor al constructo en la población en la cual se
administrará la nueva versión. Baldo (2000) al realizar una baremización del
WISC III en Córdoba encontró que el nivel de dificultad original de los ítems
pertenecientes a los subtests Comprensión, Vocabulario e Información no eran
aplicables a la población Argentina, por lo que propuso un nuevo ordenamiento
de los ítems. Este es un ejemplo de adaptación sin adición o substracción de
ítems.
Finalmente, la opción ensamble puede emerger al
momento de adaptar un instrumento de evaluación psicológica. En este caso el
instrumento original ha sido modificado tan profundamente que prácticamente se
ha transformado en un nuevo instrumento original con los nuevos elementos. Esto
ocurre cuando muchos de los ítems del test original son evidentemente
inadecuados para representar el constructo a medir. Esto sucede en tests de
denominación confrontacional, utilizados en neuropsicología, donde se utilizan
láminas con dibujos de objetos que el evaluado debe nombrar. Estos objetos
tienen distinta frecuencia de observación en la vida diaria de un sujeto y por
ello van a variar considerablemente de una cultura a otra. Es el caso de la
adaptación Argentina del Test de Denominación de Boston (Allegri et. Al 1997).
En la versión original la figura de una bellota está ubicada en el lugar número
32 mientras que en la versión Argentina tal lámina se encuentra sobre el final
en el número 50. El ensamble también se da cuando el constructo no está
representado de forma adecuada por la versión original en la cultura a la que
se quiere adaptar la prueba. Los abordajes indigenistas de la medición de la
personalidad, por ejemplo, han promovido el diseño de tests distintos para
abarcar aspectos de la personalidad no contemplados en las teorías
occidentales. Tal es el caso del Inventario Chino de Evaluación de la
Personalidad, que contiene dimensiones indigenistas de la personalidad tales
como “armonía”.
Técnicas de Traducción
El proceso de traducción es complejo e implica mas que
la traducción lineal de las palabras escritas a un nuevo lenguaje. Existen dos
métodos comunes: la traducción directa o forward translation y la traducción inversa
o backward translation. En el método de traducción directa un traductor, o
preferentemente, un grupo de traductores, traducen el test desde el idioma
original al nuevo idioma. Luego, otro grupo de traductores, juzga la
equivalencia entre las dos versiones. De este modo pueden realizarse las
correcciones pertinentes en las dificultades o errores identificados por los
traductores. En el caso de la traducción inversa, él mas utilizado de los
métodos, un grupo de traductores realiza una traducción desde el idioma
original al nuevo idioma; luego un segundo grupo de traductores toma el test
traducido ( en el nuevo idioma) y vuelve a traducirlo al idioma original.
Seguidamente se realizan las comparaciones entre la versión original y la
versión retraducida al idioma original para determinar su equivalencia. Ambos
métodos poseen diversas ventajas y desventajas, se ejemplifica la metodología
utilizada para la traducción de instrumentos con el caso de la prueba CPI- 434
que actualmente se encuentra en desarrollo.
Métodos para establecer la Equivalencia entre Tests
Una vez que se ha traducido convenientemente una
prueba es necesario realizar un estudio para establecer si esta traducción en
la prueba es equivalente a la original. Para ello habrá de implementarse un
diseño experimental y un análisis de datos obtenidos a través de ese diseño.
Hambleton ( 200) señala que existen básicamente 3 métodos.
1)Administración de la prueba en el idioma original y
de la prueba traducida a sujetos bilingües: En
este caso se le administrara ambas versiones de la prueba ( la original y su
traducción al nuevo idioma) a sujetos que hablan ambos idiomas. Si por ejemplo,
deseamos traducir el test de Inteligencia de Wechsler para Adultos, Versión III
desde el ingles al Español, administraremos la versión en Ingles y la versión
en Español a los evaluados que hablen ambos idiomas. Este método según
Hambleton, posee ventajas y desventajas. Entre las primeras se pueden mencionar
que pueden controlarse las diferencias de las características de los
participantes en el test ( por ejemplo su habilidad) ya que ambas pruebas son
administradas a la misma persona. Entre las desventajas, este autor que este
diseño esta basado en la premisa de que los sujetos son igualmente competentes
en ambos idiomas, lo cual es difícil de sostener. Es probable, entonces, que
puedan observarse diferencias entre ambas versiones debido a una menor
capacidad de algunas personas para entender los ítems en alguno de los dos
idiomas. La segunda gran desventaja de este diseño es que no puede asegurarse
que los bilingües posean el mismo nivel de competencia que la población
general. Por el hecho de conocer otro idioma es probable que se trate de
personas con una mayor capacidad intelectual o mejor educación. Hambleton,
también señala una variación de este método que conserva las misma ventajas y
desventajas pero que es más fácil de implementar. La misma consiste en
administrar al azar una ( no ambas) de las versiones del test ( en español o en
ingles) a los participantes bilingües.
2)Administración de la versión original y su
traducción inversa a monolingües en el idioma original: Siguiendo nuestro ejemplo anterior, planteado por las
autoras ( Tornimbeni et. Al. 2004) se le administraría la versión original del
WAIS – III y la versión obtenida de la traducción inversa a sujetos cuyo idioma
natal es el ingles. La equivalencia de los ítems se determina comparando el
desempeño de cada sujeto en cada ítem de ambas versiones. Nuevamente, la
ventaja esta en el control de las diferencias en las características de los
participantes. La primer gran desventaja esta en que este diseño no permite
obtener datos con la versión en el idioma meta ( target) del test ( español en
el ejemplo). De esta manera no es posible obtener puntajes de sujetos que
hablen el idioma al que se intenta traducir el test. La segunda gran desventaja
de este diseño reside en el hecho de la posible falta de independencia entre
los puntajes obtenidos ya que es probable que exista un efecto de aprendizaje
luego de la administración de la primer versión de la prueba, especialmente si
la primera es la original. La administración al azar de una de las versiones en
el primer lugar puede reducir la importancia del efecto de aprendizaje.
3)Administración de la versión original a monolingües
que hablan el idioma original y de la versión traducida a monolingües que
hablan el idioma al que ha sido traducida la prueba: Siguiendo con el ejemplo enunciado por Tornimbeni et.
Al (2004), se administraría la versión en ingles del WAIS – III a evaluados
cuyo idioma natal es el Español. Una posible dificultad reside en asumir que
los sujetos de ambas muestras poseen una habilidad comparable. sin embargo,
Hambleton sugiere que tal obstáculo puede superarse si los análisis son
desarrollados con la Teoría De Respuesta al Ítem, en la cual se asume que
utilizando distintos conjuntos de ítem pueden obtenerse las mismas estimaciones
de aptitud . Igualmente, administrando esos ítem a distintas muestras de
examinados las estimaciones de parámetros obtenidas serán iguales.
Una vez obtenidos los datos por medio de los diseños
revisados existen varias posibilidades estadísticas para su análisis.
Básicamente el análisis estará destinado a identificar la existencia de
Funcionamiento Diferencial de items ( FDI) es decir, ítem que se comportan en
forma diferente a través de las diversas muestras transculturales.
Por ejemplo, en las investigaciones citada de Tanzer (
1995) en donde el investigador le administro dos cuestionarios sobre
autoconcepto académico de lectura y matemáticas. En los resultados pudo
observarse que a pesar de que la prueba mostraba la misma estructura factorial
para ambos grupos culturales, cuando las escalas de los ítems de competencia/
facilidad se trabajaban en forma individual podían observarse grandes
diferencias entre ambos grupos culturales. El autor especulo con que tal
diferencia sé debía a un factor cultural de modestia, la cual es una virtud
deseable dentro de la cultura de Singapur, fuertemente influenciada por la
cultura china. Así, los singaporeanos eran más renuentes a mostrar una actitud
autoelogio o jactancia. Esta investigación además, de ser un ejemplo de FDI,
muestra también la insuficiencia de comparar las estructuras factoriales de las
pruebas cuando son aplicadas transculturalmente. Como puede observarse en estos
resultados, es necesario siempre realizar un análisis de (FDI) ya que a pesar
de conservar una misma estructura factorial un grupo puede mostrar valores
mucho más bajos que otro en determinados ítem.
Existen diversos métodos en los que se puede analizar
el comportamiento de los ítems. Algunos métodos dentro de la TCT tales como los
métodos de suma de chi-cuadrado o el de Mantel y Haenzel que fuera adaptado
para el FDI por Holland y Thayer ( 1988) y que es en la actualidad él mas
utilizado a estos fines. El análisis puede desarrollarse dentro de la TRI en
donde el mismo se centrara en las probabilidades que tiene una persona con un
determinado nivel de habilidad de contestar un ítem en forma correcta. El
modelo de Rasch, de un solo parámetro es él más popular.
Fuentes de Sesgo
Si deseamos usar las pruebas para predecir resultados
en alguna situación futura como por ejemplo en el desempeño de un aspirante a
la universidad, necesitamos instrumentos con alta validez predictiva del
criterio particular. Este requisito suele descuidarse en el desarrollo de las
llamadas “ pruebas libres de influencia cultural”. En un esfuerzo por incluir
en esas pruebas solo las funciones comunes a diferentes culturas o subculturas,
puede elegirse un contenido que tenga poca relevancia para el criterio que se
pretenda predecir. Una mejor solución es elegir un contenido relevante para el
criterio e investigar luego las posibles diferencias poblacionales de la
efectividad de la prueba para el propósito pretendido.
Desde mediados de la década de los setenta se ha
observado una rápida acumulación de investigaciones sobre problemas de sesgo de
la prueba. En este contexto, el termino “ sesgo” se emplea en su bien
establecido sentido estadístico, para desganar un error constante o sistemático
en contraste con uno que se debe al azar. Las principales preguntas que se han
planteado con respecto al sesgo de la prueba tiene que ver con el coeficiente
de validez ( sesgo de la pendiente) y la relación entre las medias del grupo en
la prueba y en el criterio ( sesgo de intersección). Si una prueba produce un
coeficiente de validez significativamente diferente en dos grupos, la
diferencia se describe como sesgo de la pendiente y esta clase de diferencia
entre grupos se conoce como “ validez diferencial”. Una prueba exhibe sesgo de
intersección si sistemáticamente subpredice o sobrepredice una ejecución del
criterio para un grupo particular.
El problema del sesgo de la intersección se relaciona
mas con lo que ha sido llamado “ equidad de la prueba”. Aunque los términos “
equidad” y “ sesgo” de la prueba a veces se usan indistintamente para cubrir
todos los aspectos del uso del instrumento con minorías culturales.
Modelos de decisión para el uso justo de las pruebas:
Gradualmente empezó a cambiar el interés de la
investigación en la evaluación del sesgo de las pruebas al diseño de
estrategias de selección para su uso justo con minorías culturales. Entre las
metas por reconciliar están las de proporcionar iguales oportunidades a todos
los individuos , elevar al máximo la tasa del éxito y la productividad,
incrementar la mezcla demográfica y la representatividad y extender el
tratamiento preferencial a grupos desfavorecidos por inequidades anteriores.
Van de Vijver y Tanzer ( 1997) identificaron
diferentes fuentes de sesgo , que a continuación se explicitan:
a) Sesgo de
constructo:
Este tipo de sesgo se da “ cuando el constructo medido
no es idéntico a través de los grupos culturales...” ( p.p. 264, Van de Vijver
y Tanzer, 1997). La importancia que cada cultura otorga a ciertas conductas se
encuentra en esta categoría. Conductas de ética y civismo que en algunas
sociedades pueden ser normales en otras pueden constituir un verdadero rasgo de
rigidez y asemejarse a una conducta obsesivo compulsivo.
b) Sesgo
metodológico:
Este sesgo reconoce tres formas.
El sesgo de muestra: que se da cuando las muestras son incomparables entre
si. La cantidad de años de escolaridad que poseen los sujetos de una muestra es
una variable determinante en el desempeño del mismo en un test determinado,
especialmente si se trata de un test de habilidad. El nivel sociocultural, la
motivación, la composición por genero y edad de los sujetos son otras variables
que pueden hacer incomparables a dos muestras que pueden mostrar resultados muy
diferentes en un test determinado.
El sesgo en el instrumento: que puede provenir de las características del
instrumento. La familiaridad que los sujetos tienen con los estímulos
presentados tiene una gran importancia. Algunos estímulos tales como objetos,
dibujos, figuras u otros elementos utilizados en algunas culturas no existen en
otras o son irrelevantes. El ítem de ejemplo en el Sub. Test de Ordenamiento de
lamina WISC III que muestra a una mujer frente a una maquina expendedora de
latas de gaseosa tiene muy poco valor en culturas árabes, por ejemplo, o en
zonas rurales de nuestro país. El idioma es otra fuente de sesgo de
instrumento. La traducción de un idioma a otro frecuentemente subestimada, es
un problema importante que requiere una metodología especifica a seguir. Los
problemas son mayores cuanto mas diferencias hay entre idiomas como entre el
ingles y el chino o el árabe, idiomas cuya lectura se realiza de izquierda a
derecha a diferencia del de derecha a izquierda. También la disposición del
texto tiene importancia en el completamiento de frases o de interpretación de
textos, mayor es el problema cuando implican conectar letras y números
siguiendo un orden alfabético o numérico y los caracteres de idiomas como el
español, ruso, griego. Árabe, hebreo o chino son tan diferentes. También entre
los idiomas occidentales existen diferencias como que en ingles no existe la
“ñ” que el alfabeto sueco contiene mas vocales, y en portugués existen
distintos tipo de a. Los métodos de respuesta constituyen otra fuente de sesgo
del instrumento. Las laminas de respuestas del Test de Matrices Progresivas de
Raven que implica completar una secuencia lógica con una figura opcional,
incluyen la figura faltante al final de la segunda fila, con lo que asume una
lectura de izquierda a derecha. Este hecho fue demostrado por Carpenter, Just y
Shell ( 1990) en un muy preciso estudio que implica una serie de desventajas
para los sujetos de las culturas árabes quienes involuntariamente van a
intentar resolver la prueba de derecha a izquierda, forma en que se lee su
idioma.
El sesgo de administración: incluye problemas tales como dificultades en la
comunicación, es decir, dificultades para que el entrevistado entienda las
instrucciones del entrevistador ya sea por la dificultad de las palabras
utilizadas, el modo de explicación de las instrucciones o un inadecuado manejo
del idioma de alguna de las partes. También se incluyen las alteraciones en la
manera de administrar las pruebas. Normalmente los manuales incluyen
instrucciones de administración que en muchos casos no son adecuadas para la
población a aplicar. Los administradores del Test entonces adaptan esas instrucciones
según su criterio personal. Otro punto importante es el uso de cronómetros que
produce serias alteraciones en los resultados.
Sesgo de ítem: Se produce cuando el mismo tiene diferentes
significados en distintas culturas. Ciertos grupos culturales pueden obtener
puntajes significativamente distintos en un ítem determinado a pesar de obtener
un puntaje total similar. La deseabilidad social o la relevancia cultural,
entre otros factores, pueden producir el sesgo de ítem. Tanzer (1995) demostró
que aunque la estructura factorial de un Test de autoconcepto académico era
similar cuando se lo aplico a estudiantes australianos y singaporeanos,
existían diferencias sustanciales entre estas muestras cuando se compararon
algunos ítem específicamente. Este tipo de sesgos también actúa en test
neuropiscologicos.
La educación es uno de los grandes pilares de la economía en un país, por ello el estado, los docentes y la sociedad deben dar la importancia que en verdad requiere; todos y cada uno de nosotros formamos parte de esta nación en la cual se deben formar a niños capaces de desarrollar sus capacidades y habilidades intelectuales y motoras.
El aspecto psicomotor, es imprescindible en el aprendizaje del niño debido a los aspectos que se logra desarrollar en el, como son: la creatividad, la socialización, aumento de la autoestima, etc. Estos aspectos logran mejorar notablemente la seguridad de los alumnos y aun más mejoran su rendimiento académico.
En la educación infantil los niños hallan en su cuerpo y en el movimiento las principales vías para entrar en contacto con su mundo real y, de esta manera, comienzan a adquirir los primeros conocimientos acerca de su crecimiento y desarrollo.
En si, las actividades motoras cobran gran importancia durante las actividades de la infancia sobre todo en la etapa preescolar y primaria en la que el niño comienza a socializar con sus demás compañeros y a manera de juego va adquiriendo los conocimientos que posteriormente le serán útiles.
Sin duda, el que el alumno vaya descubrimiento el propio cuerpo como fuente de sensaciones, la exploración de las posibilidades de acción y funciones corporales, le darán las posibilidades de obtener las experiencias necesarias sobre las que se irá construyendo el pensamiento infantil.
Asimismo, las relaciones afectivas establecidas en situaciones de actividad motriz, y en particular mediante el juego, serán fundamentales para el crecimiento emocional. Y como se había mencionado anteriormente le brinda la seguridad que necesita en su vida diaria.
La motricidad adquiere una especial relevancia en determinadas etapas educativas ya que busca el desarrollo armónico del cuerpo como medio o como instrumento para alcanzar la madurez humana, la armonía, un autoconcepto positivo y una razonable autoestima. Es, también, el medio mas adecuado para el cultivo y desarrollo de actitudes positivas y de valores individuales y sociales; por lo tanto, es de gran importancia fomentarla en la educación ya que aporta su contribución a la educación integral de las personas, dado que proporciona experiencias que originan actitudes positivas.
Para ello es necesario que los maestros y educadores del nivel educativo básico brinden de forma responsable, las herramientas y las formas de intervención didáctica en el ámbito motor.
Thelen (1989), dice: “El desarrollo proviene de factores genéticos, considerados con frecuencia los responsables últimos del potencial biológico, así como de factores del medio ambiente, es decir, factores sociales, emocionales y culturales que interactúan entre sí de forma dinámica y modifican de forma significativa el potencial del crecimiento y desarrollo .”
Por tanto un deficiente desarrollo psicomotor, se refiere a que los movimientos y también los aspectos psicológicos no son alcanzados en su plenitud.
JUSTIFICACIÓN:
Herrera Vázquez (2008) “Consiste en demostrar porque es digno de investigar el tema seleccionado, es importante explicar porque es conveniente llevar a cabo el proceso de investigación y cuáles son los beneficios que se obtendrán.”
Sampieri, (2006) “La investigación requiere de una razón para llevarse a cabo, conveniencia, relevancia social, implicaciones prácticas, valor teórico y utilidad metodológica. En la justificación se pueden incluir datos cuantitativos para dimensionar el problema de estudio.”
En la justificación se dan a conocer los motivos por el cual se ha elegido el tema y para que puede servir la presente investigación.
El presente test fue elegido, debido al creciente número de alumnos que presentan deficiente desarrollo motor tanto en la escritura como en las expresiones artísticas, además de que el fortalecimiento de la coordinación motriz ayuda al desenvolvimiento del alumno en el aspecto socioafectivo, por tanto mejorara su autoestima, su relación con los demás y claro esta que aumentara su rendimiento académico.
Por tanto se realizaran una serie de actividades encaminadas a fortalecer la motricidad fina – gruesa, y las cuales están relacionadas con la aplicación del test, y servirán como estudio diagnostico para obtener los resultados que son necesarios.
DELIMITACIÓN DEL PROBLEMA:
Herrera Vázquez, (2008): “Es indispensable que el investigador identifique lo siguiente:
a Delimitación en el espacio físico – geográfico. Conviene delimitar cada vez más el espacio físico que abarca el objeto de estudio, hasta que se vuelva accesible para la investigación.
b Delimitación en el tiempo. Es necesario para que el tema pueda ser trabajado satisfactoriamente al margen de las limitaciones de información, tiempo, recursos materiales y conocimientos del investigador. Se debe seleccionar el periodo de investigación.
Delimitación semántica o estudio exploratorio. Es la necesidad de aclarar los significados de palabras, categorías o símbolos usados en el tema de investigación.”
Esta etapa consiste en poner límites al área en donde se realizara la aplicación del test, que conceptos y temas se van a utilizar y en que periodo se llevará a cabo.
Contenido: Los temas que se van a revisar son conceptos básicos de psicomotricidad, la importancia del desarrollo psicomotor en la infancia, el apoyo que los padres de familia deben de dar para fortalecer el aprendizaje de sus hijos y aparte de buscar las estrategias más apropiadas para mejorar el desarrollo psicomotor de los alumnos.
Espacio físico- geográfico: El campo de estudio de la aplicación del test será en el municipio de Atlacomulco en la comunidad de Dolores la Joya. Atlacomulco es una ciudad mexicana perteneciente al Estado de México y ubicado al noroeste de la entidad. Al norte colinda con el municipio de Acambay, al sur con el municipio de Jocotitlán, al este con los municipios de Timilpan y Morelos y al occidente con los municipios de El Oro y San José del Rincón.
Tiempo: La aplicación del test se realizará en un periodo de una semana, o de acuerdo a las necesidades requeridas por los alumnos. Solo es una estimación promedio del tiempo a
utilizar.
El siguiente video muestra algunas actividades que se podrían realizar con niños, durante la sesión de educación física. estas actividades fortalecen el desarrollo motor de los pequeños.
Test Guestáltico Visomotor
Autor/es:
Test
original: Lauretta Bender
Método de
corrección: Elizabeth M. Koppitz
Año
Publicación inicial y última revisión:
Instrumento creado por Lauretta Bender entre 1932-1938
Método de corrección según Elizabeth M. Koppitz:
Inicial:
El tests Guestáltico visomotor para niños. Escrito en la década de
1960. En español publicado por Ed. Guadalupe. 6º edición 1976
Actual
El test guestáltico de Bender. Investigación y aplicación 1963 -1973.
En español Ed. Oikos Tau
Última publicación sin modificaciones (cambia el título):
El test de Bender. 2ª edición. 1995. Ed. Oikos Tau, serie Oikos Textos
. España (Primera edición 1981)
Objetivo de la Técnica :
Test
de desarrollo infantil. Evalúa la maduración perceptiva y la integración
visomotora e indicadores emocionales.
Puede
ser empleado como test proyectivo gráfico en personas mayores e incluso como
instrumento de diagnóstico diferencial en psiquiatría.
Origen Conceptual
Teoría de la Guestalt
II) Administración
Población a la que se puede
administrar:
1-
Niños de 5 a 11 años
Forma de Administración:
Se administra dentro de una batería psicodiagnóstica, tanto clínica
como educacional.
a)
Individual X Grupal X
b) Material Necesario:
9
láminas que componen el test, hojas A4,
lápiz nº 2, goma, sacapunta.
c) Consigna: :
“Aquí
hay nueve tarjetas con diseños para que los copies (señalar las tarjetas). Aquí
esta el primero ( dar vuelta la primer tarjeta). Ahora, haz uno igual a este”.
Otra opcion es “Ahora quisiera que me dibujaras algunos diseños. Aquí hay nueve
tarjetas y cada tarjeta tiene un dibujo en ella (señalar las tarjetas). Quiero
que copies los dibujos. Hazlos lo mejor que puedas”.
d)
Tiempo de Aplicación
La mayoría de los
niños de edad escolar necesitan aproximadamente 6 minutos, 20 segundos para
completar el test.
III) Corrección:
Descripción del procedimiento
Cada dibujo realizado
por el niño es puntuado de acuerdo a las siguientes pautas:
·
distorsión de la forma
·
rotación de todo o parte del
dibujo
·
integración de las partes del
dibujo no logradas
·
perseveración
Son 30 ítems
puntuables. La puntuación máxima es de 30 puntos. Se asigna un punto por cada imperfección en
la ejecución.
Tiempo de Corrección
30 minutos
IV) Aspectos Psicométricos:
Tipo de Instrumento: (clasificación Collins, Pervin
o Pichot)
Test
de lápiz y papel
Test
Objetivo
Baremos:
a)
Muestra de tipificación: La muestra normativa
de 1974 estaba compuesta por 975 niños de escuela primaria, entre los 5 y 11
años, 11 meses que vivían en áreas rurales, pueblos pequeños, suburbios y
grandes centros urbanos en el oeste, sur y noreste de USA. 86 % blancos, 8,5 %
negros, 4.5 % mexicoamericanos y portorriqueños y 1 % asiáticos.
b)
Normas
de desarrollo: Edad: EMPM
Fiabilidad
a)de re-test de la puntuación total es de .50 a .90
(Intervalo de aplicación del mismo día hasta 8 meses) Si bien esta confiabilidad
no son lo suficientemente altas como para justificar la toma de desiciones
diagnósticas, son adecuadas para formular hipótesis acerca de la capacidad
visomotora. (Sattler. Evaluación Infantil cap. 14)
d) Del evaluador: van desde .79 a
.99 (Sattler. Evaluación Infantil cap 14)
Validez
Cuando se utiliza como prueba del desarrollo precepto-motor
en niños parece tener validez aceptable (Sattler. Evaluación Infantil. Cap. 14)
a)
Empírica: Concurrente: Con la prueba
Frostig del Desarrollo de la Percepción visomotora
va de .39 hasta .56 y con la Prueba de Desarrollo de la Integración Visual
va de .59 a .
73 (Sattler. Evaluación Infantil. Cap. 14)