twitter
rss


TEST Y EVALUACION PSICOLÓGICA

Las raíces de las pruebas y la evaluación psicológica contemporánea pueden encontrarse en Francia a principios del Siglo XX. En 1905 Alfred Binet había publicado una prueba que fue diseñada para ayudar a colocar a los niños parisienses en edad escolar en clases apropiadas. La prueba de Binet tuvo consecuencias que superaron los límites de París, en poco tiempo se preparó una versión en inglés para usar en escuelas de Estados Unidos.

En ese país se estaba estudiando el uso de pruebas psicológicas por primera vez en el ejército. Tanto en la primera como en la segunda guerra mundial, las pruebas cumplieron con el objetivo de examinar con rapidez a grandes cantidades de reclutas en busca de problemas intelectuales y emocionales.
El apogeo de las pruebas psicológicas se dio en la década de 1950 y principios de la de 1960. Se administraban pruebas en escuelas, en instituciones de salud mental, en dependencias gubernamentales, etc.

“Prueba” era el término usado para referirse a todo, desde la administración de una prueba hasta la interpretación de la evaluación de la misma. Sin embargo, para la época de la Segunda Guerra Mundial comenzó a surgir una distinción semántica entre “prueba” y otro término más incluyente “evaluación”.

Si bien es cierto que subsiste aún hoy día la ambigüedad en el uso de dichos términos, para este caso se define a “evaluación psicológica” como la recopilación e integración de datos relacionados con la psicología con el propósito de hacer una valoración psicológica, lograda con el uso de herramientas como pruebas, entrevistas, estudios de caso, observación conductual y aparatos y procedimientos de medición diseñados en forma especial.

Y por tanto se define a la: “prueba psicológica” como el proceso de medir variables relacionadas con la psicología por medio de dispositivos o procedimientos diseñados para obtener una muestra de comportamiento (Cohen y Swerdlik, 2001).
¿QUIÉN, A QUIÉN Y CON QUÉ EVALUAR?

¿Quién?

Quienes se dedican a elaborar pruebas, brindan una amplia variedad de antecedentes y detalles respecto del proceso de elaboración. Sin embargo, la APA (American Psychological Association) estima que más de 20.000 pruebas nuevas se elaboran cada año y abarcan pruebas elaboradas para un estudio de investigación específico, revisiones de anteriores publicadas , etc. Reconociendo que las pruebas y las decisiones tomadas como resultado de su administración pueden tener un impacto significativo en las vidas de las personas que responden las pruebas, varias organizaciones publicaron normas de comportamiento ético referidas a la elaboración y uso responsable de pruebas. Las más conocidas son las Normas o Standards for Educational and Psychological Testing elaboradas por la Asociación Estadounidense de Investigación Educativa, la Asociación Psicológica Estadounidense y el Consejo Nacional sobre Medición en Educación.

¿Con qué?

Las pruebas son usadas por una variedad de profesionales, y todos deberán cumplir los principios éticos correspondientes. La prueba debe guardarse para que su contenido específico no sea dado a conocer con anticipación. Descripciones previas a la administración de la prueba, de los materiales que contiene la misma, en el caso de pruebas de inteligencia, no son aconsejables pues podrían comprometer los resultados. El que administra la prueba debe estar familiarizado con los materiales y procedimientos de la prueba y tener todos los materiales necesarios para administrarla en forma apropiada. También debe asegurarse de que el salón en el que se realice la prueba sea el adecuado, evitando condiciones distractoras como ruido excesivo, calor, frío, interrupciones, luz solar deslumbrante, hacinamiento, ventilación inadecuada, etc. Es fundamental la empatía entre el evaluador y el evaluado. En el contexto de situación de prueba, la empatía puede definirse como una relación de trabajo entre evaluador-evaluado. Lograr la empatía con el evaluado no debe alterar las condiciones de administración de la prueba. Existen otros factores que pueden influir en el desempeño en pruebas de inteligencia como por ejemplo que el evaluador sea familiar o no, que esté presente o ausente, y sus modales en general. Otro factor importante ha sido el género.

¿A quién?

Las personas evaluadas enfocan una situación de evaluación de diferentes formas y los administradores deben ser sensibles a la diversidad de respuestas posibles ante una situación de prueba. El evaluado en situación de diagnóstico o evaluación puede variar en: a) ansiedad experimentada y grado en que ésta podría afectar los resultados
b) capacidad y disposición para cooperar con el evaluador o comprender las instrucciones escritas.
c) el dolor físico o la angustia emocional que esté sufriendo el evaluado.
d) malestar e incomodidad derivado de no haber comido suficiente o por otras condiciones físicas.
e) grado en que está alerta y despierto y no somnoliento
f) grado en que estén predispuestos a estar de acuerdo o en desacuerdo cuando se les presenten los reactivos
g) grado en que han recibido preparación previa.
h) importancia que atribuyan a describirse a sí mismos en forma buena o mala
i) grado de “suerte” que tiene el evaluado al responder sin conocer de lo que responde.
También el evaluado tiene derechos en situaciones de evaluación como por ejemplo a dar su consentimiento para ser evaluado, a que los resultados sean confidenciales y a ser informado de los resultados.

CONSTRUCCIÓN Y ADAPTACIÓN DE LOS TESTS


La elaboración de las pruebas es un tema complejo que implica la aplicación de principios establecidos; la obtención de una buena prueba no es una cuestión fortuita sino la respuesta a diversos interrogantes como los que se describen a continuación:


TEORÍAS DE LOS TESTS

Existen diversos paradigmas o modelos que permiten explicar el significado de las puntuaciones obtenidas con los Tests. El análisis o modelado de las matrices de datos obtenidas da como resultado:
• La estimación del nivel en que poseen los sujetos la(s) característica(s) que mide el test (valores escalares de los sujetos)
• La estimación de los parámetros de los items (valores escalares de los items).


Es decir que el objetivo de cualquier teoría de tests es realizar inferencias sobre el nivel en que los sujetos poseen la característica o rasgo inobservable que mide el test, a partir de las respuestas que éstos han dado a los elementos que forman el mismo. Así para medir o estimar las características latentes de los sujetos es necesario relacionar éstas con la actuación observable en una prueba y esta relación debe de ser adecuadamente descrita por una función matemática. Las distintas teorías de tests difieren justamente en la función que utilizan para relacionar la actuación observable en el test con el nivel del sujeto en la variable inobservable. Y sirven para dar cuenta del error de medida a toda medición psicológica o estimación del error; y proporcionar una estimación del rasgo o característica evaluada (estimación del rasgo).

Existen dos teorías de medición psicométrica y a continuación se explican cada una de ellas.


Teoría Clásica de los Tests

La Teoría Clásica de los Tests, iniciada por Spearman, sostiene que la puntuación observable de una persona en un test es una función de dos componentes: su puntaje verdadero (inobservable) y el error de medición implícito en la prueba. El TCT (modelo lineal de la teoría clásica) es un modelo de puntuación verdadera como valor esperado, esperado como concepto matemático, probabilístico. Es decir, el puntaje verdadero de un sujeto en un test sería el promedio aritmético de las puntuaciones empíricas obtenidas en infinitas aplicaciones (Muñiz, 2001).
La Teoría Clásica de los Tests (TCT) es, en síntesis, el conjunto de principios teóricos y métodos cuantitativos derivados de ellos, que fundamentan la construcción, aplicación, validación e interpretación de distintos tipos de tests y que permiten derivar escalas estandarizadas aplicables a una población (Hambleton, 1994). Los principios en que se basa son relativamente simples y se aplican tanto a las pruebas de desempeño, como a las de aptitud. Durante sus diferentes fases de desarrollo, se han elaborado procedimientos de análisis cuantitativo que han sido de gran utilidad, destacándose en lo general, tres grandes etapas que se identifican por su objeto de interés primordial, así como por los métodos cuantitativos y tipos de análisis teóricos que utilizan.
La primera etapa que Cattell (1986) denomina itemetría, se caracteriza principalmente por la construcción de pruebas conformadas por reactivos cuyas propiedades estadísticas eran el centro de atención principal. Los tests se consideraban como el producto de la integración de un conjunto de reactivos cuyas propiedades estadísticas tenían que ser determinadas antes de que se les incluyera en esa prueba particular. Esto propició que el concepto de confiabilidad adquiriera prominencia como la principal virtud de la escala y se medía a partir de la correlación entre los reactivos individuales y el instrumento en su conjunto. Si la correlación era alta, se decía que los reactivos eran los adecuados. Sin embargo, con frecuencia resultaba que la correlación no era tan buena, y el resultando era que se obtenían reactivos deficientes y la prueba en su conjunto era de escaso valor. El concepto mismo de confiabilidad implicaba al de error de la medida y tuvieron que desarrollarse procedimientos distintos para determinar la confiabilidad del test de una manera más precisa. Tal fue el caso de los procedimientos de pruebas paralelas y de división por mitades.
La itemetría hizo contribuciones valiosas a la psicología debido al énfasis que puso en el análisis del error. Entre sus contribuciones se encuentran varios conceptos sobre precisión de la medida, las técnicas para el tratamiento del error y el uso generalizado del error estándar de la medida como la medida básica del error. Además, dio lugar a contribuciones tales como las fórmulas de Spearman-Brown (Spearman, 1904), Kuder-Richardson (Kuder & Richardson, 1937), Alfa de Cronbach (Cronbach, 1951) y a varios principios básicos de escalamiento, así como al uso generalizado de la curva normal, el uso de las correlaciones múltiples y la fórmula de atenuación, etc. La siguiente etapa es la que Cattell (1986) denomina psicometría estructural y se caracteriza por el uso de las nuevas herramientas estadísticas tales como el análisis factorial con sus diversas variantes técnicas, como un medio para encontrar la "estructura natural" de las habilidades en el contexto de los factores culturales, la dotación genética, la personalidad, los rasgos, los motivos dinámicos y las dimensiones que dan lugar a la acción y al comportamiento. Su objetivo primordial no era como tal, aplicar pruebas, sino determinar la relación que hay entre los conceptos clínicos sobre personalidad, y los fundamentos de la investigación experimental multivariada (cuantitativa por naturaleza), así como analizar las interacciones dinámicas entre los rasgos y los estadíos de la personalidad. Los tests se consideraban significativos en la medida que armonizaban con los constructos teóricos formulados conceptualmente.
La etapa funcional en el desarrollo de los tests es aquella que "trasciende a las aplicaciones inmediatas y simplistas que identificaban a las estadísticas con factores conductuales, y profundiza en las leyes y formulaciones conceptuales del comportamiento: que relaciona rasgos, procesos y estados psicológicos con las mediciones y estrategias estructurales" (Cattell, 1986). Ese tipo de leyes, según Cattell, se refieren a las relaciones sistemáticas y consistentes obtenidas de los estudios empíricos sobre el desarrollo, en el conocimiento acerca de los rasgos determinados en forma hereditaria, de los rasgos modificables por las experiencias y el aprendizaje y de la modulación de los estados psicológicos producidos por las relaciones psicofisiológicas. En resumen, el desarrollo de la teoría clásica de los tests ha procedido de etapas orientadas en forma pragmática para desarrollar tests y validar reactivos, (donde los constructos psicológicos teóricos se definían operacionalmente como "aquéllo que mide la prueba x"); hacia etapas conceptualmente más elaboradas en que los tests se derivan de teorías del comportamiento más articuladas y donde cada reactivo tiene un significado conceptual definido en un contexto teórico particular.
Limitaciones de la Teoría Clásica de los Tests: De acuerdo a la Teoría Clásica de los Tests (TCT), la elaboración de pruebas de desempeño máximo involucra la selección de reactivos de acuerdo a su contenido, nivel de dificultad y poder de discriminación. Los reactivos más deseables son los que poseen un nivel mayor de discriminación. El nivel de dificultad por su parte, se ajusta de acuerdo a: 1. El propósito de la prueba, y; 2. El criterio preestablecido para el grupo al cual se aplicará la prueba. Los índices estadísticos empleados por la TCT no se mantienen constantes cuando se aplican a poblaciones que difieren en habilidad respecto de la población empleada para obtener las normas del test. Por lo tanto, el éxito de las técnicas clásicas de selección de reactivos depende de qué tan parecida es la población con la cual se obtuvieron los índices respecto de la población a la que se pretenden aplicar. Si la diferencia es grande, los índices obtenidos de los ítems no serán apropiados para la población objetivo. En otros términos, la teoría clásica de los tests no puede predecir cómo responderá un individuo a los ítems a menos que esos ítems hayan sido previamente administrados a personas similares (Lord, 1980) Durante el trabajo práctico de elaboración de tests, normalmente el grupo a partir del cual se obtienen los índices y el grupo al cual el test va dirigido, difieren considerablemente. Un caso especial en el cual los índices clásicos de los reactivos se obtienen a partir de grupos que difieren de la población a la que van dirigidos, puede verse al estructurar bancos de reactivos. Al elaborar un banco de reactivos, las características de los ítems que van a ser incluidos en el banco, deben ser determinadas. Los ítems con frecuencia denominados "experimentales", se incluyen en un test que es administrado a un grupo de personas de tal manera que se obtienen como resultado, los índices de esos reactivos. Por supuesto, no todos los reactivos experimentales serán incluidos en un test particular. Por lo tanto, se crean múltiples formas del test, cada uno de los cuales contiene diferentes reactivos experimentales y las diferentes formas se aplican a grupos distintos de examinados. Dado que generalmente no es posible asegurar que las diferentes formas del examen sean administradas a grupos equivalentes, los índices de los reactivos experimentales que se aplicaron a grupos distintos no pueden ser equivalentes (Hambleton & Swaminathan, 1985). Por lo tanto, si los reactivos fueron incluidos en el examen bajo el supuesto de que sus índices eran comparables, entonces cualquier test construído a partir de ese banco de reactivos no podrá ser apropiado para ninguna de las poblaciones que pudieran ser seleccionadas en un momento dado. Por otra parte, aún cuando un banco de reactivos se encuentre bien conformado, otro problema de la TCT es la precisión de la medición. Y es que en la teoría clásica de los Tests, la contribución de un ítem a la confiabilidad de la prueba no depende de las características del reactivo sólamente, sino que también depende de la relación que hay entre el reactivo en cuestión y los otros reactivos del test. Por lo tanto, no es posible aislar la contribución de un ítem a la confiabilidad de la prueba y por lo consiguiente, tampoco su participación al error estándar de la medida (Hambleton, Swaminathan, & Rogers, 1991).
Finalmente, no obstante que el desarrollo de la teoría clásica de los tests llegó, con la etapa funcional de los tests, a un punto en que la conceptualización de los resultados de los tests, y consecuentemente su proceso de desarrollo, permitían mediante sofisticados procedimientos estadísticos, sacar a los reactivos de los límites impuestos por la prueba en su conjunto, la limitación teórica aún permanecía y se hacía necesario un nuevo marco conceptual para salvarlo. Este nuevo esquema para la conceptualización de los reactivos como unidades independientes del test y del grupo utilizado para normarlo, se obtuvo con la Teoría de Respuesta al ítem.

Teoría de la Generalizabilidad

Cronbach y Glaser (1972) postularon la Teoría de la Generalizabilidad (TG) que es una extensión del modelo clásico en el que diversas mediciones del mismo individuo pueden variar tanto por efecto de una variación en lo que se mide como por el error de medición (Nunnally y Bernstein, 1995). En esta teoría las decisiones sobre la bondad de un instrumento se basan en estudiar las fuentes y tipos de error, utilizando el análisis de varianza. Cuando se mide una variable se trata de generalizar los resultados a un dominio o universo confiable de observaciones. El puntaje del universo es semejante al puntaje verdadero en el modelo clásico. La diferencia es que en la TCT se considera que la varianza de error es de una sola clase y, en cambio, la TG reconoce que existen otros universos de generalización y por lo tanto muchos puntajes de universo posibles. Solo cuando el universo se ha definido podemos afirmar cuáles son las fuentes de variación que producen error. Las diferentes fuentes de error en esta teoría se denominan facetas, término que introdujo Cronbach para designar cada una de las características de la situación de medición que pueden cambiar de un momento a otro y, por tanto, hacer variar los resultados obtenidos.
Según esta teoría los puntajes observados solo poseen interés si son representativos de todos los puntajes posibles de un mismo universo. Población es el conjunto de personas de las que se extrae una muestra; y Universo es el conjunto de todos los ítems posibles de un constructo; y Universo de Condiciones de Medición al conjunto de todas las facetas estudiadas. Las distintas fuentes de variaciones asociadas a las facetas y a sus interacciones se estima que contribuyen a la varianza de error y disminuyen la generalizabilidad de los puntajes observados en las personas evaluadas.

Teoría de Respuesta al Ítem

La literatura sobre tests registra en los últimos 30 años un desplazamiento progresivo del esquema proporcionado por la Teoría Clásica de los Tests, hacia el contexto y los procedimientos delineados por la Teoría de Respuestas al Ítem (TRI) [Del inglés: Ítem Response Theory - IRT]. Esta teoría, fue desarrollada para resolver varios de los problemas que presentaba la TCT (Hambleton & Swaminathan, 1985) y que no habían sido resueltos de una manera satisfactoria. Algúnos de esos problemas son: (1) El uso de índices de los reactivos cuyos valores dependen de la población particular de la cuál fueron obtenidos, y
(2) La estimación de la habilidad del examinado depende del conjunto específico de reactivos incluidos en la prueba.
Es decir, las características del examinado y las características de la prueba no pueden separarse en un instrumento elaborado conforme a los principios de la Teoría Clásica de los Tests; y por el contrario, cada uno sólo puede ser interpretado en términos del otro. Las características del examinado en las cuales la teoría TRI está interesada, son la "habilidad" que mide el test. Para la TCT, la noción de habilidad se expresa por medio del llamado puntaje verdadero que se define como "el valor esperado a partir de la destreza observada en la prueba en cuestión" (Hambleton, Swaminathan, y Rogers, 1991).La habilidad del examinado se define sólo en términos de una prueba específica. Si el test es "difícil", el examinado parecerá tener un nivel bajo de habilidad. Si el test es "fácil", el examinado parecerá tener un mayor nivel de habilidad. Y el nivel de dificultad de la prueba se define como "la proporción de examinados en el grupo de interés, que contestó el reactivo correctamente" (Hambleton, Swaminathan y Rogers, 1991) Por lo tanto, el que un ítem sea difícil o fácil depende de la habilidad de los examinados a quienes se aplicó la prueba y a su vez, la habilidad de los examinados depende del nivel de dificultad de la prueba. De la misma forma, el nivel de discriminación de los reactivos y los coeficientes de validez y confiabilidad de la prueba se definen también en base a las características del grupo particular de examinados. Así, las características del test y de los reactivos cambian a medida que cambia el contexto de la prueba. Por lo tanto, es muy difícil comparar examinados a quienes se aplican diferentes tests; o aún, comparar ítems cuyas características se obtuvieron utilizando diferentes grupos de examinados. Esto significa que los coeficientes de los reactivos son dependientes del grupo al mismo tiempo que son dependientes del test. Esta clase de dependencia es la que se trata de eliminar mediante la TRI. Otro problema de la TCT es que es centrada-en-el-test, más que centrada-en-el-reactivo. No se toma en consideración cómo responde el examinado a un reactivo dado, y por lo tanto, no se tienen bases para determinar qué tan bien podría desempeñarse un examinado particular ante un reactivo individual. Es decir, la TCT no permite hacer predicciones acerca de cómo se comportará un individuo o grupo particular ante un reactivo dado. Esta posibilidad de predicción es importante en una gran variedad de situaciones como por ejemplo, cuando se intenta predecir el comportamiento de un profesional ante diferentes tipos de situaciones prácticas. De acuerdo a Hambleton, Swaminathan y Rogers (1991), las principales características de la TRI como una alternativa a la teoría clásica de los tests son: 1. Las características de los reactivos no dependen del grupo del cuál fueron obtenidos; 2. Los puntajes que describen la habilidad del examinado no dependen del test en su conjunto; 3. El modelo se expresa a nivel del reactivo más que a nivel del test; 4. El modelo no requiere de pruebas paralelas para determinar el índice de confiabilidad; y
5. Provee una medida de la precisión de cada índice de habilidad. Los postulados básicos de la TRI son:
1) El resultado de un evaluado en un ítem puede ser explicado por un conjunto de factores llamados rasgos latentes o aptitudes
2) La relación entre la respuesta de un sujeto a un ítem y el rasgo latente que subyace puede describirse como una función monotónica creciente que se llama función característica del ítem o curva característica del ítem (CCI) Esta función específica que a medida que la aptitud aumenta la probabilidad de una respuesta correcta al ítem también aumenta.
3) Las estimaciones de la aptitud obtenidas con distintos ítems serían iguales y las estimaciones de los parámetros de los ítems obtenidos en distintas muestras de examinados serán iguales. Es decir que en la TRI los parámetros de aptitud y de los ítem son invariantes.
La ejecución de un examinado en una prueba puede ser predichos por un conjunto de rasgos, rasgos latentes y habilidades; y (2) la relación entre las respuestas de los examinados a los reactivos y el conjunto de rasgos que subyacen a la respuesta ante el reactivo, pueden describirse por una función monotónicamente incrementada llamada función característica del reactivo o curva característica del ítem (CCI). Esta función especifica que a medida que el nivel del rasgo incrementa, también incrementa la probabilidad de una respuesta correcta ante ese reactivo." (p.7) Son supuestos de la TRI:
1. La unidimensionalidad del rasgo latente: que las respuestas del examinado estén determinadas por una única variable denominada Rasgo. Ej.: Un ítem de un test espacial medirá solo habilidad espacial y no ninguna otra cosa (Ferreres Traver, 2005)
2. La independencia local: Las respuestas de un evaluado a cualquier par de ítem son independientes y la probabilidad de responder correctamente a un ítem es independiente de la probabilidad de responder correctamente cualquier otro ítem (Ferreres Traver, 2005).
Existen muchos modelos de la TRI, pero los básicos son:


Para construir una prueba de acuerdo a los principios de la TRI, es necesario construir un banco de reactivos con parámetros estimados para cada ítem, de acuerdo al modelo seleccionado. El procedimiento recomendado por Lord (1977) consiste en los siguientes cuatro pasos:
1. Decidir acerca de la forma deseada de la función de información de la prueba o curva de información deseada (target information curve).
2. Seleccionar los reactivos del banco cuya curva de información deseada cae bajo el área de la curva de información de la prueba, de tal manera que saturen el área bajo la curva de la función deseada de la prueba.
3. Conforme se adicionan reactivos a la prueba, se recalcula la curva de información de la prueba con los reactivos seleccionados hasta ese momento.
4. Continuar la selección de los reactivos hasta que la función de información de la prueba se aproxime a la función de información deseada con un grado satisfactorio." (p. 23)
Sin embargo, la TRI no se encuentra libre de problemas y su aplicación contiene ciertos puntos riesgosos debido a que el uso de criterios estadísticos para la selección de los reactivos no asegura una prueba con contenidos completamente válidos. Deficiencias en los procedimientos de selección de los contenidos pueden generar una prueba con un bajo nivel de validez de contenido (Hambleton, Swaminathan y Rogers;1991). Otro problema de la TRI es que cuando se utilizan funciones de información de los reactivos durante el desarrollo de una prueba, es probable que los valores sean sobrevalorados y por lo tanto, la función de información podría sesgarse. Una prueba construida con ítems de valores elevados puede ser que no corresponda a los de la prueba esperada. Como consecuencia, la función de información de la prueba será sobrevalorada y por lo tanto, habrá que añadir varios reactivos adicionales para compensar esta sobrevaloración.
Sin embargo, una de las ventajas de la construcción de los tests de acuerdo a los modelos de la TRI es que se pueden elaborar tests individualizados, es decir, “a la medida” de los sujetos que permiten inferir en cada uno de los evaluados un verdadero valor del rasgo de la manera más precisa.

¿Qué es el Dominio del Test?

Siguiendo a Tornimbeni et al. (2004) la construcción de una escala de medición de algún aspecto del comportamiento humano requiere previamente un exhaustivo análisis conceptual del dominio o rasgo a medir. Para estos autores se debe obtener definiciones conceptuales ajustadas del rasgo en cuestión y decidir cuál tipo de indicadores operacionales son adecuados para describirlo. Todas las dimensiones importantes del rasgo estudiado deben incluirse. Si se trata de una prueba para medir “rendimiento”, la definición del dominio puede realizarse delimitando el universo de situaciones a ser evaluadas. Así por ejemplo, en el caso de un examen de Estadística, el universo abarcaría los objetivos y contenidos del programa de la asignatura. En la medición del rendimiento se pueden utilizar pruebas referidas a criterios o referidas a normas. Los procedimientos de construcción de las pruebas referidas a criterios difieren de aquellos usados tradicionalmente en las pruebas de rendimiento. Para la elaboración de pruebas por normas, se parte de la construcción de una tabla de especificaciones que es una tabla de doble entrada por medio de la cual se relacionan los objetivos cuyo logro se desea evaluar con los contenidos específicos correspondientes. A partir de esta tabla se determina la cantidad de ítems que conformará la prueba y se lleva a cabo su redacción.
En la construcción de una prueba con referencia a criterios, en cambio, no se realiza una tabla de especificaciones, sino que se define y delimita el dominio de conductas correspondientes a cada objetivo. Siguiendo dicha definición se elaboran los ítems que evaluarán ese dominio de conductas y todos los desempeños individuales serán referidos a ese dominio. Tal como lo establece Pophan (1975) citado por Tornimbeni et al.(2004) por dominio debe entenderse “el conjunto de conductas que debería exhibir el alumno en relación con un objetivo dado, si éste ha sido alcanzado”. Es decir, todas aquellas tareas que el alumno debería poder realizar si el objetivo ha sido logrado. Para Hambleton y Rogers (1991) citados por los mismos autores, el “dominio” puede ser de conductas, objetivos, destrezas y competencias y la amplitud del dominio varía en función de la finalidad del test. Si el dominio comprende más de un objetivo pueden construirse subtests para cada objetivo, y se evalúa el rendimiento de los sujetos en cada uno de ellos. Para la especificación del dominio de conductas o clase de tareas que el individuo debe realizar, seguiremos el esquema propuesto por Tornimbeni et al (2004) que proponen:  


Las Escalas

La medición es la asignación numérica de acuerdo con reglas y las escalas son las reglas de medición. La elaboración de escalas puede definirse como el proceso de establecimiento de reglas para la asignación numérica en la medición. O sea es el proceso por el cual se diseña y calibra un dispositivo de medición y la forma en que se asignan números, valores de escala, a diferentes cantidades del rasgo o atributo que se está midiendo. Al prolífico L. Thurstone se le acredita la adaptación de los métodos de elaboración de escalas psicofísicas al estudio de variables psicológicas. Las escalas son instrumentos usados para medir algo, ese algo en psicometría es un “rasgo” o atributo psicológico. Las escalas pueden clasificarse a lo largo de un continuo del nivel de medición y denominarse por su naturaleza como nominales, ordinales, de intervalo o de razón.
Quienes elaboran las pruebas diseñan un método de medición, es decir, hacen la escala de una prueba, en la forma que creen que se adapta mejor a la manera en que han conceptualizado la medición del rasgo o rasgos que son su objetivo. No hay un único método para la elaboración de escalas, el que una escala sea de naturaleza nominal, ordinal, de intervalo o de razón dependerá en parte de los objetivos de la escala y de la legitimidad matemática de las manipulaciones y transformaciones de los datos resultantes.
Existen “escalas de estimación” que son agrupamientos de palabras, afirmaciones o símbolos en los que juicios relativos a la intensidad de un rasgo, actitud o emoción particular es indicada por quien responde la prueba. Un tipo de “escala de estimación sumatoria”, la escala Likert se usa en forma extensa dentro de la psicología, por lo general en escala de actitudes. Las escalas Likert son relativamente fáciles de elaborar, cada reactivo presenta cinco respuestas alternativas, por lo general, en un tipo de continuo entre acuerdo y desacuerdo o aprobación y desaprobación. Las escalas Likert son confiables, lo cual puede explicar su popularidad. Otro método de elaboración de escalas que produce datos ordinales es el método de comparaciones apareadas. A quienes responden la prueba se les presentan pares de estímulos y se les pide que los comparen y seleccionen uno por medio de alguna regla. Otra forma de derivar información ordinal por medio de un sistema de elaboración de escalas implica tareas de clasificación. En estos enfoques se presentan tarjetas impresas, dibujos, fotografías, u otros estímulos y se les pide a los evaluados que los clasifiquen desde las más hasta las menos justificables o que los jerarquicen. Todos los métodos anteriores producen datos ordinales, el método de intervalos aparentemente iguales descripto por Thurstone es un método de elaboración de escalas para obtener datos que se supone son de intervalo.
El método de elaboración de escalas particular empleado en la elaboración de un test dependerá de las variables que se van a medir, el grupo para el que se pretende la prueba (por ejemplo los niños pueden requerir un método de elaboración de escalas menos complicado que los adultos) y las preferencias del elaborador de la prueba.

Los Ítems

Según lo afirman Tornimbeni et al. (2004) existen pautas convencionales para la redacción de ítems de prueba. Estas incluyen recomendaciones tales como: redactar ítems congruentes con el objetivo de medición y evitar los ítems demasiado largos (de más de 20 vocablos), las oraciones complejas con ambigüedades de sentido, las frases con dobles negaciones, el uso de expresiones extremas (nunca, siempre, todos) y utilizar el lenguaje más apropiado al nivel de maduración y educativo de la población (Osterlind, 1990). Para Nunnally (1991) los dos errores más comunes en la redacción de ítems son: a) ambigüedad (preguntas difusas que admiten varias respuestas) y b) trivialidad (centrarse en aspectos poco importantes del rasgo o dominio en cuestión)
Existen formatos de selección de respuesta y de construcción de respuesta, los primeros facilitan la calificación automatizada y pueden aplicarse con facilidad a gran cantidad de evaluados. El formato de selección de respuesta en presentar una elección de respuestas y requerir la selección de una alternativa. Existen tres tipos: los ítem de opción múltiple, los ítem de relación y los ítem de verdadero/falso. Un reactivo de opción múltiple consta de tres elementos un enunciado o base del ítem, una alternativa u opción correcta o clave y varias alternativas u opciones incorrectas llamadas distractores.


ADAPTACIÓN DE LOS TESTS


Métodos:

Actualmente se reconoce que la adaptación de un Test es un proceso mucho más complejo que la mera traducción de ese test en un idioma diferente. Una adaptación implica considerar no sólo las palabras utilizadas al traducir la prueba sino también las variables culturales involucradas. La traducción del inglés al español del siguiente ítem del NEO PIR “I wouldn´t enjoy vacationing in Las Vegas “ por “No disfrutaría tomando vacaciones en Las Vegas” es correcta. Sin embargo, este ítem probablemente tenga un significado distinto ara muchas personas en Argentina que para los estadounidenses y, probablemente, el significado sea mucho más diferente en culturas no occidentales. Así una correcta traducción no asegura un significado unívoco. Van de Vijver y Leung (1997) establecieron tres niveles de adaptación de las pruebas psicológicas. El primero corresponde al de la aplicación, este es, la simple y llana traducción de un test de un idioma a otro Este método asume la equivalencia de constructo. Desafortunadamente, es el método más común y más utilizado en todo el mundo. Como se indicara anteriormente la sola traducción de una prueba no nos indica ningún nivel de equivalencia entre ambas versiones de la misma.
La segunda alternativa es la adaptación. En este caso a la traducción se agrega la transformación, adición o substracción de algunos ítems de la escala original. Como se explicó, algunos ítems pueden cambiar su significado a través de las culturas y, por lo tanto, necesitan modificaciones o ser eliminados. Así mismo ítems que no existen en la versión original del test pueden representar mejor al constructo en la población en la cual se administrará la nueva versión. Baldo (2000) al realizar una baremización del WISC III en Córdoba encontró que el nivel de dificultad original de los ítems pertenecientes a los subtests Comprensión, Vocabulario e Información no eran aplicables a la población Argentina, por lo que propuso un nuevo ordenamiento de los ítems. Este es un ejemplo de adaptación sin adición o substracción de ítems.
Finalmente, la opción ensamble puede emerger al momento de adaptar un instrumento de evaluación psicológica. En este caso el instrumento original ha sido modificado tan profundamente que prácticamente se ha transformado en un nuevo instrumento original con los nuevos elementos. Esto ocurre cuando muchos de los ítems del test original son evidentemente inadecuados para representar el constructo a medir. Esto sucede en tests de denominación confrontacional, utilizados en neuropsicología, donde se utilizan láminas con dibujos de objetos que el evaluado debe nombrar. Estos objetos tienen distinta frecuencia de observación en la vida diaria de un sujeto y por ello van a variar considerablemente de una cultura a otra. Es el caso de la adaptación Argentina del Test de Denominación de Boston (Allegri et. Al 1997). En la versión original la figura de una bellota está ubicada en el lugar número 32 mientras que en la versión Argentina tal lámina se encuentra sobre el final en el número 50. El ensamble también se da cuando el constructo no está representado de forma adecuada por la versión original en la cultura a la que se quiere adaptar la prueba. Los abordajes indigenistas de la medición de la personalidad, por ejemplo, han promovido el diseño de tests distintos para abarcar aspectos de la personalidad no contemplados en las teorías occidentales. Tal es el caso del Inventario Chino de Evaluación de la Personalidad, que contiene dimensiones indigenistas de la personalidad tales como “armonía”.

Técnicas de Traducción

El proceso de traducción es complejo e implica mas que la traducción lineal de las palabras escritas a un nuevo lenguaje. Existen dos métodos comunes: la traducción directa o forward translation y la traducción inversa o backward translation. En el método de traducción directa un traductor, o preferentemente, un grupo de traductores, traducen el test desde el idioma original al nuevo idioma. Luego, otro grupo de traductores, juzga la equivalencia entre las dos versiones. De este modo pueden realizarse las correcciones pertinentes en las dificultades o errores identificados por los traductores. En el caso de la traducción inversa, él mas utilizado de los métodos, un grupo de traductores realiza una traducción desde el idioma original al nuevo idioma; luego un segundo grupo de traductores toma el test traducido ( en el nuevo idioma) y vuelve a traducirlo al idioma original. Seguidamente se realizan las comparaciones entre la versión original y la versión retraducida al idioma original para determinar su equivalencia. Ambos métodos poseen diversas ventajas y desventajas, se ejemplifica la metodología utilizada para la traducción de instrumentos con el caso de la prueba CPI- 434 que actualmente se encuentra en desarrollo.
Métodos para establecer la Equivalencia entre Tests

Una vez que se ha traducido convenientemente una prueba es necesario realizar un estudio para establecer si esta traducción en la prueba es equivalente a la original. Para ello habrá de implementarse un diseño experimental y un análisis de datos obtenidos a través de ese diseño. Hambleton ( 200) señala que existen básicamente 3 métodos.
1)Administración de la prueba en el idioma original y de la prueba traducida a sujetos bilingües: En este caso se le administrara ambas versiones de la prueba ( la original y su traducción al nuevo idioma) a sujetos que hablan ambos idiomas. Si por ejemplo, deseamos traducir el test de Inteligencia de Wechsler para Adultos, Versión III desde el ingles al Español, administraremos la versión en Ingles y la versión en Español a los evaluados que hablen ambos idiomas. Este método según Hambleton, posee ventajas y desventajas. Entre las primeras se pueden mencionar que pueden controlarse las diferencias de las características de los participantes en el test ( por ejemplo su habilidad) ya que ambas pruebas son administradas a la misma persona. Entre las desventajas, este autor que este diseño esta basado en la premisa de que los sujetos son igualmente competentes en ambos idiomas, lo cual es difícil de sostener. Es probable, entonces, que puedan observarse diferencias entre ambas versiones debido a una menor capacidad de algunas personas para entender los ítems en alguno de los dos idiomas. La segunda gran desventaja de este diseño es que no puede asegurarse que los bilingües posean el mismo nivel de competencia que la población general. Por el hecho de conocer otro idioma es probable que se trate de personas con una mayor capacidad intelectual o mejor educación. Hambleton, también señala una variación de este método que conserva las misma ventajas y desventajas pero que es más fácil de implementar. La misma consiste en administrar al azar una ( no ambas) de las versiones del test ( en español o en ingles) a los participantes bilingües.
2)Administración de la versión original y su traducción inversa a monolingües en el idioma original: Siguiendo nuestro ejemplo anterior, planteado por las autoras ( Tornimbeni et. Al. 2004) se le administraría la versión original del WAIS – III y la versión obtenida de la traducción inversa a sujetos cuyo idioma natal es el ingles. La equivalencia de los ítems se determina comparando el desempeño de cada sujeto en cada ítem de ambas versiones. Nuevamente, la ventaja esta en el control de las diferencias en las características de los participantes. La primer gran desventaja esta en que este diseño no permite obtener datos con la versión en el idioma meta ( target) del test ( español en el ejemplo). De esta manera no es posible obtener puntajes de sujetos que hablen el idioma al que se intenta traducir el test. La segunda gran desventaja de este diseño reside en el hecho de la posible falta de independencia entre los puntajes obtenidos ya que es probable que exista un efecto de aprendizaje luego de la administración de la primer versión de la prueba, especialmente si la primera es la original. La administración al azar de una de las versiones en el primer lugar puede reducir la importancia del efecto de aprendizaje.
3)Administración de la versión original a monolingües que hablan el idioma original y de la versión traducida a monolingües que hablan el idioma al que ha sido traducida la prueba: Siguiendo con el ejemplo enunciado por Tornimbeni et. Al (2004), se administraría la versión en ingles del WAIS – III a evaluados cuyo idioma natal es el Español. Una posible dificultad reside en asumir que los sujetos de ambas muestras poseen una habilidad comparable. sin embargo, Hambleton sugiere que tal obstáculo puede superarse si los análisis son desarrollados con la Teoría De Respuesta al Ítem, en la cual se asume que utilizando distintos conjuntos de ítem pueden obtenerse las mismas estimaciones de aptitud . Igualmente, administrando esos ítem a distintas muestras de examinados las estimaciones de parámetros obtenidas serán iguales.
Una vez obtenidos los datos por medio de los diseños revisados existen varias posibilidades estadísticas para su análisis. Básicamente el análisis estará destinado a identificar la existencia de Funcionamiento Diferencial de items ( FDI) es decir, ítem que se comportan en forma diferente a través de las diversas muestras transculturales.
Por ejemplo, en las investigaciones citada de Tanzer ( 1995) en donde el investigador le administro dos cuestionarios sobre autoconcepto académico de lectura y matemáticas. En los resultados pudo observarse que a pesar de que la prueba mostraba la misma estructura factorial para ambos grupos culturales, cuando las escalas de los ítems de competencia/ facilidad se trabajaban en forma individual podían observarse grandes diferencias entre ambos grupos culturales. El autor especulo con que tal diferencia sé debía a un factor cultural de modestia, la cual es una virtud deseable dentro de la cultura de Singapur, fuertemente influenciada por la cultura china. Así, los singaporeanos eran más renuentes a mostrar una actitud autoelogio o jactancia. Esta investigación además, de ser un ejemplo de FDI, muestra también la insuficiencia de comparar las estructuras factoriales de las pruebas cuando son aplicadas transculturalmente. Como puede observarse en estos resultados, es necesario siempre realizar un análisis de (FDI) ya que a pesar de conservar una misma estructura factorial un grupo puede mostrar valores mucho más bajos que otro en determinados ítem.
Existen diversos métodos en los que se puede analizar el comportamiento de los ítems. Algunos métodos dentro de la TCT tales como los métodos de suma de chi-cuadrado o el de Mantel y Haenzel que fuera adaptado para el FDI por Holland y Thayer ( 1988) y que es en la actualidad él mas utilizado a estos fines. El análisis puede desarrollarse dentro de la TRI en donde el mismo se centrara en las probabilidades que tiene una persona con un determinado nivel de habilidad de contestar un ítem en forma correcta. El modelo de Rasch, de un solo parámetro es él más popular.
Fuentes de Sesgo

Si deseamos usar las pruebas para predecir resultados en alguna situación futura como por ejemplo en el desempeño de un aspirante a la universidad, necesitamos instrumentos con alta validez predictiva del criterio particular. Este requisito suele descuidarse en el desarrollo de las llamadas “ pruebas libres de influencia cultural”. En un esfuerzo por incluir en esas pruebas solo las funciones comunes a diferentes culturas o subculturas, puede elegirse un contenido que tenga poca relevancia para el criterio que se pretenda predecir. Una mejor solución es elegir un contenido relevante para el criterio e investigar luego las posibles diferencias poblacionales de la efectividad de la prueba para el propósito pretendido.
Desde mediados de la década de los setenta se ha observado una rápida acumulación de investigaciones sobre problemas de sesgo de la prueba. En este contexto, el termino “ sesgo” se emplea en su bien establecido sentido estadístico, para desganar un error constante o sistemático en contraste con uno que se debe al azar. Las principales preguntas que se han planteado con respecto al sesgo de la prueba tiene que ver con el coeficiente de validez ( sesgo de la pendiente) y la relación entre las medias del grupo en la prueba y en el criterio ( sesgo de intersección). Si una prueba produce un coeficiente de validez significativamente diferente en dos grupos, la diferencia se describe como sesgo de la pendiente y esta clase de diferencia entre grupos se conoce como “ validez diferencial”. Una prueba exhibe sesgo de intersección si sistemáticamente subpredice o sobrepredice una ejecución del criterio para un grupo particular.
El problema del sesgo de la intersección se relaciona mas con lo que ha sido llamado “ equidad de la prueba”. Aunque los términos “ equidad” y “ sesgo” de la prueba a veces se usan indistintamente para cubrir todos los aspectos del uso del instrumento con minorías culturales.
Modelos de decisión para el uso justo de las pruebas:
Gradualmente empezó a cambiar el interés de la investigación en la evaluación del sesgo de las pruebas al diseño de estrategias de selección para su uso justo con minorías culturales. Entre las metas por reconciliar están las de proporcionar iguales oportunidades a todos los individuos , elevar al máximo la tasa del éxito y la productividad, incrementar la mezcla demográfica y la representatividad y extender el tratamiento preferencial a grupos desfavorecidos por inequidades anteriores.
Van de Vijver y Tanzer ( 1997) identificaron diferentes fuentes de sesgo , que a continuación se explicitan:
a) Sesgo de constructo:

Este tipo de sesgo se da “ cuando el constructo medido no es idéntico a través de los grupos culturales...” ( p.p. 264, Van de Vijver y Tanzer, 1997). La importancia que cada cultura otorga a ciertas conductas se encuentra en esta categoría. Conductas de ética y civismo que en algunas sociedades pueden ser normales en otras pueden constituir un verdadero rasgo de rigidez y asemejarse a una conducta obsesivo compulsivo.
b) Sesgo metodológico:

Este sesgo reconoce tres formas.
El sesgo de muestra: que se da cuando las muestras son incomparables entre si. La cantidad de años de escolaridad que poseen los sujetos de una muestra es una variable determinante en el desempeño del mismo en un test determinado, especialmente si se trata de un test de habilidad. El nivel sociocultural, la motivación, la composición por genero y edad de los sujetos son otras variables que pueden hacer incomparables a dos muestras que pueden mostrar resultados muy diferentes en un test determinado.
El sesgo en el instrumento: que puede provenir de las características del instrumento. La familiaridad que los sujetos tienen con los estímulos presentados tiene una gran importancia. Algunos estímulos tales como objetos, dibujos, figuras u otros elementos utilizados en algunas culturas no existen en otras o son irrelevantes. El ítem de ejemplo en el Sub. Test de Ordenamiento de lamina WISC III que muestra a una mujer frente a una maquina expendedora de latas de gaseosa tiene muy poco valor en culturas árabes, por ejemplo, o en zonas rurales de nuestro país. El idioma es otra fuente de sesgo de instrumento. La traducción de un idioma a otro frecuentemente subestimada, es un problema importante que requiere una metodología especifica a seguir. Los problemas son mayores cuanto mas diferencias hay entre idiomas como entre el ingles y el chino o el árabe, idiomas cuya lectura se realiza de izquierda a derecha a diferencia del de derecha a izquierda. También la disposición del texto tiene importancia en el completamiento de frases o de interpretación de textos, mayor es el problema cuando implican conectar letras y números siguiendo un orden alfabético o numérico y los caracteres de idiomas como el español, ruso, griego. Árabe, hebreo o chino son tan diferentes. También entre los idiomas occidentales existen diferencias como que en ingles no existe la “ñ” que el alfabeto sueco contiene mas vocales, y en portugués existen distintos tipo de a. Los métodos de respuesta constituyen otra fuente de sesgo del instrumento. Las laminas de respuestas del Test de Matrices Progresivas de Raven que implica completar una secuencia lógica con una figura opcional, incluyen la figura faltante al final de la segunda fila, con lo que asume una lectura de izquierda a derecha. Este hecho fue demostrado por Carpenter, Just y Shell ( 1990) en un muy preciso estudio que implica una serie de desventajas para los sujetos de las culturas árabes quienes involuntariamente van a intentar resolver la prueba de derecha a izquierda, forma en que se lee su idioma.
El sesgo de administración: incluye problemas tales como dificultades en la comunicación, es decir, dificultades para que el entrevistado entienda las instrucciones del entrevistador ya sea por la dificultad de las palabras utilizadas, el modo de explicación de las instrucciones o un inadecuado manejo del idioma de alguna de las partes. También se incluyen las alteraciones en la manera de administrar las pruebas. Normalmente los manuales incluyen instrucciones de administración que en muchos casos no son adecuadas para la población a aplicar. Los administradores del Test entonces adaptan esas instrucciones según su criterio personal. Otro punto importante es el uso de cronómetros que produce serias alteraciones en los resultados.

Sesgo de ítem: Se produce cuando el mismo tiene diferentes significados en distintas culturas. Ciertos grupos culturales pueden obtener puntajes significativamente distintos en un ítem determinado a pesar de obtener un puntaje total similar. La deseabilidad social o la relevancia cultural, entre otros factores, pueden producir el sesgo de ítem. Tanzer (1995) demostró que aunque la estructura factorial de un Test de autoconcepto académico era similar cuando se lo aplico a estudiantes australianos y singaporeanos, existían diferencias sustanciales entre estas muestras cuando se compararon algunos ítem específicamente. Este tipo de sesgos también actúa en test neuropiscologicos.





INTRODUCCIÒN
La educación es uno de los grandes pilares de la economía en un país, por ello el estado, los docentes y la sociedad deben dar la importancia que en verdad requiere; todos y cada uno de nosotros formamos parte de esta nación en la cual se deben formar a niños  capaces de desarrollar sus capacidades y habilidades intelectuales y motoras.








El aspecto psicomotor, es imprescindible en el aprendizaje del niño debido a los aspectos que se logra desarrollar en el, como son: la creatividad, la socialización, aumento de la autoestima, etc. Estos aspectos logran mejorar notablemente la seguridad de los alumnos y aun más mejoran su rendimiento académico.









En la educación infantil los niños hallan en su cuerpo y en el movimiento las principales vías para entrar en contacto con su mundo real y, de esta manera, comienzan a adquirir los primeros conocimientos acerca  de su crecimiento y desarrollo.








En si, las actividades motoras cobran gran importancia durante las actividades de la infancia sobre todo en la etapa preescolar y primaria en la que el niño comienza a socializar con sus demás compañeros y a manera de juego va adquiriendo los conocimientos que posteriormente le serán útiles.






Sin duda, el que el alumno vaya descubrimiento el propio cuerpo como fuente de sensaciones, la exploración de las posibilidades de acción y funciones corporales, le darán las posibilidades de obtener las experiencias necesarias sobre las que se irá construyendo el pensamiento infantil. 





Asimismo, las relaciones afectivas establecidas en situaciones de actividad motriz, y en particular mediante el juego, serán fundamentales para el crecimiento emocional. Y como se había mencionado anteriormente le brinda la seguridad que necesita en su vida diaria.



La motricidad adquiere una especial relevancia en determinadas etapas educativas ya que busca el desarrollo armónico del cuerpo como medio o como instrumento para alcanzar la madurez humana, la armonía, un autoconcepto positivo y una razonable autoestima. Es, también, el medio mas adecuado para el cultivo y desarrollo de actitudes positivas y de valores individuales y sociales; por lo tanto, es de gran importancia fomentarla en la educación ya que aporta su contribución a la educación integral de las personas, dado que proporciona experiencias que originan actitudes positivas.




Para ello es necesario que los maestros y educadores del nivel educativo básico brinden de forma responsable, las herramientas y las formas de intervención didáctica en el ámbito motor.









Thelen (1989), dice: “El desarrollo proviene de factores genéticos, considerados con frecuencia los responsables últimos del potencial biológico, así como de factores del medio ambiente, es decir, factores sociales, emocionales y culturales que interactúan entre sí de forma dinámica y modifican de forma significativa el potencial del crecimiento y desarrollo .

Por tanto un deficiente desarrollo psicomotor, se refiere a que los movimientos y también los aspectos psicológicos no son alcanzados en su plenitud.

 JUSTIFICACIÓN:
Herrera Vázquez (2008) “Consiste en demostrar porque es digno de investigar el tema seleccionado, es importante explicar porque es conveniente llevar a cabo el proceso de investigación y cuáles son los beneficios que se obtendrán.”

Sampieri, (2006) “La investigación requiere de una razón para llevarse a cabo, conveniencia, relevancia social, implicaciones prácticas, valor teórico y utilidad metodológica. En la justificación se pueden incluir datos cuantitativos para dimensionar el problema de estudio.”
En la justificación se dan a conocer los motivos por el cual se ha elegido el tema y para que puede servir la presente investigación.

El presente test fue elegido, debido al creciente número de alumnos que presentan deficiente desarrollo motor tanto en la escritura como en las expresiones artísticas, además de que el fortalecimiento de la coordinación motriz ayuda al desenvolvimiento del alumno en el aspecto socioafectivo, por tanto mejorara su autoestima, su relación con los demás y claro esta que aumentara su rendimiento académico.



Por tanto se realizaran una serie de actividades encaminadas a fortalecer la motricidad fina – gruesa,  y las cuales están relacionadas con la aplicación del test, y servirán como estudio diagnostico para obtener los resultados que son necesarios.





DELIMITACIÓN DEL PROBLEMA:
Herrera Vázquez, (2008): “Es indispensable que el investigador identifique lo siguiente:
a   Delimitación en el espacio físico – geográfico. Conviene delimitar cada vez más el espacio físico que abarca el objeto de estudio, hasta que se vuelva accesible para la investigación.
b Delimitación en el tiempo. Es necesario para que el tema pueda ser trabajado satisfactoriamente al margen de las limitaciones de información, tiempo, recursos materiales y conocimientos del investigador. Se debe seleccionar el periodo de investigación.

      Delimitación semántica o estudio exploratorio. Es la necesidad de aclarar los significados de palabras, categorías o símbolos usados en el tema de investigación.”
Esta etapa consiste en poner límites al área en donde se realizara la aplicación del test, que conceptos y temas se van a utilizar y en que periodo se llevará a cabo.
Contenido: Los temas que se van a revisar son conceptos básicos de psicomotricidad, la importancia del desarrollo psicomotor en la infancia, el apoyo que los padres de familia deben de dar para fortalecer el aprendizaje de sus hijos y aparte de buscar las estrategias más apropiadas para mejorar el desarrollo psicomotor de los alumnos.

Espacio físico- geográfico: El campo de estudio de la aplicación del test será en el municipio de Atlacomulco en la comunidad de Dolores la Joya. Atlacomulco es una ciudad mexicana perteneciente al Estado de México y ubicado al noroeste de la entidad. Al norte colinda con el municipio de Acambay, al sur con el municipio de Jocotitlán, al este con los municipios de Timilpan y Morelos y al occidente con los municipios de El Oro y San José del Rincón.

Tiempo: La aplicación del test se realizará en un periodo de una semana, o de acuerdo a las necesidades requeridas por los alumnos. Solo es una estimación promedio del tiempo a 
utilizar.


El siguiente video muestra algunas actividades que se podrían realizar con niños, durante la sesión de educación física. estas actividades fortalecen el desarrollo motor de los pequeños.





Test Guestáltico Visomotor

Autor/es:
Test original: Lauretta Bender
Método de corrección: Elizabeth M. Koppitz

Año Publicación inicial y última revisión:
Instrumento creado por Lauretta Bender entre 1932-1938
Método de corrección según Elizabeth M. Koppitz:
Inicial:
El tests Guestáltico visomotor para niños. Escrito en la década de 1960. En español publicado por Ed. Guadalupe. 6º edición 1976
Actual
El test guestáltico de Bender. Investigación y aplicación 1963 -1973. En español  Ed. Oikos Tau
Última publicación sin modificaciones (cambia el título):
El test de Bender. 2ª edición. 1995. Ed. Oikos Tau, serie Oikos Textos . España (Primera edición 1981)

 Objetivo de la Técnica:
Test de desarrollo infantil. Evalúa la maduración perceptiva y la integración visomotora e indicadores emocionales.
Puede ser empleado como test proyectivo gráfico en personas mayores e incluso como instrumento de diagnóstico diferencial en psiquiatría.

Origen Conceptual
Teoría de la Guestalt

II) Administración

Población a la que se puede administrar:
1-    Niños de 5 a 11 años

Forma de Administración:
                  Se administra dentro de una batería psicodiagnóstica, tanto clínica como educacional.

a)  Individual X                         Grupal X

b) Material Necesario:
9 láminas que componen el test,  hojas A4, lápiz nº 2, goma, sacapunta.

c) Consigna: :
“Aquí hay nueve tarjetas con diseños para que los copies (señalar las tarjetas). Aquí esta el primero ( dar vuelta la primer tarjeta). Ahora, haz uno igual a este”. Otra opcion es “Ahora quisiera que me dibujaras algunos diseños. Aquí hay nueve tarjetas y cada tarjeta tiene un dibujo en ella (señalar las tarjetas). Quiero que copies los dibujos. Hazlos lo mejor que puedas”.

d) Tiempo de Aplicación
La mayoría de los niños de edad escolar necesitan aproximadamente 6 minutos, 20 segundos para completar el test.

     
III) Corrección:
Descripción del procedimiento
Cada dibujo realizado por el niño es puntuado de acuerdo a las siguientes pautas:
·         distorsión de la forma
·         rotación de todo o parte del dibujo
·         integración de las partes del dibujo no logradas
·         perseveración
Son 30 ítems puntuables. La puntuación máxima es de 30 puntos.  Se asigna un punto por cada imperfección en la ejecución.

Tiempo de Corrección
30 minutos

IV) Aspectos Psicométricos:
Tipo de Instrumento: (clasificación Collins, Pervin o Pichot)
Test de lápiz y papel
Test Objetivo


Baremos:
a)    Muestra de tipificación: La muestra normativa de 1974 estaba compuesta por 975 niños de escuela primaria, entre los 5 y 11 años, 11 meses que vivían en áreas rurales, pueblos pequeños, suburbios y grandes centros urbanos en el oeste, sur y noreste de USA. 86 % blancos, 8,5 % negros, 4.5 % mexicoamericanos y portorriqueños y 1 % asiáticos. 


b)    Normas
      de desarrollo:   Edad: EMPM                   

Fiabilidad
a)de re-test de la puntuación total es de .50 a.90  (Intervalo de aplicación del mismo día hasta 8 meses) Si bien esta confiabilidad no son lo suficientemente altas como para justificar la toma de desiciones diagnósticas, son adecuadas para formular hipótesis acerca de la capacidad visomotora. (Sattler. Evaluación Infantil cap. 14)
d) Del evaluador: van desde .79 a .99 (Sattler. Evaluación Infantil cap 14)


Validez
Cuando se utiliza como prueba del desarrollo precepto-motor en niños parece tener validez aceptable (Sattler. Evaluación Infantil. Cap. 14)

a)    Empírica: Concurrente: Con la prueba Frostig del Desarrollo de la Percepción visomotora va de .39 hasta .56 y con la Prueba de Desarrollo de la Integración Visual va de .59 a. 73 (Sattler. Evaluación Infantil. Cap. 14)



FICHAS PARA APLICAR EL TEST: