Artículo Original. Revista OActiva Universidad Cátolica de Cuenca. Vol. 4, No. 2, pp.
ESTRATEGIA DE ANÁLISIS DE DATOS PARTE 1: CREACIÓN
DE BASES DE DATOS PARA INVESTIGACIONES EN
CIENCIAS DE LA SALUD
DATA ANALYSIS STRATEGY PART 1: DATABASE CREATION
FOR RESEARCH IN HEALTH SCIENCES
Ebingen 1
1Catedrático de la Facultad de Odontología de la Universidad Católica de Cuenca. Ecuador 2 Odontóloga de consulta particular en Cuenca. Ecuador
Resumen
Un trabajo de investigación puede ser considerado científicamente válido cuando es el producto de un proceso correcto de obtención, sistematización y análisis de información, la cual, lógicamente, debe ser verificable. Esta información debe surgir de una pregunta de investigación formulada de manera clara y concisa, persiguiendo objetivos que enmarquen el nivel y la profundidad de la información con la que se pretende trabajar. Asimismo, es imperativo que la recolección de datos se sustente en un diseño experimental mediante una adecuada planificación entorno a la investigación en la cual nos hemos embarcado. El objetivo de este trabajo es presentar una propuesta acerca de cómo se debería llevar el proceso de recolección de datos y realización de la base de datos para que la información extraída resulte confiable al momento de realizar nuestros análisis y especialmente al momento de discutir nuestros resultados.
Palabras clave: Pregunta de investigación, Ciclo de Indagación, Diseño metodológico, Recolección de datos, Análisis de Datos.
Abstract
A research work can be considered scientifically valid when it is the product of a correct process of obtaining, systematizing and analyzing information, which, logically, must be verifiable. This information should come from a research question formulated in a clear and concise manner; Obtaining objectives that frame the level and depth of the information with which it is intended to work. Likewise, it is imperative that the data collection is based on an experimental design through adequate planning around the research in which we have embarked. The objective of this paper is to present a proposal about how the process of data collection and database realization should be carried out so that the extracted information is reliable at the time of our analysis and especially when discussing our results.
Key words: Research Questions, Inquiry Cycle, Research Design, Data Collection, Data Analysis.
1 INTRODUCCIÓN
Desde hace poco más de dos siglos, la investigación científica representa la forma más segura de aproximarse al conocimiento acerca de un determinado fenómeno de la realidad. Este conocimiento debe ser válido y confiable. Sin embargo, determinados aspectos críticos de una investigación pueden vulnerar alguna de estas características. Uno de estos es el manejo (obtención, procesamiento y análisis) de los da- tos; por ese motivo, en muchas universidades, los formatos de protocolo de investigación incluyen un acápite en el capítulo de planteamiento operacional o materiales y métodos- que
se refiere a la estrategia del análisis de datos1 . En relación con este punto en particular, existe mucha bibliografía acerca del uso y manejo de pruebas estadísticas; sin embargo, hay poca literatura acerca de la técnica más adecuada para crear una buena base de datos1,2 . Considerando que se trata de una fase previa al análisis estadístico, es necesario que se realice adecuadamente y que se conozca la forma óptima para su codificación y su organización, con la finalidad de poder controlar la calidad de los datos y tratar de prevenir el sesgo por ingreso incorrecto de los mismos3 .
Revista OActiva Universidad Cátolica de Cuenca. Vol. 4, No. 2,
14 |
El presente es el primero de tres artículos de contribu- ción didáctica docente, que abordarán el tema del manejo de los datos mediante la creación de una base de datos. Para ello, recapitularemos primero todas las etapas del proceso de investigación y explicaremos a continuación la fase pertinen- te a la construcción de las bases de datos, con la finalidad de ubicar en el contexto este tema tan importante para el desarrollo de un trabajo científico.
2LA BASE DE DATOS EN EL CONTEXTO DE UNA INVESTIGACIÓN CIENTÍFICA
La secuencia de pasos correctos y sistematizados, para crear una base de datos, está basada en un sistema estruc- turado para lograr resultados y conclusiones válidas, que aporten credibilidad al trabajo realizado. Esta secuencia está compuesta por cuatro
Fig. 1. Ciclo de Indagación científica (Tomado y Modificado de Feinsiger)7
2.1FORMULACIÓN DE LA PREGUNTA DE INVESTI- GACIÓN
Una pregunta de investigación debe ser formulada de forma precisa8 y clara de tal manera que no exista confu- sión con respecto a la respuesta esperada9 . Esta pregunta nace de una interrogante que se plantea al identificar un vacío de información ("brecha en el conocimiento") o un problema en una determinada área1, 9 . La interrogante formulada debe tener en consideración si la respuesta a la misma aportará nueva información10 .
La pregunta de investigación debe ser11 :
Concisa: utilizar lenguaje claro con frases cortas y di- rectas
Viable: el estudio y la recolección de datos debe ser posible.
Relevante: la investigación debe ser importante desde el punto de vista teórico, científico y social.
Ética: si la investigación es en seres vivos debe ser respe- tado los principios bioéticos.
2.2 DISEÑO DEL ESTUDIO
2.2.1 Diseño Conceptual
Se encuentra representado en la Figura 1.
2.3 ÁMBITO
Para empezar el diseño conceptual de un estudio es necesario conocer el ámbito en que se desarrollará el mismo, es decir, el espacio en el que se efectuará el estudio12, 13 . En relación con este aspecto se pueden diferenciar los estudios experimentales y los observacionales14 .
Los primeros se centran en intervenir sobre el sujeto de investigación15 , es decir, el investigador manipula o controla las condiciones de la investigación; y los segundos se realizan sin intervención alguna de parte del investigador, quien actúa como un observador de la realidad, limitándose a medir y
Revista OActiva Universidad Cátolica de Cuenca. Vol. 4, No. 2,
ESTRATEGIA DE ANÁLISIS DE DATOS PARTE 1 |
15 |
analizar las variables definidas en el estudio6 . Este tipo de estudios se clasifican, a su vez, en descriptivos y analíticos.16
2.3.1 Temporalidad
Por otra parte, en las investigaciones de corte epide- miológico es necesario establecer la temporalidad en la cual van a desarrollarse17 . Esta puede ser de cuarto tipos: re- trospectiva (registro de datos que ocurrieron en el pasado); prospectiva (los hechos se registran a medida que suceden); transversal (obtiene información de una muestra determinada de elementos de una población específica en un espacio de tiempo limitado) ; y longitudinal (incluye una muestra fija de elementos de la población que son evaluados a lo largo de un período de tiempo determinado)11, 18, 19 .
2.3.2Definición de variables
Una vez establecida la pregunta de investigación, el ámbito y la temporalidad del estudio, el punto siguiente es definir las variables3 . Se trata de características medibles u observables (por ejemplo, de una persona u objeto), que puedan ser expresadas en términos numéricos o categóricos.5
Existen cuatro tipos estadísticos de variables:
1)Cualitativa nominal (cuando la variable tiene categorías que no pueden ser ordenadas)6 .
2)Cualitativa ordinal (cuando la variable tiene categorías que pueden ser ordenadas por intensidad)20 .
3)Cuantitativa discreta (cuando la variable numérica no admite decimales).
4)Cuantitativa continua (cuando la variable numérica ad- mite decimales)5 .
2.3.3 Escala
Para cada variable se requiere de una escala de medición, la cual se clasifica en dos grandes grupos5 :
1)Escalas no métricas: se definen como las características que describen al fenómeno por estudiar, utilizado en variables cualitativas21 . A su vez, las escalas no métricas se clasifican en: nominales y ordinales. La escala no métrica nominal es aquella que no representa ninguna jerarquía en particular, mientras que la escala no métrica ordinal es aquella que mantiene un orden, descendente o ascendente, permitiendo ordenar los datos22 .
2)Escalas métricas: Identifican y describen al fenómeno por la cantidad o grado de una característica específica, utilizado en variables cuantitativas2 . Estas escalas se clasifican en: escala métrica de intervalo (en la cual puede existir el cero como punto arbitrario e inclusive valores negativos); y escala métrica de razón (en donde el cero asume un valor absoluto, y no se admite como valor de una variable).
2.3.4Formulación de hipótesis
La hipótesis es un enunciado que realiza el investiga- dor luego de analizar a fondo el tema de interés, siendo coherente con la pregunta de investigación y variables a relacionar17,23, 24 . Ésta puede plantearse como la respuesta esperada a la pregunta inicial y transformarse en una guía hacia lo que se quiere estudiar25 .
Una hipótesis bien estructurada está compuesta por la uni- dad de observación y las variables que serán evaluadas10 . Además, se puede en la hipótesis indicar cómo se espera que se relacionen estos dos elementos, es decir, establecer la direccionalidad de la hipótesis18 . Una hipótesis puede negar la asociación entre variables (hipótesis nula, Ho) o puede afirmar asociación que existe entre ellas (hipótesis alternativa, Hi)5 .
2.3.5 Diseño Metodológico
Es la estrategia que se adoptará para responder a la pregunta de investigación. Existen diseños de estudios clí- nicos y no clínicos. Los diseños clínicos más usados son :
2.3.6 Recolección u obtención de datos
Para obtener los datos de una investigación de corte epidemiológico, se debe tomar en cuenta el universo de estudio, que es el total de personas u objetos con caracte- rísticas específicas que deberían intervenir en el estudio27, 28 . Generalmente no se evalúa a todo el universo, pues resultaría excesivamente costoso o tomaría demasiado tiempo hacer- lo.21 Es por ello por lo que se debe trabajar con una muestra representativa de este universo, para lo cual es necesario realizar un cálculo de tamaño muestral, tomando en cuenta que a mayor tamaño muestral menor error26 . La selección de la muestra es crucial para obtener resultados válidos y confiables. Existen dos tipos de muestras12 :
Las muestras probabilísticas se establecen de la siguien- te manera29 :
1)Muestreo simple: se elige la población al azar.
2)Muestreo estratificado: se divide a la población en grupos y se aplica un muestreo simple dentro de cada grupo.
3)Muestreo por segmentos o racimos: se elige la pobla- ción usando criterios de proximidad5 .
Las muestras no probabilísticas establecidas según el criterio subjetivo del investigador, es decir, que no son representativas de todo el universo. Este tipo de muestras poblacionales son30 :
1)Muestreo por conveniencia.
2)Muestreo por demanda de atención
3)Maestro por conglomerados.
4)Muestreo de sujetos voluntarios (que se usan en diseños de estudios de series de casos y controles.)
Revista OActiva Universidad Cátolica de Cuenca. Vol. 4, No. 2,
16 |
2.4CREACIÓN DE UNA BASE DE DATOS
Una vez que se han definido el diseño de investigación apropiado y la muestra adecuada en base a nuestra pregunta de investigación e hipótesis, la siguiente etapa consiste en recolectar los datos y elaborar un plan detallado de proce- dimientos que nos conduzcan a organizarlos con el fin de analizarlos de manera correcta22 . Para ello es necesario crear
o construir una base de datos31 . Recibe este nombre el conjunto de datos que están relacionados entre sí, los cuales son agrupados y estructurados en forma de campos y registros que son archivados para su posterior análisis32 .
Una base de datos puede ser una hoja de cálculo (por ejemplo, en formato Excel) que se organiza bajo la forma de filas y columnas23 (Figura2).
Fig. 2. Anatomía de una base de datos.
Fig. 3. Hoja adicional - Diccionario.
Revista OActiva Universidad Cátolica de Cuenca. Vol. 4, No. 2,
ESTRATEGIA DE ANÁLISIS DE DATOS PARTE 1 |
17 |
Dentro de lo que se puede llamar la anatomía de una base de datos, las filas corresponden a cada unidad de estudio (por ejemplo, un paciente) y las columnas corresponden a cada uno de los campos (variables evaluadas) que se han considerado en la unidad de estudio28, 33 . Se llama registro a cada fila y se denomina campo a cada columna24 . La intersección entre la fila y la columna delimita una celda y esta contiene un registro (dato). En el siguiente ejemplo, la celda W6 contiene un dato que es el número 0, que por sí solo no tiene ningún significado22 . Sin embargo, en el contexto de esta base de datos, este valor adquiere un significado único, es decir: i) 0 (no presenta caries), 1 (presenta caries); así también, en el caso del paciente número 5, el valor correspondiente a la variable reportada en el campo C16 que significa el código para caries de la pieza 2.6, el valor 0 significa diente sano34 .
Para construir una base de datos, es recomendable codificar el nombre de las variables (campos) y guardar el significado en una hoja adicional denominada Diccionario30 (Figura 3). En esta hoja puede verse que en la columna A están codificados los nombres de las variables; en la columna B, se presenta el nombre extenso descriptivo de cada variable; en la columna C se muestran los datos que son admitidos en la celda (válidos en el registro) (nótese que a partir de la variable C18 en adelante se admiten los mismos códigos; por ese motivo, a partir de C11 se pone idem. que significa idéntico al anterior); en la columna D (de la base de datos) se presenta la variable sexo (la cual ha sido codificada con 0 para el sexo femenino y 1 para el sexo masculino (lo cual está
explicado en el Diccionario en la fila 4)6 . Presentamos este ejemplo porque es la forma más conveniente de registrar los datos de una variable cualitativa dicotómica (como el sexo) y que puede ser exportada a cualquier paquete estadístico20 .
Otra ventaja de codificar las variables es que se evitan los errores dactilográficos27 . Por ejemplo, en el caso del dato "Sexo Femenino", este puede ser escrito de 3 formas distintas (femenino, Femenino, FEMENINO), lo cual podría originar un conflicto en la base de datos al momento de hacer los cálculos de frecuencias, ya que la computadora contará cada una de estas formas como si fueran datos distintos35 .
El uso de los filtros en Excel proporciona una forma rápida de buscar y analizar los datos en un rango o tabla27
.Al filtrar una lista, se ocultan temporalmente algunos datos para enfocarse en aquellos que necesitamos; existen filtros para un rango de datos, datos de una tabla, de color y uso de criterios avanzados32 .
Existen herramientas informáticas para gestionar el correcto ingreso de datos y obtener una adecuada base de datos, por ejemplo, en estudios de tipo epidemiológico, es útil utilizar el Sistema Epi Info R el cual es un programa gratuito, especializado y público para la introducción y análisis de datos36 . Mediante el empleo de esta herramienta se pueden procesar cuestionarios o formularios, minimizando la posibi- lidad de cometer errores al ingresar los datos, definir patrones o codificaciones, seleccionar registros, crear y modificar da- tos y operaciones durante el análisis, e importar y exportar archivos31 .
Fig. 4. Formas alternativas de ingreso de datos
Revista OActiva Universidad Cátolica de Cuenca. Vol. 4, No. 2,
18 |
|
|
|
|
|
||||||
|
En la Figura 4 presentamos dos formas alternativas de |
|
Referencias Bibliográficas |
|
|
|
|
||||
ingresar datos como sexo y procedencia. En el lado izquierdo |
|
|
|
|
|
|
|
|
|
||
tenemos una base de datos en la cual el sexo está codificado |
1 |
Tapia LI, Palomino MA, Lucero Y, Valenzuela R. Pregunta, |
|||||||||
como 1 y 0, significando que 1 corresponde al sexo masculino |
|
hipótesis y objetivos de una investigación clínica. Revista |
|||||||||
y 0 al femenino; de la misma forma, la procedencia también |
|
||||||||||
|
Médica Clínica Las Condes. |
|
|||||||||
está codificada como 1 (urbano) y 0 (rural). Al lado derecho |
|
|
|||||||||
2 |
Burdiles P, Castro M, Simian D. Planificación y factibilidad |
||||||||||
en esta misma figura se puede apreciar la forma incorrecta |
|
de un proyecto de investigación clínica. Revista Médica |
|||||||||
de |
introducir los datos: el sexo tiene dos columnas (una |
|
|||||||||
|
Clínica Las Condes. |
|
|
||||||||
para masculino y otra para femenino) donde usualmente se |
|
|
|
||||||||
3 |
Zhang Y, Qin G, Zhu Z, Xu W. A novel robust approach |
||||||||||
coloca X o 1 para realizar el conteo. De esta forma los |
|
for analysis of longitudinal data. Computational Statistics |
|||||||||
paquetes estadísticos no reconocen la información. Por eso, |
|
||||||||||
|
& Data Analysis. 2019;. |
|
|
|
|
||||||
lo consideramos como una manera incorrecta de ingresar los |
|
|
|
|
|
||||||
4 |
Caro JJ, Briggs AH, Siebert U, Kuntz KM. |
Modeling |
|||||||||
datos. Algo similar sucede con la procedencia. |
|
good research |
|||||||||
|
Una vez ingresados los datos en las bases, es imperativo |
|
|||||||||
|
|
SMDM Modeling Good Research Practices Task |
|||||||||
realizar un control de calidad de los mismos25 . En otras |
|
||||||||||
|
Medical Decision Making. |
|
|||||||||
palabras, es estrictamente necesario monitorear y valorar la |
|
|
|||||||||
5 |
Villavicencio Caparó |
E. ¿ Cómo |
plantear las |
variables |
|||||||
calidad de los datos durante el progreso del estudio29 . El |
|
de una investigaón?:Operacionalización de |
las |
variables. |
|||||||
proceso de control de calidad consta de: preparar instrumen- |
|
||||||||||
|
Odontología Activa Revista Científica. |
||||||||||
tos específicos, desarrollar procedimientos para colección de |
|
||||||||||
6 |
Editorial. The relevance of good research reporting. The |
||||||||||
datos y calibrar a los investigadores sobre la toma de datos y |
|
Lancet Neurology. 2016;15(11):1103. |
|
|
|||||||
su incorporación a la base de datos en proceso de creación. |
|
|
|
||||||||
7 |
Fernández P. |
Metodologías de investigación en ecología |
|||||||||
Una vez creada la base de datos, el análisis estadístico de |
|||||||||||
|
aplicada y básica: ¿cuál estoy siguiendo, y por qué? revista |
||||||||||
la información allí contenida permitirá responder la pregunta |
|
||||||||||
|
chilena dehistorianatural. 2013;p. |
|
|
||||||||
de investigación planteada. El análisis estadístico permite que |
|
|
|
||||||||
8 |
Simian D, |
||||||||||
los datos se conviertan en información precisa y exacta34 . |
|
registros con fines de Investigación Clínica. Revista Médica |
|||||||||
|
|
|
|||||||||
|
|
|
Clínica Las Condes. |
|
|
||||||
ANÁLISIS DE DATOS |
9 |
Junginger S. Design Research and Practice for the Public |
|||||||||
|
Good: A Reflection. She Ji: The Journal of Design, Econo- |
||||||||||
|
Es la etapa en la que se analizan los datos para llegar a 10 |
mics, and Innovation. |
|
|
|||||||
|
Spuls PI. Doing Good Research Is Difficult, Doing No Re- |
||||||||||
conclusiones firmes y robustas. Para lograrlo se puede utilizar |
|
search Is More Difficult. Journal of Investigative Dermato- |
|||||||||
estadística descriptiva y/o estadística inferencial32 . La prime- |
|
||||||||||
|
logy. |
|
|
|
|
||||||
ra se refiere a la adecuada presentación de tablas y gráficos 11 |
|
|
|
|
|||||||
Barker L, Rattihalli RR, Field D. |
How to write a good |
||||||||||
estadísticos para reportar los datos. La segunda por su lado |
|
research grant |
proposal. |
Paediatrics and |
Child Health. |
||||||
se refiere a la correcta manera de extrapolar los datos de |
|
||||||||||
|
|
|
|
|
|
||||||
una muestra a una población en general (inferencia mediante 12 |
|
|
|
|
|
||||||
Waddington H, White H, Snilstveit B, Garcia J, Vojtkova |
|||||||||||
intervalos de confianza) y permite la comprobación de las |
|
M, Davies P, |
et |
al. |
How |
to do |
a good |
systematic re- |
|||
hipótesis37 . Estos temas se desarrollarán en los próximos dos |
|
||||||||||
|
view of effects in international development : a tool kit. |
||||||||||
artículos de esta misma serie. |
|
||||||||||
|
2015;9342(December). |
|
|
|
|
||||||
|
|
|
|
|
|
|
|||||
|
|
13 |
Espinoza Freire EE. La hipótesis en la investigación. |
||||||||
3 |
CONCLUSIONES |
|
Revista de Educación. |
|
|
||||||
14 |
Davies MM MN. |
Practical research methods for media |
|||||||||
|
La construcción de la base de datos es una fase crítica |
|
and cultural studies: making people count. Edinburgh Univ |
||||||||
|
|
Press. 2006;p. 202. |
|
|
|
|
|
||||
en el proceso de investigación científica. La anatomía de la 15 |
The American |
||||||||||
base de datos guarda una relación directa con la pregunta de |
|
Journal of Nursing. 2006;32(1):39. |
|
|
|
||||||
investigación, el diseño del estudio y con el desarrollo de las 16 |
Arrom LM, Huguet J, Errando C, Breda A, Palou J. Cómo |
||||||||||
conclusiones. Una correcta estrategia para la codificación y |
|
escribir un artículo original. Actas Urológicas Españolas. |
|||||||||
el manejo de los datos ayuda a evitar errores en el análisis |
|
|
|
|
|
|
|||||
estadístico. |
17 |
García A PM. |
Tópicos en la planificación del personal |
||||||||
|
AGRADECIMIENTOS: |
|
médico. Gaceta Sanitaria. |
|
|||||||
Los autores agradecen al Dr. Luis Andrés Yarzábal (Departa- 18 |
Manterola C OT. |
Estudios observacionales. Los diseños |
|||||||||
mento de Investigación, Carrera de Odontología. Universidad |
|
utilizados con mayor frecuencia en investigación clínica |
|||||||||
Católica de Cuenca) por su apoyo en la edición. |
|
observational. Int J Morphol. |
Revista OActiva Universidad Cátolica de Cuenca. Vol. 4, No. 2,
ESTRATEGIA DE ANÁLISIS DE DATOS PARTE 1 |
19 |
19Domínguez S. El análisis de información y las investigacio- nes cuantitativa y cualitativa. Rev Cubana Salud Pública. 2007;33(3).
20
21Fraile B. artículo Experimental. Bermejo Fraile B Estudios experimentales Matronas Prof.
22
23
24Torres M, Paz K, Salazar FG. Metodos De Recoleccion De Datos Para Una Investigación. Facultad de Ingeniería, Universidad Rafael Landivar.
25Huebner M lCS Vach W. A systematic approach to initial data analysis is good research practice.
26Villavicencio Caparó E. El tamaño muestral para la tesis.¿ cuántas personas debo encuestar?.
27Madero R JB Pérez E. Estadística para pediatras (III). Análi- sis de datos. Anales de Pediatria Continuada. 2007;5(1):63– 67.
28Bruni R DCLC Bianchi G. Logical Analysis of Data as a tool for the analysis of Probabilistic Discrete Choice Beha- vior. Computers and Operations Re- search. 2019;106:191– 201.
29Gentleman RI R. R : A Language for Data Analysis and Graphics. Computational and Graphical Statistics.
30Lejeune M, Lozin V, Lozina I, Ragab A, Yacout S. Recent advances in the theory and practice of Logical Analy- sis of Data. European Journal of Operational Research.
31Khezrimotlagh D, Zhu J, Cook WD, Toloo M. Data envelopment analysis and big data. European Journal of Operational Research.
32Kawulich B. La observación participante como método de recolección de datos. In: Forum: qualitative social research. vol. 6; 2005. p.
33Press U, Ergonomics P. PA RT 2 Engineering the System around Humans. 2017;.
34Pita Fernández S, Pértegas Díaz S. Investigación cuantitati- va y cualitativa. Cad Aten Primaria.
35Otzen T, Manterola C. Técnicas de Muestreo sobre una Población a Estudio. International Journal of Morphology.
36Rémy NM, Martial TT, Clémentin TD. The prediction of good physicians for prospective diagnosis using data mining. Informatics in Medicine Unlocked. 2018;.
37Cavada G. Docimasia de hipótesis. Rev chil endocrinol diabetes.
Recibido: 1 de febrero del 2019.
Aceptado: 15 de marzo del 2019.
Revista OActiva Universidad Cátolica de Cuenca. Vol. 4, No. 2,