Artículo Original. Revista OActiva Universidad Cátolica de Cuenca. Vol. 4, No. 2, pp. 13-20, Mayo-Agosto, 2019. ISSN 24778915. ISSN Elect. 258802624. Universidad Católica de Cuenca

ESTRATEGIA DE ANÁLISIS DE DATOS PARTE 1: CREACIÓN

DE BASES DE DATOS PARA INVESTIGACIONES EN

CIENCIAS DE LA SALUD

DATA ANALYSIS STRATEGY PART 1: DATABASE CREATION

FOR RESEARCH IN HEALTH SCIENCES

Torracchi-Carrasco Esteban1*, Córdova-López Andrea2,Chiriboga-Guartambel Gladys 2, Villavicencio-Caparó

Ebingen 1

1Catedrático de la Facultad de Odontología de la Universidad Católica de Cuenca. Ecuador 2 Odontóloga de consulta particular en Cuenca. Ecuador

*jtorracchic@ucacue.edu.ec

Resumen

Un trabajo de investigación puede ser considerado científicamente válido cuando es el producto de un proceso correcto de obtención, sistematización y análisis de información, la cual, lógicamente, debe ser verificable. Esta información debe surgir de una pregunta de investigación formulada de manera clara y concisa, persiguiendo objetivos que enmarquen el nivel y la profundidad de la información con la que se pretende trabajar. Asimismo, es imperativo que la recolección de datos se sustente en un diseño experimental mediante una adecuada planificación entorno a la investigación en la cual nos hemos embarcado. El objetivo de este trabajo es presentar una propuesta acerca de cómo se debería llevar el proceso de recolección de datos y realización de la base de datos para que la información extraída resulte confiable al momento de realizar nuestros análisis y especialmente al momento de discutir nuestros resultados.

Palabras clave: Pregunta de investigación, Ciclo de Indagación, Diseño metodológico, Recolección de datos, Análisis de Datos.

Abstract

A research work can be considered scientifically valid when it is the product of a correct process of obtaining, systematizing and analyzing information, which, logically, must be verifiable. This information should come from a research question formulated in a clear and concise manner; Obtaining objectives that frame the level and depth of the information with which it is intended to work. Likewise, it is imperative that the data collection is based on an experimental design through adequate planning around the research in which we have embarked. The objective of this paper is to present a proposal about how the process of data collection and database realization should be carried out so that the extracted information is reliable at the time of our analysis and especially when discussing our results.

Key words: Research Questions, Inquiry Cycle, Research Design, Data Collection, Data Analysis.

1 INTRODUCCIÓN

Desde hace poco más de dos siglos, la investigación científica representa la forma más segura de aproximarse al conocimiento acerca de un determinado fenómeno de la realidad. Este conocimiento debe ser válido y confiable. Sin embargo, determinados aspectos críticos de una investigación pueden vulnerar alguna de estas características. Uno de estos es el manejo (obtención, procesamiento y análisis) de los da- tos; por ese motivo, en muchas universidades, los formatos de protocolo de investigación incluyen un acápite en el capítulo de planteamiento operacional o materiales y métodos- que

se refiere a la estrategia del análisis de datos1 . En relación con este punto en particular, existe mucha bibliografía acerca del uso y manejo de pruebas estadísticas; sin embargo, hay poca literatura acerca de la técnica más adecuada para crear una buena base de datos1,2 . Considerando que se trata de una fase previa al análisis estadístico, es necesario que se realice adecuadamente y que se conozca la forma óptima para su codificación y su organización, con la finalidad de poder controlar la calidad de los datos y tratar de prevenir el sesgo por ingreso incorrecto de los mismos3 .

Revista OActiva Universidad Cátolica de Cuenca. Vol. 4, No. 2, Mayo-Agosto, 2019

14

Torracchi-Carrasco Esteban y cols.

El presente es el primero de tres artículos de contribu- ción didáctica docente, que abordarán el tema del manejo de los datos mediante la creación de una base de datos. Para ello, recapitularemos primero todas las etapas del proceso de investigación y explicaremos a continuación la fase pertinen- te a la construcción de las bases de datos, con la finalidad de ubicar en el contexto este tema tan importante para el desarrollo de un trabajo científico.

2LA BASE DE DATOS EN EL CONTEXTO DE UNA INVESTIGACIÓN CIENTÍFICA

La secuencia de pasos correctos y sistematizados, para crear una base de datos, está basada en un sistema estruc- turado para lograr resultados y conclusiones válidas, que aporten credibilidad al trabajo realizado. Esta secuencia está compuesta por cuatro pasos24(Figura15,6) :

Fig. 1. Ciclo de Indagación científica (Tomado y Modificado de Feinsiger)7

2.1FORMULACIÓN DE LA PREGUNTA DE INVESTI- GACIÓN

Una pregunta de investigación debe ser formulada de forma precisa8 y clara de tal manera que no exista confu- sión con respecto a la respuesta esperada9 . Esta pregunta nace de una interrogante que se plantea al identificar un vacío de información ("brecha en el conocimiento") o un problema en una determinada área1, 9 . La interrogante formulada debe tener en consideración si la respuesta a la misma aportará nueva información10 .

La pregunta de investigación debe ser11 :

Concisa: utilizar lenguaje claro con frases cortas y di- rectas

Viable: el estudio y la recolección de datos debe ser posible.

Relevante: la investigación debe ser importante desde el punto de vista teórico, científico y social.

Ética: si la investigación es en seres vivos debe ser respe- tado los principios bioéticos.

2.2 DISEÑO DEL ESTUDIO

2.2.1 Diseño Conceptual

Se encuentra representado en la Figura 1.

2.3 ÁMBITO

Para empezar el diseño conceptual de un estudio es necesario conocer el ámbito en que se desarrollará el mismo, es decir, el espacio en el que se efectuará el estudio12, 13 . En relación con este aspecto se pueden diferenciar los estudios experimentales y los observacionales14 .

Los primeros se centran en intervenir sobre el sujeto de investigación15 , es decir, el investigador manipula o controla las condiciones de la investigación; y los segundos se realizan sin intervención alguna de parte del investigador, quien actúa como un observador de la realidad, limitándose a medir y

Revista OActiva Universidad Cátolica de Cuenca. Vol. 4, No. 2, Mayo-Agosto, 2019

ESTRATEGIA DE ANÁLISIS DE DATOS PARTE 1

15

analizar las variables definidas en el estudio6 . Este tipo de estudios se clasifican, a su vez, en descriptivos y analíticos.16

2.3.1 Temporalidad

Por otra parte, en las investigaciones de corte epide- miológico es necesario establecer la temporalidad en la cual van a desarrollarse17 . Esta puede ser de cuarto tipos: re- trospectiva (registro de datos que ocurrieron en el pasado); prospectiva (los hechos se registran a medida que suceden); transversal (obtiene información de una muestra determinada de elementos de una población específica en un espacio de tiempo limitado) ; y longitudinal (incluye una muestra fija de elementos de la población que son evaluados a lo largo de un período de tiempo determinado)11, 18, 19 .

2.3.2Definición de variables

Una vez establecida la pregunta de investigación, el ámbito y la temporalidad del estudio, el punto siguiente es definir las variables3 . Se trata de características medibles u observables (por ejemplo, de una persona u objeto), que puedan ser expresadas en términos numéricos o categóricos.5

Existen cuatro tipos estadísticos de variables:

1)Cualitativa nominal (cuando la variable tiene categorías que no pueden ser ordenadas)6 .

2)Cualitativa ordinal (cuando la variable tiene categorías que pueden ser ordenadas por intensidad)20 .

3)Cuantitativa discreta (cuando la variable numérica no admite decimales).

4)Cuantitativa continua (cuando la variable numérica ad- mite decimales)5 .

2.3.3 Escala

Para cada variable se requiere de una escala de medición, la cual se clasifica en dos grandes grupos5 :

1)Escalas no métricas: se definen como las características que describen al fenómeno por estudiar, utilizado en variables cualitativas21 . A su vez, las escalas no métricas se clasifican en: nominales y ordinales. La escala no métrica nominal es aquella que no representa ninguna jerarquía en particular, mientras que la escala no métrica ordinal es aquella que mantiene un orden, descendente o ascendente, permitiendo ordenar los datos22 .

2)Escalas métricas: Identifican y describen al fenómeno por la cantidad o grado de una característica específica, utilizado en variables cuantitativas2 . Estas escalas se clasifican en: escala métrica de intervalo (en la cual puede existir el cero como punto arbitrario e inclusive valores negativos); y escala métrica de razón (en donde el cero asume un valor absoluto, y no se admite como valor de una variable).

2.3.4Formulación de hipótesis

La hipótesis es un enunciado que realiza el investiga- dor luego de analizar a fondo el tema de interés, siendo coherente con la pregunta de investigación y variables a relacionar17,23, 24 . Ésta puede plantearse como la respuesta esperada a la pregunta inicial y transformarse en una guía hacia lo que se quiere estudiar25 .

Una hipótesis bien estructurada está compuesta por la uni- dad de observación y las variables que serán evaluadas10 . Además, se puede en la hipótesis indicar cómo se espera que se relacionen estos dos elementos, es decir, establecer la direccionalidad de la hipótesis18 . Una hipótesis puede negar la asociación entre variables (hipótesis nula, Ho) o puede afirmar asociación que existe entre ellas (hipótesis alternativa, Hi)5 .

2.3.5 Diseño Metodológico

Es la estrategia que se adoptará para responder a la pregunta de investigación. Existen diseños de estudios clí- nicos y no clínicos. Los diseños clínicos más usados son : Caso-control, Descriptivo, de Sensibilidad y Especificidad, Ensayos clínicos aleatorizados y de Cohortes26 .

2.3.6 Recolección u obtención de datos

Para obtener los datos de una investigación de corte epidemiológico, se debe tomar en cuenta el universo de estudio, que es el total de personas u objetos con caracte- rísticas específicas que deberían intervenir en el estudio27, 28 . Generalmente no se evalúa a todo el universo, pues resultaría excesivamente costoso o tomaría demasiado tiempo hacer- lo.21 Es por ello por lo que se debe trabajar con una muestra representativa de este universo, para lo cual es necesario realizar un cálculo de tamaño muestral, tomando en cuenta que a mayor tamaño muestral menor error26 . La selección de la muestra es crucial para obtener resultados válidos y confiables. Existen dos tipos de muestras12 :

Las muestras probabilísticas se establecen de la siguien- te manera29 :

1)Muestreo simple: se elige la población al azar.

2)Muestreo estratificado: se divide a la población en grupos y se aplica un muestreo simple dentro de cada grupo.

3)Muestreo por segmentos o racimos: se elige la pobla- ción usando criterios de proximidad5 .

Las muestras no probabilísticas establecidas según el criterio subjetivo del investigador, es decir, que no son representativas de todo el universo. Este tipo de muestras poblacionales son30 :

1)Muestreo por conveniencia.

2)Muestreo por demanda de atención

3)Maestro por conglomerados.

4)Muestreo de sujetos voluntarios (que se usan en diseños de estudios de series de casos y controles.)

Revista OActiva Universidad Cátolica de Cuenca. Vol. 4, No. 2, Mayo-Agosto, 2019

16

Torracchi-Carrasco Esteban y cols.

2.4CREACIÓN DE UNA BASE DE DATOS

Una vez que se han definido el diseño de investigación apropiado y la muestra adecuada en base a nuestra pregunta de investigación e hipótesis, la siguiente etapa consiste en recolectar los datos y elaborar un plan detallado de proce- dimientos que nos conduzcan a organizarlos con el fin de analizarlos de manera correcta22 . Para ello es necesario crear

o construir una base de datos31 . Recibe este nombre el conjunto de datos que están relacionados entre sí, los cuales son agrupados y estructurados en forma de campos y registros que son archivados para su posterior análisis32 .

Una base de datos puede ser una hoja de cálculo (por ejemplo, en formato Excel) que se organiza bajo la forma de filas y columnas23 (Figura2).

Fig. 2. Anatomía de una base de datos.

Fig. 3. Hoja adicional - Diccionario.

Revista OActiva Universidad Cátolica de Cuenca. Vol. 4, No. 2, Mayo-Agosto, 2019

ESTRATEGIA DE ANÁLISIS DE DATOS PARTE 1

17

Dentro de lo que se puede llamar la anatomía de una base de datos, las filas corresponden a cada unidad de estudio (por ejemplo, un paciente) y las columnas corresponden a cada uno de los campos (variables evaluadas) que se han considerado en la unidad de estudio28, 33 . Se llama registro a cada fila y se denomina campo a cada columna24 . La intersección entre la fila y la columna delimita una celda y esta contiene un registro (dato). En el siguiente ejemplo, la celda W6 contiene un dato que es el número 0, que por sí solo no tiene ningún significado22 . Sin embargo, en el contexto de esta base de datos, este valor adquiere un significado único, es decir: i) 0 (no presenta caries), 1 (presenta caries); así también, en el caso del paciente número 5, el valor correspondiente a la variable reportada en el campo C16 que significa el código para caries de la pieza 2.6, el valor 0 significa diente sano34 .

Para construir una base de datos, es recomendable codificar el nombre de las variables (campos) y guardar el significado en una hoja adicional denominada Diccionario30 (Figura 3). En esta hoja puede verse que en la columna A están codificados los nombres de las variables; en la columna B, se presenta el nombre extenso descriptivo de cada variable; en la columna C se muestran los datos que son admitidos en la celda (válidos en el registro) (nótese que a partir de la variable C18 en adelante se admiten los mismos códigos; por ese motivo, a partir de C11 se pone idem. que significa idéntico al anterior); en la columna D (de la base de datos) se presenta la variable sexo (la cual ha sido codificada con 0 para el sexo femenino y 1 para el sexo masculino (lo cual está

explicado en el Diccionario en la fila 4)6 . Presentamos este ejemplo porque es la forma más conveniente de registrar los datos de una variable cualitativa dicotómica (como el sexo) y que puede ser exportada a cualquier paquete estadístico20 .

Otra ventaja de codificar las variables es que se evitan los errores dactilográficos27 . Por ejemplo, en el caso del dato "Sexo Femenino", este puede ser escrito de 3 formas distintas (femenino, Femenino, FEMENINO), lo cual podría originar un conflicto en la base de datos al momento de hacer los cálculos de frecuencias, ya que la computadora contará cada una de estas formas como si fueran datos distintos35 .

El uso de los filtros en Excel proporciona una forma rápida de buscar y analizar los datos en un rango o tabla27

.Al filtrar una lista, se ocultan temporalmente algunos datos para enfocarse en aquellos que necesitamos; existen filtros para un rango de datos, datos de una tabla, de color y uso de criterios avanzados32 .

Existen herramientas informáticas para gestionar el correcto ingreso de datos y obtener una adecuada base de datos, por ejemplo, en estudios de tipo epidemiológico, es útil utilizar el Sistema Epi Info R el cual es un programa gratuito, especializado y público para la introducción y análisis de datos36 . Mediante el empleo de esta herramienta se pueden procesar cuestionarios o formularios, minimizando la posibi- lidad de cometer errores al ingresar los datos, definir patrones o codificaciones, seleccionar registros, crear y modificar da- tos y operaciones durante el análisis, e importar y exportar archivos31 .

Fig. 4. Formas alternativas de ingreso de datos

Revista OActiva Universidad Cátolica de Cuenca. Vol. 4, No. 2, Mayo-Agosto, 2019

18

 

 

 

 

 

Torracchi-Carrasco Esteban y cols.

 

En la Figura 4 presentamos dos formas alternativas de

 

Referencias Bibliográficas

 

 

 

 

ingresar datos como sexo y procedencia. En el lado izquierdo

 

 

 

 

 

 

 

 

 

tenemos una base de datos en la cual el sexo está codificado

1

Tapia LI, Palomino MA, Lucero Y, Valenzuela R. Pregunta,

como 1 y 0, significando que 1 corresponde al sexo masculino

 

hipótesis y objetivos de una investigación clínica. Revista

y 0 al femenino; de la misma forma, la procedencia también

 

 

Médica Clínica Las Condes. 2019;30(1):29–35.

 

está codificada como 1 (urbano) y 0 (rural). Al lado derecho

 

 

2

Burdiles P, Castro M, Simian D. Planificación y factibilidad

en esta misma figura se puede apreciar la forma incorrecta

 

de un proyecto de investigación clínica. Revista Médica

de

introducir los datos: el sexo tiene dos columnas (una

 

 

Clínica Las Condes. 2019;30(1):8–18.

 

 

para masculino y otra para femenino) donde usualmente se

 

 

 

3

Zhang Y, Qin G, Zhu Z, Xu W. A novel robust approach

coloca X o 1 para realizar el conteo. De esta forma los

 

for analysis of longitudinal data. Computational Statistics

paquetes estadísticos no reconocen la información. Por eso,

 

 

& Data Analysis. 2019;.

 

 

 

 

lo consideramos como una manera incorrecta de ingresar los

 

 

 

 

 

4

Caro JJ, Briggs AH, Siebert U, Kuntz KM.

Modeling

datos. Algo similar sucede con la procedencia.

 

good research practices—overview: a report of the ISPOR-

 

Una vez ingresados los datos en las bases, es imperativo

 

 

 

SMDM Modeling Good Research Practices Task Force–1.

realizar un control de calidad de los mismos25 . En otras

 

 

Medical Decision Making. 2012;32(5):667–677.

 

palabras, es estrictamente necesario monitorear y valorar la

 

 

5

Villavicencio Caparó

E. ¿ Cómo

plantear las

variables

calidad de los datos durante el progreso del estudio29 . El

 

de una investigaón?:Operacionalización de

las

variables.

proceso de control de calidad consta de: preparar instrumen-

 

 

Odontología Activa Revista Científica. 2019;4(1):15–20.

tos específicos, desarrollar procedimientos para colección de

 

6

Editorial. The relevance of good research reporting. The

datos y calibrar a los investigadores sobre la toma de datos y

 

Lancet Neurology. 2016;15(11):1103.

 

 

su incorporación a la base de datos en proceso de creación.

 

 

 

7

Fernández P.

Metodologías de investigación en ecología

Una vez creada la base de datos, el análisis estadístico de

 

aplicada y básica: ¿cuál estoy siguiendo, y por qué? revista

la información allí contenida permitirá responder la pregunta

 

 

chilena dehistorianatural. 2013;p. 385–402.

 

 

de investigación planteada. El análisis estadístico permite que

 

 

 

8

Simian D, Martínez-Jalilie M. Experiencia en la creación de

los datos se conviertan en información precisa y exacta34 .

 

registros con fines de Investigación Clínica. Revista Médica

 

 

 

 

 

 

Clínica Las Condes. 2019;30(1):76–82.

 

 

ANÁLISIS DE DATOS

9

Junginger S. Design Research and Practice for the Public

 

Good: A Reflection. She Ji: The Journal of Design, Econo-

 

Es la etapa en la que se analizan los datos para llegar a 10

mics, and Innovation. 2017;3(4):290–302.

 

 

 

Spuls PI. Doing Good Research Is Difficult, Doing No Re-

conclusiones firmes y robustas. Para lograrlo se puede utilizar

 

search Is More Difficult. Journal of Investigative Dermato-

estadística descriptiva y/o estadística inferencial32 . La prime-

 

 

logy. 2017;137(5):993–995.

 

 

 

 

ra se refiere a la adecuada presentación de tablas y gráficos 11

 

 

 

 

Barker L, Rattihalli RR, Field D.

How to write a good

estadísticos para reportar los datos. La segunda por su lado

 

research grant

proposal.

Paediatrics and

Child Health.

se refiere a la correcta manera de extrapolar los datos de

 

 

2016;26(3):105–109.

 

 

 

 

 

una muestra a una población en general (inferencia mediante 12

 

 

 

 

 

Waddington H, White H, Snilstveit B, Garcia J, Vojtkova

intervalos de confianza) y permite la comprobación de las

 

M, Davies P,

et

al.

How

to do

a good

systematic re-

hipótesis37 . Estos temas se desarrollarán en los próximos dos

 

 

view of effects in international development : a tool kit.

artículos de esta misma serie.

 

 

2015;9342(December).

 

 

 

 

 

 

 

 

 

 

 

 

 

13

Espinoza Freire EE. La hipótesis en la investigación.

3

CONCLUSIONES

 

Revista de Educación. 2018;16(1):122–139.

 

 

14

Davies MM MN.

Practical research methods for media

 

La construcción de la base de datos es una fase crítica

 

and cultural studies: making people count. Edinburgh Univ

 

 

Press. 2006;p. 202.

 

 

 

 

 

en el proceso de investigación científica. La anatomía de la 15

Sellew-G. Where do we go from here?.

The American

base de datos guarda una relación directa con la pregunta de

 

Journal of Nursing. 2006;32(1):39.

 

 

 

investigación, el diseño del estudio y con el desarrollo de las 16

Arrom LM, Huguet J, Errando C, Breda A, Palou J. Cómo

conclusiones. Una correcta estrategia para la codificación y

 

escribir un artículo original. Actas Urológicas Españolas.

el manejo de los datos ayuda a evitar errores en el análisis

 

2018;42(9):545–550.

 

 

 

 

 

estadístico.

17

García A PM.

Tópicos en la planificación del personal

 

AGRADECIMIENTOS:

 

médico. Gaceta Sanitaria. 2009;23(5):483–483.

 

Los autores agradecen al Dr. Luis Andrés Yarzábal (Departa- 18

Manterola C OT.

Estudios observacionales. Los diseños

mento de Investigación, Carrera de Odontología. Universidad

 

utilizados con mayor frecuencia en investigación clínica

Católica de Cuenca) por su apoyo en la edición.

 

observational. Int J Morphol. 2014;32(2):634–645.

Revista OActiva Universidad Cátolica de Cuenca. Vol. 4, No. 2, Mayo-Agosto, 2019

ESTRATEGIA DE ANÁLISIS DE DATOS PARTE 1

19

19Domínguez S. El análisis de información y las investigacio- nes cuantitativa y cualitativa. Rev Cubana Salud Pública. 2007;33(3).

20Pita-Fernández. Tipos de estudios clínico epidemiológicos. Medicina. 2001;p. 1–9.

21Fraile B. artículo Experimental. Bermejo Fraile B Estudios experimentales Matronas Prof. 2008;9(1):15–20.

22Estado-Jalisco. Instituto Electoral Y De Participación Ciu- dadana. 2014;p. 1–18.

23Castro-Magdalena. Bioestadística aplicada en investigación clínica : conceptos básicos Biostatistics applied in clinical research : basic concepts. 2019;30(1):50–65.

24Torres M, Paz K, Salazar FG. Metodos De Recoleccion De Datos Para Una Investigación. Facultad de Ingeniería, Universidad Rafael Landivar. 2014;03:1–21.

25Huebner M lCS Vach W. A systematic approach to initial data analysis is good research practice. 2016;1(151):25–7.

26Villavicencio Caparó E. El tamaño muestral para la tesis.¿ cuántas personas debo encuestar?. 2017;2(1):59–62.

27Madero R JB Pérez E. Estadística para pediatras (III). Análi- sis de datos. Anales de Pediatria Continuada. 2007;5(1):63– 67.

28Bruni R DCLC Bianchi G. Logical Analysis of Data as a tool for the analysis of Probabilistic Discrete Choice Beha- vior. Computers and Operations Re- search. 2019;106:191– 201.

29Gentleman RI R. R : A Language for Data Analysis and Graphics. Computational and Graphical Statistics. 2015;5(3):299–314.

30Lejeune M, Lozin V, Lozina I, Ragab A, Yacout S. Recent advances in the theory and practice of Logical Analy- sis of Data. European Journal of Operational Research. 2019;275(1):1–15.

31Khezrimotlagh D, Zhu J, Cook WD, Toloo M. Data envelopment analysis and big data. European Journal of Operational Research. 2019;274(3):1047–1054.

32Kawulich B. La observación participante como método de recolección de datos. In: Forum: qualitative social research. vol. 6; 2005. p. 1–32.

33Press U, Ergonomics P. PA RT 2 Engineering the System around Humans. 2017;.

34Pita Fernández S, Pértegas Díaz S. Investigación cuantitati- va y cualitativa. Cad Aten Primaria. 2002;9:76–78.

35Otzen T, Manterola C. Técnicas de Muestreo sobre una Población a Estudio. International Journal of Morphology. 2017;35(1):227–232.

36Rémy NM, Martial TT, Clémentin TD. The prediction of good physicians for prospective diagnosis using data mining. Informatics in Medicine Unlocked. 2018;.

37Cavada G. Docimasia de hipótesis. Rev chil endocrinol diabetes. 2009;2(4):256–257.

Recibido: 1 de febrero del 2019.

Aceptado: 15 de marzo del 2019.

Revista OActiva Universidad Cátolica de Cuenca. Vol. 4, No. 2, Mayo-Agosto, 2019