Contribución Didáctica Docente. Revista OACTIVA UC Cuenca . Vol. 4, No. 2, pp.
ESTRATEGIA DE ANÁLISIS DE DATOS (PARTE 1) :
CREACIÓN DE BASES DE DATOS PARA INVESTIGACIONES
EN CIENCIAS DE LA SALUD
DATA ANALYSIS STRATEGY (PART 1) : DATABASE CREATION FOR RESEARCH IN HEALTH SCIENCES
Ebingen 1
1Catedrático de la Facultad de Odontología de la Universidad Católica de Cuenca. Ecuador 2 Odontóloga de consulta particular en Cuenca. Ecuador
Resumen
Un trabajo de investigación puede ser considerado científicamente válido cuando es el producto de un proceso correcto de obtención, sistematización y análisis de información, la cual, lógicamente, debe ser verificable. Esta información debe surgir de una pregunta de investigación formulada de manera clara y concisa, persiguiendo objetivos que enmarquen el nivel y la profundidad de la información con la que se pretende trabajar. Asimismo, es imperativo que la recolección de datos se sustente en un diseño experimental mediante una adecuada planificación en torno a la investigación en la cual nos hemos embarcado. El objetivo de este trabajo es presentar una propuesta acerca de cómo se debería llevar a cabo el proceso de recolección de datos y construcción de una base de datos para que la información allí depositada resulte confiable al momento de realizar nuestros análisis y especialmente al momento de discutir nuestros resultados.
Palabras clave: Pregunta de investigación, Ciclo de Indagación, Diseño metodológico, Recolección de datos, Análisis de Datos.
Abstract
A research work can be considered scientifically valid when it is the product of a correct process of obtaining, systematizing and analyzing information, which, logically, must be verifiable. This information should come from a research question formulated in a clear and concise manner; Obtaining objectives that frame the level and depth of the information with which it is intended to work. Likewise, it is imperative that the data collection is based on an experimental design through adequate planning around the research in which we have embarked. The objective of this paper is to present a proposal about how the process of data collection and database realization should be carried out so that the extracted information is reliable at the time of our analysis and especially when discussing our results.
Key words: Research Questions, Inquiry Cycle, Research Design, Data Collection, Data Analysis.
1 INTRODUCCIÓN
Desde hace poco más de dos siglos, la investigación científica representa la forma más segura de aproximarse al conocimiento acerca de un determinado fenómeno de la realidad. Este conocimiento debe ser válido y confiable. Sin embargo, determinados aspectos críticos de una investigación pueden vulnerar alguna de estas características. Uno de estos aspectos es el manejo (obtención, procesamiento y análisis) de los datos; por ese motivo, en muchas universidades, los formatos de protocolo de investigación incluyen un acápite en el capítulo
y métodos- que se refiere a la estrategia del análisis de datos.1 En relación con este punto en particular, existe mucha bibliografía acerca del uso y manejo de pruebas estadísticas; sin embargo, hay poca literatura acerca de la técnica más adecuada para crear una buena base de datos.1, 2 Consideran- do que se trata de una fase previa al análisis estadístico, es necesario que se realice adecuadamente y que se conozca la forma óptima para su codificación y su organización, con la finalidad de poder controlar la calidad de los datos y tratar de prevenir los sesgos por ingreso incorrecto de los mismos.3
Revista OACTIVA UC Cuenca . Vol. 4, No. 2,
14 |
El presente es el primero de tres artículos de contribu- ción didáctica docente, que abordarán el tema del análisis de datos. Para ello, recapitularemos primero todas las etapas del proceso de investigación y explicaremos a continuación la fase pertinente a la construcción de las bases de datos, con la finalidad de ubicar en el contexto este tema tan importante para el desarrollo de un trabajo científico.
2LA BASE DE DATOS EN EL CONTEXTO DE UNA INVESTIGACIÓN CIENTÍFICA
La secuencia de pasos correctos y sistematizados, para crear una base de datos, está basada en un sistema estruc- turado para lograr resultados y conclusiones válidas, que aporten credibilidad al trabajo realizado. Esta secuencia está compuesta por cuatro
Fig. 1. Ciclo de Indagación científica (Tomado y Modificado de Feinsiger).7
2.1FORMULACIÓN DE LA PREGUNTA DE INVESTI- GACIÓN
Una pregunta de investigación debe ser formulada de forma precisa8 y clara de tal manera que no exista confu- sión con respecto a la respuesta esperada.9 Esta pregunta nace de una interrogante que se plantea al identificar un vacío de información ("brecha en el conocimiento") o un problema en una determinada área.1, 9 La interrogante formulada debe tener en consideración si la respuesta a la misma aportará nueva información.10
La pregunta de investigación debe ser:11
Concisa: utilizar lenguaje claro con frases cortas y di- rectas
Viable: el estudio y la recolección de datos debe ser posible.
Relevante: la investigación debe ser importante desde el punto de vista teórico, científico y social.
Ética: si la investigación es en seres vivos, deben respe-
tarse los principios bioéticos.
2.2 DISEÑO DEL ESTUDIO
2.2.1 Diseño Conceptual
Se encuentra representado en la Figura 1.
2.3 ÁMBITO
Para empezar el diseño conceptual de un estudio es necesario conocer el ámbito en que se desarrollará el mismo, es decir, el espacio en el que se efectuará el estudio.12, 13 En relación con este aspecto se pueden diferenciar los estudios experimentales y los observacionales.14
Los primeros se centran en intervenir sobre el sujeto de investigación,15 es decir, el investigador manipula o controla las condiciones de la investigación; los segundos se realizan sin intervención alguna de parte del investigador, quien actúa como un observador de la realidad, limitándose a medir y analizar las variables definidas en el estudio.6 Este tipo de estudios se clasifican, a su vez, en descriptivos y analíticos.16
Revista OACTIVA UC Cuenca . Vol. 4, No. 2,
ESTRATEGIA DE ANÁLISIS DE DATOS PARTE 1 |
15 |
2.3.1 Temporalidad
En las investigaciones de corte epidemiológico es ne- cesario establecer la temporalidad en la cual van a desa- rrollarse.17 Esta temporalidad puede ser de cuatro tipos: re- trospectiva (registro de datos que ocurrieron en el pasado); prospectiva (los hechos se registran a medida que suceden); transversal (obtiene información de una muestra determinada de elementos de una población específica en un espacio de tiempo limitado) ; y longitudinal (incluye una muestra fija de elementos de la población que son evaluados más de una vez a lo largo de un período de tiempo determinado).11, 18, 19
2.3.2Definición de variables
Una vez establecida la pregunta de investigación, el ámbito y la temporalidad del estudio, el punto siguiente es definir las variables3 y su rol en la investigación. Se trata de características medibles u observables (por ejemplo, de una persona u objeto), que puedan ser expresadas en términos numéricos o categóricos.5
Existen cuatro tipos estadísticos de variables:
1)Cualitativa nominal (cuando la variable tiene categorías que no pueden ser ordenadas).6
2)Cualitativa ordinal (cuando la variable tiene categorías que pueden ser ordenadas por intensidad).20
3)Cuantitativa discreta (cuando la variable numérica no admite decimales).
4)Cuantitativa continua (cuando la variable numérica admite decimales) .
Para más información sobre este aspecto, consultar Villavi- cencio y cols, 2019.5
2.3.3 Escala
Para cada variable se requiere de una escala de medición, la cual se clasifica en dos grandes grupos:5
1)Escalas no métricas: se definen como categorías que des- criben al fenómeno por estudiar, utilizado en variables cualitativas.21 A su vez, las escalas no métricas se cla- sifican en: nominales y ordinales. La escala nominal es aquella que no representa ninguna jerarquía en particular, mientras que la escala ordinal es aquella que mantiene un orden, descendente o ascendente, permitiendo jerar- quizar los datos.22
2)Escalas métricas: identifican y describen al fenómeno por la cantidad o grado de una característica específica, que se utiliza en variables cuantitativas.2 Estas escalas se clasifican en: escala de intervalo (en la cual puede existir el cero como punto arbitrario e inclusive valores negativos); y escala de razón (en donde el cero asume un valor absoluto, y no se admite como valor de una variable).
2.3.4Formulación de hipótesis
La hipótesis es un enunciado que plantea el investigador luego de analizar a fondo el tema de interés, siendo coherente con la pregunta de investigación y las variables a relacio- nar.17, 23, 24 Ésta hipótesis puede plantearse como la respuesta esperada a la pregunta inicial y transformarse en una guía hacia lo que se quiere estudiar.25
Una hipótesis bien estructurada está compuesta por la unidad de observación y las variables que serán evaluadas.10 Además, en la hipótesis se puede indicar cómo se espera que se relacionen estos dos elementos, es decir, establecer la direccionalidad de la hipótesis.18 Respecto a la lógica existen tres tipos de hipótesis: las de comparación de promedios, las de comparación de proporciones y las de correlación de variables. En cuanto a la naturaleza estadística existen Hipótesis nula (Ho) e Hipótesis alternativa (Hi).26
2.3.5 Diseño Metodológico
Es la estrategia que se adoptará para responder a la pregunta de investigación. Existen diseños de estudios clí- nicos y no clínicos. Los diseños clínicos más usados son :
2.3.6 Recolección u obtención de datos
Para obtener los datos de una investigación de corte epidemiológico, se debe tomar en cuenta el universo de estudio, que es el total de personas u objetos con caracte- rísticas específicas que deberían intervenir en el estudio.28, 29 Generalmente no se evalúa a todo el universo, pues resultaría excesivamente costoso o tomaría demasiado tiempo hacer- lo.21 Es por ello por lo que se debe trabajar con una muestra representativa de este universo, para lo cual es necesario realizar un cálculo de tamaño muestral, tomando en cuenta que a mayor tamaño muestral menor error.27 La selección de la muestra es crucial para obtener resultados válidos y confiables. Existen dos tipos de muestras:12
Las muestras probabilísticas se establecen de la siguien- te manera:30
1)Muestreo simple: se elige la población al azar.
2)Muestreo estratificado: se divide a la población en grupos y se aplica un muestreo simple dentro de cada grupo.
3)Muestreo por segmentos o racimos: se elige la pobla- ción usando criterios de proximidad.5
Las muestras no probabilísticas establecidas según el criterio subjetivo del investigador, es decir, que no son representativas de todo el universo. Este tipo de muestras poblacionales son:31
1)Muestreo por conveniencia.
2)Muestreo por demanda de atención
3)Maestro por conglomerados.
Revista OACTIVA UC Cuenca . Vol. 4, No. 2,
16 |
4)Muestreo de sujetos voluntarios (que se usan en dise- ños de estudios de series de casos y controles.)
2.4CREACIÓN DE UNA BASE DE DATOS
Una vez que se han definido el diseño de investigación apropiado y la muestra adecuada en base a la pregunta de investigación y la hipótesis, la siguiente etapa consiste en recolectar los datos y elaborar un plan detallado de proce-
dimientos que nos permitan organizarlos con el fin de ana- lizarlos de manera correcta.22 Para ello es necesario crear o construir una base de datos.32 Recibe este nombre el conjunto de datos que están relacionados entre sí, los cuales son agrupados y estructurados en forma de campos y registros que son archivados para su posterior análisis.33 Una base de datos puede ser una hoja de cálculo (por ejemplo, en formato Excel) que se organiza bajo la forma de filas y columnas23 (Figura2).
Fig. 2. Anatomía de una base de datos.
Fig. 3. Hoja adicional - Diccionario.
Revista OACTIVA UC Cuenca . Vol. 4, No. 2,
ESTRATEGIA DE ANÁLISIS DE DATOS PARTE 1 |
17 |
Dentro de lo que se puede llamar la anatomía de una base de datos, las filas corresponden a cada unidad de estudio (por ejemplo, un paciente) y las columnas corresponden a cada uno de los campos (variables evaluadas) que se han considerado en la unidad de estudio.29, 34 Se llama registro a cada fila y se denomina campo a cada columna.24 La intersección entre la fila y la columna delimita una celda y esta contiene un registro (dato). En el ejemplo planteado, la celda L5 contiene un dato que es el número 1, que por sí solo no tiene ningún significado.22 Sin embargo, en el contexto de esta base de datos, este valor adquiere un significado único, es decir: 0 (no presenta caries), 1 (presenta caries); así también, en el caso del paciente número 5, el valor correspondiente a la variable reportada en el campo C16 que significa el código para caries de la pieza 2.6, el valor 0 significa diente sano.35
Para construir una base de datos, es recomendable codificar el nombre de las variables (campos) y guardar el significado en una hoja adicional denominada Diccionario31 (Figura 3). En esta hoja puede verse que en la columna A están codificados los nombres de las variables; en la columna B, se presenta el nombre extenso descriptivo de cada variable; en la columna C se muestran los datos que son admitidos en la celda (válidos en el registro) (nótese que a partir de la variable C18 en adelante se admiten los mismos códigos; por ese motivo, a partir de C11 se pone idem. que significa idéntico al anterior); en la columna D (de la base de datos), Figura 2 se presenta la variable sexo (la cual ha sido codificada con 0 para el sexo femenino y 1 para el sexo masculino (lo cual está explicado en el Diccionario
en la fila 4),6 Figura 3. Presentamos este ejemplo porque es la forma más conveniente de registrar los datos de una variable cualitativa dicotómica (como el sexo) y que puede ser exportada a cualquier paquete estadístico.20
Otra ventaja de codificar las variables es que se evitan los errores dactilográficos.28 Por ejemplo, en el caso del dato "Sexo Femenino", este puede ser escrito de 3 formas distintas (femenino, Femenino, FEMENINO), lo cual podría originar un conflicto en la base de datos al momento de hacer los cálculos de frecuencias, ya que la computadora contará cada una de estas formas como si fueran datos distintos.36
El uso de los filtros en Excel proporciona una forma rápida de buscar y analizar los datos en un rango o tabla.28 Al filtrar una lista, se ocultan temporalmente algunos datos para enfocarse en aquellos que necesitamos; existen filtros para un rango de datos, datos de una tabla, de color y uso de criterios avanzados.33
Existen herramientas informáticas para gestionar el correcto ingreso de datos y obtener una adecuada base de datos; por ejemplo, en estudios de tipo epidemiológico, es útil utilizar el Sistema Epi Info R el cual es un programa gratuito, especializado y público para la introducción y análisis de datos.37 Mediante el empleo de esta herramienta se pueden procesar cuestionarios o formularios, minimizando la posibi- lidad de cometer errores al ingresar los datos, definir patrones o codificaciones, seleccionar registros, crear y modificar da- tos y operaciones durante el análisis, e importar y exportar archivos.32
Fig. 4. Formas alternativas de ingreso de datos
Revista OACTIVA UC Cuenca . Vol. 4, No. 2,
18 |
|
||
En la Figura 4 presentamos dos formas alternativas de |
|
Referencias |
|
ingresar datos como sexo y procedencia. En el lado izquierdo |
|
|
|
tenemos una base de datos en la cual el sexo está codificado |
1 |
Tapia L, Palomino M, Lucero Y, Valenzuela R. Pregunta, |
|
como 1 y 0, significando que 1 corresponde al sexo masculino |
|
Hipótesis y Objetivos de una Investigación Clínica. Revista |
|
y 0 al femenino; de la misma forma, la procedencia también |
|
||
|
Médica Clínica las Condes. 2019 Diciembre; |
||
está codificada como 1 (urbano) y 0 (rural). Al lado derecho |
|
||
2 |
Burdiles P, Castro M, Simian D. Planificación y factibilidad |
||
en esta misma figura se puede apreciar la forma incorrecta |
|
de un proyecto de investigación clínica. Revista Médica |
|
de introducir los datos: el sexo se reporta en dos columnas |
|
||
|
Clínica Las Condes. 2019 Diciembre; |
||
(una para masculino y otra para femenino) donde usualmente |
|
||
3 |
Zhang Y, Qin G, Zhu Z, Xud W. A novel robust approach |
||
se coloca X o 1 para realizar el conteo. De esta forma los |
|
for analysis of longitudinal data. Computational Statistics |
|
paquetes estadísticos no reconocen la información. Por eso, |
|
||
|
& Data Analysis. 2019 Abril; |
||
lo consideramos como una manera incorrecta de ingresar los |
|
||
4 |
Caro J, Briggs A, Siebert U, Kuntz K. Modeling good |
||
datos. Algo similar sucede con la procedencia. |
|
research practices - overview: a report of the |
|
Una vez ingresados los datos en las bases, es imperativo |
|
||
|
Modeling Good Research Practices Task |
||
realizar un control de calidad de los mismos.25 En otras |
|
||
|
Health. 2012; |
||
palabras, es estrictamente necesario monitorear y valorar la |
|
||
5 |
Villavicencio E, Torracchi E, Pariona MdC, Alvear MC. |
||
calidad de los datos durante el progreso del estudio.29 El |
|
¿Cómo plantear las variables de una investigación? Opera- |
|
proceso de control de calidad consta de: preparar instrumen- |
|
||
|
cionalización de las variables. Odontología Activa Revista |
||
tos específicos, desarrollar procedimientos para colección de |
|
||
|
Científica. 2019 Enero - Abril; |
||
datos y calibrar a los investigadores sobre la toma de datos y |
|
||
6 |
Editorial. The relevance of good researchreporting. The |
||
su incorporación a la base de datos en proceso de creación. |
|
Lancet Neurology. 2016 Octubre; 15:1103. |
|
Una vez creada la base de datos, el análisis estadístico de |
|
||
7 |
Feinsinger P. Metodologías de la investigación en ecología |
||
la información allí contenida permitirá responder la pregunta |
|
aplicada y básica: ¿Cuál estoy siguiendo, y por qué? Revista |
|
de investigación planteada. El análisis estadístico permite que |
|
||
|
Chilena de Historia Natural. 2013; |
||
los datos se conviertan en información organizada y útil.34 |
|
||
8 |
Simian D, Martínez M. Experiencia en la creación de re- |
||
|
|||
|
|
gistros con fines de Investigación Clínica. Revista Médica |
|
ANÁLISIS DE DATOS |
|
Clínica Las Condes. 2019 Noviembre; |
|
9 |
Junginger S. Desing Research and Practice for the Public |
||
Es la etapa en la que se analizan los datos para llegar a |
|
Good: A Reflection. The Journal of Desing, Economics, and |
|
|
Innovaition. 2017 Febrero; |
||
conclusiones firmes y robustas. Para lograrlo se puede utilizar 10 |
|||
Editorial. Doing Good Research Is Difficult, Doing No |
|||
estadística descriptiva y/o estadística inferencial.32 La prime- |
|
Research is More Difficult. Journal of Investigative Derma- |
|
ra se refiere a la adecuada presentación de tablas y gráficos |
|
||
|
tology. 2017; |
||
estadísticos para reportar los datos. La segunda por su lado 11 |
|||
Barker L, Rattihalli R, Field D. How to write a good |
|||
se refiere a la correcta manera de extrapolar los datos de |
|
reseach grant proposal. Paediatrics and Child Health. 2015; |
|
una muestra a una población en general (inferencia mediante |
|
||
|
|||
intervalos de confianza) y permite la comprobación de las 12 |
|||
Waddington H, White H, Snilstveit B, García J, Vojkova |
|||
hipótesis.37 Estos temas se desarrollarán en los próximos dos |
|
M, Davies P, et al. How to do a good systematic reviex |
|
artículos de esta misma serie. |
|
||
|
of effects in international development: a tool kit. Journal |
||
|
|
||
|
|
of Development Effectiveness. 2012 Septiembre ; 4(3):359- |
|
3 CONCLUSIONES |
|
387. |
|
13 |
Espinoza E. La hipótesis en la investigación. Mendive Re- |
||
La construcción de la base de datos es una fase crítica 14 |
vista de Educación. 2018 Enero; |
||
Davies M, Mosdell N. Practical Research Methods For Me- |
|||
en el proceso de investigación científica. La anatomía de la |
|
dia And Cultural Studies: Making People Count. Edinburgh |
|
base de datos guarda una relación directa con la pregunta |
|
University Press;2006. |
|
de investigación, el diseño del estudio y el desarrollo de las 15 |
|||
conclusiones. Una correcta estrategia para la codificación y |
|
J,Johnston, Editors. Data Information Literacy. Data Infor- |
|
el manejo de los datos ayuda a evitar errores en el análisis |
|
mation Literacy; |
|
estadístico. |
16 |
Arrom LM, Huguer J, Errando A, Palou B, Palou J. Cómo |
|
AGRADECIMIENTOS: |
|
escribir un artículo original. Actas Urológicas Españolas. |
|
Los autores agradecen al Dr. Luis Andrés Yarzábal (Departa- |
|
2018 FEbrero; |
|
mento de Investigación, Carrera de Odontología. Universidad 17 |
García M. Tópicos en la planificación del personal médico. |
||
Católica de Cuenca) por su apoyo en la edición. |
|
Gaceta Sanitaria. 2009; |
Revista OACTIVA UC Cuenca . Vol. 4, No. 2,
|
ESTRATEGIA DE ANÁLISIS DE DATOS PARTE 1 |
19 |
18 |
Manterola C. Estudios Observacionales. Los diseños utiliza- |
2017; |
|
dos con mayor frecuencia en investigación clínica. Revista 37 |
Rémy NM, Martial TT, Clémentin TD. The prediction of |
|
Médica Clínica Las Condes. 2009 Junio; |
good physicians for prospective diagnosis using data. Infor- |
19 |
Domínguez Y. El análisis de información y las investifacio- |
matics in Medicine Unlocked. 2018; |
|
nes cuantitativa y cualitativa. Revista Cubana Salud Pública. |
|
|
2007 Mayo; |
|
20 |
Pita Fernández S, Pértegas Díaz S. Tipos de estudios clínico |
|
|
epidemiológicos. Unidad de Epidemiología Clínica y Bio- |
Recibido: 1 de febrero del 2019. |
|
estadística. 2002 |
|
21 |
Begoña Bermejo F. Estudios experimentales. Matronas |
Aceptado: 15 de marzo del 2019. |
|
Prof. 2008; |
|
22 |
Osborg Ose S. Using Excel and Word to Structure Qua- |
|
|
litative Data. Journal of Applied Social Science. 2016 |
|
|
|
23Castro M. Bioestadística aplicada en investigación clínica: conceptos básicos. Revista Médica Clínica Las Condes. 2019 Diciembre;
24Spiece K, Colosi J. Redefining the "Scientific Method". The American Biology Teacher. 2000;
25Huebner M, Vach W, Le Cessie S. A systematic approach to initial data analysus is good research practice. The Journal of Thoracic and Cardiovascular Surgery. 2016;
26Cavada C. Docimasia de hipótesis. Revista Chilena Endo- crinología Diabetes. 2009;
27Villavicencio Caparó E, Alvear Córdova MC, Cuenca León K, Calderón Curipoma M, Zhunio Ordoñez K, Webster Carrión F. El tamaño muestral para la tesis ¿Cuántas perso- nas debo encuestar? Odontología Activa Revista Científica. 2017;
28Madero R, Pérez E, San José B. Estadística para pediatras (III). Análisis de datos. Hablemos de. . . 2007;
29Bruni R, Bianchi G, Dolente C, Claudio L. Logical Analysis of Data as a tool for the analysis of Probabilistic Discrete Choice Behavior. Computers & Operations Research. 2019 June;
30Ihaka R, Gentleman R. R: A Language for Data Analysis and Graphics. Journal of Computational and Graphical Sta- tistics. 1996;
31Lejeune M, Lozin V, Lozina I, Ragab A, Yacout S. Recent advances in the theory and practice of Logical Analysis of Data. European Journal of Operational Research. 2019 Mayo;
32Khezrimotlagh D, Zhu J, Cook WD, Toloo M. Data envelop- ment analysis and big data. European Journal of Operational Research. 2019 Mayo;
33Kawulich BB. La observación participante como método de recolección de datos. Forum: Qualitative. 2005 Mayo; 6(2).
34Berlin C, Adams C. Data Collection and Task.Production Ergonomics: Ubiquity Press;
35Pita Fernandez S, Pértegas Díaz S. Investigación cuanti- tativa y cualitativa. Unidad de Epidemiología Clínica y Bioestadística. 2002;
36Otzen T, Manterola C. Técnicas de Muestreo sobre una Población de Estudio. International Journal of Morphology.
Revista OACTIVA UC Cuenca . Vol. 4, No. 2,