+ - 0:00:00
Notes for current slide
Notes for next slide

Encuestas Sociales

Juan Carlos Castillo

Sociología FACSO - UChile

2do Sem 2022

encuestas-sociales.netlify.com


Sesión 8: Flujo de trabajo y preparación de datos

1 / 36

Segunda unidad del curso:

Análisis de datos de encuestas


  • Flujo de trabajo y preparación de datos
  • Generación de tablas
  • Generación de gráficos
  • Uso de ponderadores
  • Indices y factores
  • Reporte y comunicación
2 / 36

Contenidos

1. Flujo de trabajo colaborativo y reproducible

2. Preparación de datos

3 / 36

Contenidos

1. Flujo de trabajo colaborativo y reproducible

2. Preparación de datos

4 / 36

¿Cómo organizar el flujo de trabajo?

A. Estilo personal (ad-hoc)

B. Protocolo reproducible

5 / 36

¿Cómo organizar el flujo de trabajo?

A. ad-hoc (menos reproducible)

  • cada investigador define numero de archivos, nombres, carpetas y organización

  • explicar al resto cómo se organiza

  • documentar en un archivo cómo se organiza

--> reproducibilidad y transparencia LIMITADA

6 / 36

7 / 36

¿Cómo organizar el flujo de trabajo?

B. Protocolo de trabajo reproducible

  • estructura de carpetas y archivos interconectados que refieren a reglas conocidas

  • autocontenido: toda la información necesaria para la reproducibilidad se encuentra en la carpeta raíz o directorio de trabajo.

8 / 36

Protocolos reproducibles

9 / 36

Ejemplo protocolo reproducible: TIER

10 / 36

Protocolo TIER

11 / 36

Protocolo IPO

Input

Procesamiento

Output

12 / 36

Protocolo IPO - Estructura de archivos y carpetas

13 / 36

Protocolo IPO - Estructura de archivos y carpetas

14 / 36

Protocolo IPO en contexto R/RMarkdown

  • RMarkdown tiene una lógica en sí reproducible, y puede simplificar el uso de protocolos.

  • Si todo el procesamiento se hace en el mismo documento paper.Rmd, entonces basta con la carpeta input de IPO.

  • Recomendación: realizar la preparación en código externo (carpeta proc) y el análisis en el paper.Rmd.

  • Es solo una propuesta, el sentido último es la reproducibilidad más que el cumplimiento estricto

15 / 36

Mayores detalles en LISA (Laboratorio de Investigación Social Abierta):

16 / 36

Flujo de trabajo reproducible

A. Directorio de trabajo

B. Rutas relativas

C. Dinámica flujo

17 / 36

Flujo de trabajo reproducible

A. Directorio de trabajo

B. Rutas relativas

C. Dinámica flujo

18 / 36

A. Directorio de trabajo

  • proyecto autocontenido: reproducible sin necesidad de archivos externos

  • requisito: establecer directorio de trabajo

    • posición de referencia de todas las operaciones al interior del proyecto

    • también llamado directorio raíz

19 / 36

Estableciendo directorio de trabajo

  • forma tradicionalen R:

    • setwd(ruta-a-carpeta-de-proyecto)

    • problemas: hace referencia a ruta local en el computador donde se está trabajando, por lo tanto no es reproducible y se debe evitar

20 / 36

Estableciendo directorio de trabajo

  • forma tradicionalen R:

    • setwd(ruta-a-carpeta-de-proyecto)

    • problemas: hace referencia a ruta local en el computador donde se está trabajando, por lo tanto no es reproducible y se debe evitar

  • alternativa sugerida en R:

    RStudio Projects

20 / 36

RStudio Projects

  • La funcionalidad Projects de RStudio permite establecer claramente un directorio de trabajo de manera eficiente

  • Para ello, genera un archivo de extensión .Rproj en el directorio raiz de la carpeta del proyecto

21 / 36

RStudio Projects

  • La funcionalidad Projects de RStudio permite establecer claramente un directorio de trabajo de manera eficiente

  • Para ello, genera un archivo de extensión .Rproj en el directorio raiz de la carpeta del proyecto

  • Luego se facilita acceder a la carpeta del proyecto en RStudio ejecutando desde el administrador de archivos del computador (file manager) el archivo .Rproj

  • para comprobar, ejecutar getwd() y debería dar la ruta hacia la carpeta del proyecto

21 / 36

RStudio Projects

  • File -> New Project






22 / 36

RStudio Projects

23 / 36

Flujo de trabajo reproducible

A. Directorio de trabajo

B. Rutas relativas

C. Dinámica flujo

24 / 36

B. Rutas relativas

  • forma de "señalar el camino" para abrir y guardar archivos al interior de una carpeta de proyecto autocontenido (= sin referencias locales)

  • este camino tiene básicamente 3 direcciones:

    • bajar -> hacia subcarpetas

    • subir -> hacia carpetas superiores

    • subir y bajar -> hacia otras subcarpetas

25 / 36

Rutas relativas: bajando

  • para "bajar" hacia a una subcarpeta, simplemente damos la ruta de la carpeta/archivo

    • ej: si estoy en el archivo paper.Rmd (directorio raíz), y quiero incluir una imagen (directorio input/images/imagen.jpg), entonces la ruta es input/images/imagen.jpg

    • o para señalar la ruta al bib desde paper.Rmd (en raíz): input/bib/referencias.bib

26 / 36

Rutas relativas: subiendo

  • para subir se utilizan los caracteres ../ por cada nivel.

  • Ej: si quiero guardar una tabla en el directorio raíz generada desde un archivo de código en la subcarpeta proc, entonces la ruta es ../tabla.html

27 / 36

Rutas relativas: subiendo y bajando

  • combinación de las anteriores

  • Ej: para abrir la base de datos original en la subcarpeta input/data desde el código de procesamiento en la subcarpeta proc, entonces: ../input/data/original.dat

28 / 36

Flujo de trabajo reproducible

A. Directorio de trabajo

B. Rutas relativas

C. Dinámica flujo

29 / 36

C. Dinámica de flujo principal de trabajo

30 / 36

Resumen flujo de trabajo colaborativo y reproducible

  • Estructura: Protocolo (IPO)

  • Flujo

    • Directorio de trabajo, carpeta autocontenida, .Rproj
    • Rutas relativas
    • Dinámica de trabajo
31 / 36

Contenidos

1. Flujo de trabajo

2. Preparación de datos

32 / 36

Preparación de datos

  • trabajo con datos: preparación y análisis

  • preparación: "limpieza", ajustes, etc.

  • "El análisis de datos es en gran parte preparación de datos"

  • Abarca ajustes como:

    • recodificación de valores
    • (re)etiquetado de valores/variables
    • manejo de casos perdidos
    • generación de índices
33 / 36

Protocolo de preparación de datos

  • hoja de código aparte (ej: preparacion.R o preparacion.Rmd)

  • comienza llamando la base original, y termina generando la base preparada para el análisis

  • avanza variable por variable detallando:

    • valores originales
    • opciones de recodificación
    • manejo de casos perdidos
    • etiquetados
    • tabla final descriptiva univariada
34 / 36

Práctica:

  • agregar al ejercicio el uso de Rprojects, rutas relativas y protocolo IPO
35 / 36

Encuestas Sociales

Juan Carlos Castillo

Sociología FACSO - UChile

2do Sem 2022

encuestas-sociales.netlify.com


36 / 36

Segunda unidad del curso:

Análisis de datos de encuestas


  • Flujo de trabajo y preparación de datos
  • Generación de tablas
  • Generación de gráficos
  • Uso de ponderadores
  • Indices y factores
  • Reporte y comunicación
2 / 36
Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
Esc Back to slideshow