Web Scraping con R

PROG-160

12 horas

Presencial

Objetivos

Construir herramientas para analizar código html y acceder a la información deseada y crear araña scrapy para rastrear la web a escala.

SUBVENCIÓN: Edicion 2024: Curso enmarcado en el Digital Tatent Hub. Gratuito para empresas socias de GAIA
Otro tipología de empresas consultar

Temario

Módulo 1: Introducción al Webscraping
1.¿Qué es el Webscraping?
•Definición y aplicaciones.
•Consideraciones legales y éticas.
2.Instalación y configuración del entorno de trabajo
•Instalación de R y RStudio.
•Instalación de paquetes necesarios: rvest, httr, xml2, tidyverse.
3.Conceptos básicos de HTML y CSS
•Estructura de un documento HTML.
•Selectores CSS.
Módulo 2: Fundamentos de Webscraping con R
1.Uso del paquete rvest
•Introducción a rvest.
•Lectura de páginas web con read_html().
•Selección de nodos HTML con html_nodes() y html_node().
•Extracción de texto y atributos con html_text() y html_attr().
2.Navegación y extracción de datos
•Manejo de datos tabulares con html_table().
•Scraping de múltiples páginas.
3.Manejo de sesiones con httr
•Introducción a httr.
•Realización de solicitudes GET y POST.
Módulo 3: Scraping Avanzado
1.Scraping de sitios dinámicos
•Introducción a sitios web dinámicos.
•Uso de rvest y httr con JavaScript.
•Introducción a RSelenium para scraping de contenido dinámico.
2.Automatización de tareas de scraping
•Uso de RSelenium para interactuar con formularios y botones.
•Extracción de datos de sitios web que requieren autenticación.