‘Web scraping’: ¿qué es y cómo funciona?

El Tiempo, Colombia 20 de noviembre de 2023

MARÍA MARAZA SARAVIA - EL COMERCIO (PERÚ) - @elcomercio_peru
A principios de 2023, en marzo, se reveló que Meta pagó durante muchos años a Bright Data, una empresa de recopilación de datos, para que lleve a cabo un servicio de rastreo web, también conocido como web scraping. Con dicha técnica se pudieron extraer datos como los ‘me gusta’, seguidores, publicaciones y comentarios "de plataformas de las redes sociales TikTok y Twitter, y de sitios de comercio electrónico como Amazon, eBay y Walmart", se supo en su momento. Esta técnica, usada principalmente en mercadeo, ha comenzado a ser vista con especial preocupación, máxime ahora que la que usan empresas como Open AI y Google, entre otras, para entrenar a sus inteligencias artificiales: ‘escrapeando’ contenidos en texto, fotos y video de millones de portales. ¿Cómo funciona? De acuerdo con Sergio Azahuanche, consultor de ciberseguridad sénior de Marsh Advisory, se trata de una técnica que permite extraer y recopilar información de páginas web de forma automatizada. Este procedimiento funciona a través del uso de programas o scripts, también conocidos como scrapers, capaces de "navegar por múltiples sitios web" y así "identificar y extraer información de acuerdo con criterios preestablecidos". El ‘escrapeo’ tiene tres etapas: 1) Acceder a la página web mediante una solicitud HTTP. 2) Analizar el contenido HTML de la página para identificar la información deseada. 3) Extraer la información y almacenarla en una base de datos o en un formato estructurado, como CSV o JSON. ¿Para qué se utiliza? Chavarro señala que es usado para múltiples propósitos. "Uno de ellos es como herramienta de investigación de mercado para recopilar datos de precios, características de productos y reseñas de productos en línea. Esto permite a las empresas realizar un análisis más detallado de sus competidores". También sirve para realizar un análisis contextual, es decir, extraer opiniones y comentarios de usuarios en redes sociales, foros y blogs "para evaluar la percepción pública de una marca, producto o servicio". Asimismo, se utiliza para recopilar información de contacto de posibles clientes en directorios o sitios web de empresas. De igual forma, para estudiar tendencias del mercado, demanda y competidores mediante análisis de información en línea. Azahuanche agrega que algunas de las páginas ‘escrapeadas’ incluyen, por supuesto, a las redes sociales, como Facebook, Twitter e Instagram. Las plataformas bancarias, sitios de compra y las plataformas de comercio electrónico, como Amazon, Alibaba y otras también están incluidas. Igualmente, los sitios de reserva de viaje, como Booking y Airbnb. Es importante recalcar que este procedimiento debe realizarse respetando las leyes. "En algunos casos, el web scraping puede ser ilegal o violar los términos de servicio, por lo que es importante tener cuidado y consultar las leyes y regulaciones aplicables antes de realizar cualquier extracción de datos", explica Chavarro. Usos maliciosos De acuerdo con Eduardo Chavarro, el web scraping malicioso "es la extracción de datos de manera ilegal o no ética, generalmente para obtener información personal o confidencial de los usuarios de un sitio web sin su consentimiento o permiso". La información que se puede extraer va desde tarjetas de crédito hasta recopilación de datos de inicio de sesión. "Otras formas de uso malicioso extraen toda la información de comercios o sitios web organizacionales para suplantar marcas y productos, generando fraudes o recolectando información de clientes", agrega.