Sábado, 27 de Julio de 2024

‘Web scraping’: ¿qué es y cómo funciona?

ColombiaEl Tiempo, Colombia 20 de noviembre de 2023

MARÍA MARAZA SARAVIA - EL COMERCIO (PERÚ) - @elcomercio_peru
A principios de 2023, en marzo, se reveló que Meta pagó durante muchos años a Bright Data, una empresa de recopilación de datos, para que lleve a cabo un servicio de rastreo web, también conocido como web scraping

MARÍA MARAZA SARAVIA - EL COMERCIO (PERÚ) - @elcomercio_peru
A principios de 2023, en marzo, se reveló que Meta pagó durante muchos años a Bright Data, una empresa de recopilación de datos, para que lleve a cabo un servicio de rastreo web, también conocido como web scraping. Con dicha técnica se pudieron extraer datos como los ‘me gusta’, seguidores, publicaciones y comentarios "de plataformas de las redes sociales TikTok y Twitter, y de sitios de comercio electrónico como Amazon, eBay y Walmart", se supo en su momento. Esta técnica, usada principalmente en mercadeo, ha comenzado a ser vista con especial preocupación, máxime ahora que la que usan empresas como Open AI y Google, entre otras, para entrenar a sus inteligencias artificiales: ‘escrapeando’ contenidos en texto, fotos y video de millones de portales. ¿Cómo funciona? De acuerdo con Sergio Azahuanche, consultor de ciberseguridad sénior de Marsh Advisory, se trata de una técnica que permite extraer y recopilar información de páginas web de forma automatizada. Este procedimiento funciona a través del uso de programas o scripts, también conocidos como scrapers, capaces de "navegar por múltiples sitios web" y así "identificar y extraer información de acuerdo con criterios preestablecidos". El ‘escrapeo’ tiene tres etapas: 1) Acceder a la página web mediante una solicitud HTTP. 2) Analizar el contenido HTML de la página para identificar la información deseada. 3) Extraer la información y almacenarla en una base de datos o en un formato estructurado, como CSV o JSON. ¿Para qué se utiliza? Chavarro señala que es usado para múltiples propósitos. "Uno de ellos es como herramienta de investigación de mercado para recopilar datos de precios, características de productos y reseñas de productos en línea. Esto permite a las empresas realizar un análisis más detallado de sus competidores". También sirve para realizar un análisis contextual, es decir, extraer opiniones y comentarios de usuarios en redes sociales, foros y blogs "para evaluar la percepción pública de una marca, producto o servicio". Asimismo, se utiliza para recopilar información de contacto de posibles clientes en directorios o sitios web de empresas. De igual forma, para estudiar tendencias del mercado, demanda y competidores mediante análisis de información en línea. Azahuanche agrega que algunas de las páginas ‘escrapeadas’ incluyen, por supuesto, a las redes sociales, como Facebook, Twitter e Instagram. Las plataformas bancarias, sitios de compra y las plataformas de comercio electrónico, como Amazon, Alibaba y otras también están incluidas. Igualmente, los sitios de reserva de viaje, como Booking y Airbnb. Es importante recalcar que este procedimiento debe realizarse respetando las leyes. "En algunos casos, el web scraping puede ser ilegal o violar los términos de servicio, por lo que es importante tener cuidado y consultar las leyes y regulaciones aplicables antes de realizar cualquier extracción de datos", explica Chavarro. Usos maliciosos De acuerdo con Eduardo Chavarro, el web scraping malicioso "es la extracción de datos de manera ilegal o no ética, generalmente para obtener información personal o confidencial de los usuarios de un sitio web sin su consentimiento o permiso". La información que se puede extraer va desde tarjetas de crédito hasta recopilación de datos de inicio de sesión. "Otras formas de uso malicioso extraen toda la información de comercios o sitios web organizacionales para suplantar marcas y productos, generando fraudes o recolectando información de clientes", agrega.
La Nación Argentina O Globo Brasil El Mercurio Chile
El Tiempo Colombia La Nación Costa Rica La Prensa Gráfica El Salvador
El Universal México El Comercio Perú El Nuevo Dia Puerto Rico
Listin Diario República
Dominicana
El País Uruguay El Nacional Venezuela