Algoritmo para raspagem de dados públicos relacionado às informações de atividades físicas para criação de um banco de dados e suas análises
Neste trabalho, relatamos a geração de um dataset público, contendo dados de múltiplos esportes praticados por corredores de longa distância. Através de técnicas de web scraping, extraímos informações relacionadas a 37 esportes dos meses de 2019 e 2020 da plataforma Strava. Foram extraídas 14.644.391 atividades de 37.595 atletas de todo o mundo. Neste primeiro momento focamos na análise dos dados de corrida, no contexto individual e em grupos, além de análises dos volumes de treinamentos semanais comparados aos tempos médios de conclusão da maratona. Avaliamos como o treinamento de corredores foi afetado pela pandemia COVID-19, restringindo o dataset a 10.703.690 atividades de corrida de 36.412 atletas. Em 2020, relativamente a 2019, houve uma diminuição de 7 % no volume de treinamento de corrida e de 7 % do número de corredores. Também observamos grandes variações destas variáveis ao longo de 2020, chegando a 35 % menos volume de corrida em setembro de 2020.