Dans ce dossier est join un gros .csv compilant les données d'environ 10k publications BlueSky en français contenant le mot 'vélo'.
Pour lancer le projet, il faut python 3.12 ou inférieur (incompatibilité de scipy avec 3.13 pour le moment, il me semble)
Je conseille de créer un environnement virtuel.
Dans tous les cas, les dépendances sont listées dans
requirements.txt
.
python3 -m venv .venv
.venv/bin/activate
pip install -r requirements.txt
Pour pouvoir accéder à l'API BlueSky, il faut copier le fichier de configuration et rentrer vos logins à l'intérieur.
cp .env.template .env
nano .env # Ensuite on édite
La stratégie initiale était de récupérer pour chaque semaine tous les posts relatifs à un sujet pour chaque semaine depuis la création de BlueSky. En effet, la fonction de pagination de l'API ne fonctionne pas correctement et je n'ai pas réussi à l'utiliser pour récupérer tous les résultats d'un search dans le temps.
Finalement, le search par semaine ne fonctionnait pas non plus, j'ai donc filtré jour après jour, il faut ainsi faire beaucoup plus de requêtes et c'est plus lent...
J'ai dû créer une classe pour faire du RateLimiting sinon l'API n'est pas très contente quand on tente de récupérer tous les posts, jour par jour.