Vous pouvez utiliser les mêmes fonctions de RevoScaleR pour traiter des ensembles de données volumineux stockés sur le disque, comme vous le faites pour analyser les trames de données en mémoire. C’est parce que les fonctions de RevoScaleR utilisent des algorithmes de « fragmentation ». En fait, les algorithmes de segmentation procédez comme suit :
-
Initialisation : résultats intermédiaires nécessaires pour le calcul de statistiques final sont initialisés.
-
Lire des données : lire un segment (jeu d’observations des variables) de données
-
Transformation des données : effectuer des transformations et des sélections de ligne pour le segment de données selon les besoins ; écrire les données si une seule étape d’importation ou données
-
Traiter les données : calcul des résultats intermédiaires pour le segment de données
-
Mettre à jour les résultats : combiner les résultats à partir du segment de données avec ceux de segments précédents
-
Répétez les étapes 2 - (5) (éventuellement en parallèle) jusqu'à ce que toutes les données ont été traitées.
-
Traiter les résultats : lorsque les résultats de tous les segments ont été remplis, effectuez les calculs finals et retourner des résultats