È possibile utilizzare le stesse funzioni di RevoScaleR per l'elaborazione di grandi set di dati memorizzati su disco, come avviene per analizzare i frame di dati in memoria. Questo avviene perché le funzioni di RevoScaleR utilizzano algoritmi 'chunking'. Fondamentalmente, gli algoritmi di suddivisione in blocchi seguono questa procedura:
-
Inizializzazione: vengono inizializzati i risultati intermedi necessari per il calcolo delle statistiche finale
-
Leggere i dati: leggere un blocco (insieme di osservazioni delle variabili) di dati
-
La trasformazione dei dati: eseguire trasformazioni e le selezioni di riga per il blocco di dati in base alle esigenze; scrittura dei dati, se solo eseguire il passaggio di dati o di importazione
-
Elaborazione dei dati: calcolare i risultati intermedi per il blocco di dati
-
Aggiornare i risultati: combinare i risultati dal blocco di dati con quelli di blocchi precedenti
-
Ripetere i passaggi 2 - (5) (probabilmente in parallelo) fino a quando tutti i dati è stata elaborata.
-
Elaborazione di risultati: quando sono stati completati i risultati di tutti i blocchi, eseguire i calcoli finali e restituire risultati