Puteţi utiliza funcțiile RevoScaleR același să proceseze mare seturi de date stocate pe disc, așa cum se face pentru a analiza datele din memorie cadre. Aceasta se întâmplă deoarece funcțiile RevoScaleR utilizează algoritmi 'chunking'. Practic, chunking algoritmi urmaţi acest proces:
-
Inițializarea: rezultatele intermediare necesare pentru calculul final statistici sunt iniţializate
-
Citirea datelor: citi un bloc (set de observaţii variabilelor) de date
-
Transformarea datelor: efectuează transformări și rând selecțiile pentru blocurilor de date după cum este necesar; scrie date numai dacă efectuarea pas import sau date
-
Procesul de date: calcula rezultatele intermediare pentru blocurilor de date
-
Actualizare rezultatele: combina rezultatele din blocurilor de date cu cele ale porțiuni anterioare
-
Repetați pașii de la (2) - (5) (probabil în paralel) până când toate datele a fost procesată
-
Procesul de rezultate: când rezultatele din toate porțiuni s-au terminat, face calculele finale și returnează rezultate