Можете да използвате едни и същи RevoScaleR функции за обработка на големи набори от данни, съхранявани на диск, както и можете да анализирате данните в паметта рамки. Това е защото RevoScaleR функции използват "трясък" алгоритми. По принцип трясък алгоритми следват този процес:
-
Инициализация: междинни резултати, необходими за изчисляване на крайната статистика се инициализира
-
Четене на данни: Прочетете блок (набор от наблюдения на променливи) на данни
-
Преобразуване на данни: извършване на трансформации и избор на ред за количество данни при необходимост; запис на данни само ако извършите импортиране или данни стъпка
-
Обработка на данни: изчисляване на междинни резултати за блок на данни
-
Актуализиране на резултати: комбинира резултатите от блок на данни с тези на предишния блокове
-
Повторете стъпки 2 - (5) (може би паралелно) до всички данни е била обработена
-
Обработка на резултатите: при приключване на резултатите от всички блокове, направете Последни изчисления и връща резултати