Можно использовать те же самые функции RevoScaleR для обработки больших наборов данных, хранящихся на диске, как и для анализа кадров данных в памяти. Это происходит потому, что RevoScaleR функции используют алгоритмы «фрагментации». По сути частей алгоритмов выполните следующие действия:
-
Инициализация: инициализируются промежуточных результатов, необходимых для вычисления окончательного статистики
-
Чтение данных: прочитать часть данных (набора наблюдений переменных)
-
Преобразования данных: выполнение преобразований и выбора строк для фрагмент данных, при необходимости; записывают данные, если только выполнение импорта или данные действия
-
Обработка данных: вычислять промежуточные результаты для блока данных
-
Обновление результатов: объединить результаты из блока данных со значениями из предыдущих фрагментов
-
Повторите шаги (2) - (5) (возможно параллельно) пока не все данные были обработаны
-
Обработка результатов: после завершения результаты из всех фрагментов сделать окончательный вычислений и возвращают результаты