Puede utilizar las mismas funciones de RevoScaleR para procesar grandes conjuntos de datos almacenados en disco, como lo hace para analizar las tramas de datos en memoria. Esto es porque las funciones de RevoScaleR usan algoritmos 'agrupamiento'. Básicamente, los algoritmos de fragmentación siguen este proceso:
-
Inicialización: se inicializan los resultados intermedios necesarios para el cálculo de estadísticas finales
-
Leer datos: leer un fragmento (conjunto de observaciones de variables) de datos
-
Transformar datos: realizar las transformaciones y las selecciones de fila para el fragmento de datos según sea necesario; escribir datos si sólo realizando el paso de importación o de los datos
-
Procesar datos: calcular resultados intermedios para el fragmento de datos
-
Actualizar resultados: combinar los resultados de los fragmentos de datos con los de anteriores fragmentos
-
Repita los pasos (2) - (5) (quizás en paralelo) hasta que todos los datos que se ha procesado
-
Procesar resultados: cuando se han completado los resultados de todos los fragmentos, hacer los cálculos finales y devolver resultados