Você pode usar as mesmas funções de RevoScaleR para processar grandes conjuntos de dados armazenados em disco, como você faz para analisar os quadros de dados na memória. Isso ocorre porque as funções RevoScaleR usam algoritmos 'fragmentação'. Basicamente, os algoritmos de agrupamento siga este processo:
-
Inicialização: resultados intermediários necessários para cálculo de estatísticas finais são inicializados
-
Ler dados: ler um bloco (conjunto de observações de variáveis) de dados
-
Transformar dados: realizar transformações e seleções de linha para o bloco de dados conforme necessário; gravar dados se apenas executar a etapa de importação ou dados
-
Processar dados: calcular resultados intermediários para o bloco de dados
-
Atualizar resultados: combinar os resultados do bloco de dados com as partes anteriores
-
Repita as etapas (2) - (5) (talvez em paralelo) até que todos os dados foram processados
-
Processar resultados: quando os resultados de todos os blocos foram concluídos, fazer cálculos finais e retornar resultados