Le rxSummary() de fonction RevoScaleR est très pratique pour ce genre de chose. Par défaut il signale les moyens de groupe et écarts ainsi que nombre de la cellule et nombre d’observations valides, si vous spécifiez une formule qui inclue les termes d’interaction. Dans les exemples, nous utilisons le dataset expédié 'CensusWorkers.xdf' ci-dessous.
Exemple : -------- testDataDir <-file.path(rxGetOption("sampleDataDir")) rxSummary (incwage ~ sexe : état, données = file.path (testDataDir, "CensusWorkers.xdf")) Nombre d’observations valides : 351121 Nombre d’observations manquantes : 0 Nom moyenne StdDev Min Max ValidObs incwage:sex:State 35333.84 40444.54 351121 de 354000 de 0 Statistiques par catégorie (6 catégories) : État de sexe catégorie moyens StdDev incwage de sexe = mâle, état = Connecticut mâle du Connecticut 55002.00 67742.93 incwage de sexe = femelle, état = Connecticut femelle du Connecticut 32605.03 34426.27 incwage de sexe = mâle, état = Indiana mâles d’Indiana 38325.33 36160.07 incwage de sexe = femelle, état = Indiana femelle d’Indiana 23117.71 20371.68 incwage de sexe = mâle, état = Washington, Washington mâle 41001.14 43962.65 incwage de sexe = femelle, état = Washington, Washington femelle 25765.03 25191.75 Min Max ValidObs MissingObs 0 354000 41751 0 0 354000 37666 0 0 314000 74221 0 0 314000 63702 0 0 336000 73372 0 0 336000 60409 0 Vous pouvez utiliser l’argument « rowSelection » à un sous-ensemble plu vos données basées sur des valeurs spécifiques de certaines variables. Une autre fonction utile est la fonction « F() », qui indique à RevoScaleR pour traiter une variable spécifique comme un facteur : Exemple : -------- ### Obtenir des informations sur les types de variables dans le fichier XDF rxGetInfo(file.path(testDataDir,"CensusWorkers.xdf"), getVarInfo = TRUE) rxSummary (incwage ~ F (age) : sexe, données = file.path(testDataDir,"CensusWorkers.xdf"), rowSelection = (état == « Indiana »))