Comment : Comment puis-je je calcule les statistiques de groupe par catégorie pour un groupe de données volumineux.

Le rxSummary() de fonction RevoScaleR est très pratique pour ce genre de chose. Par défaut il signale les moyens de groupe et écarts ainsi que nombre de la cellule et nombre d’observations valides, si vous spécifiez une formule qui inclue les termes d’interaction. Dans les exemples, nous utilisons le dataset expédié 'CensusWorkers.xdf' ci-dessous.Exemple :-------- testDataDir <-file.path(rxGetOption("sampleDataDir"))rxSummary (incwage ~ sexe : état, données = file.path (testDataDir, "CensusWorkers.xdf"))Nombre d’observations valides : 351121Nombre d’observations manquantes : 0Nom moyenne StdDev Min Max ValidObsincwage:sex:State 35333.84 40444.54 351121 de 354000 de 0Statistiques par catégorie (6 catégories) :État de sexe catégorie moyens StdDevincwage de sexe = mâle, état = Connecticut mâle du Connecticut 55002.00 67742.93incwage de sexe = femelle, état = Connecticut femelle du Connecticut 32605.03 34426.27incwage de sexe = mâle, état = Indiana mâles d’Indiana 38325.33 36160.07incwage de sexe = femelle, état = Indiana femelle d’Indiana 23117.71 20371.68incwage de sexe = mâle, état = Washington, Washington mâle 41001.14 43962.65incwage de sexe = femelle, état = Washington, Washington femelle 25765.03 25191.75Min Max ValidObs MissingObs0 354000 41751 00 354000 37666 00 314000 74221 00 314000 63702 00 336000 73372 00 336000 60409 0Vous pouvez utiliser l’argument « rowSelection » à un sous-ensemble plu vos données basées sur des valeurs spécifiques de certaines variables. Une autre fonction utile est la fonction « F() », qui indique à RevoScaleR pour traiter une variable spécifique comme un facteur :Exemple :-------- ### Obtenir des informations sur les types de variables dans le fichier XDFrxGetInfo(file.path(testDataDir,"CensusWorkers.xdf"), getVarInfo = TRUE)rxSummary (incwage ~ F (age) : sexe, données = file.path(testDataDir,"CensusWorkers.xdf"), rowSelection = (état == « Indiana »))

Comment : Comment puis-je je calcule les statistiques de groupe par catégorie pour un groupe de données volumineux.

Besoin d’aide ?

Vous voulez plus d’options ?

Ces informations vous ont-elles été utiles ?

Nous vous remercions de vos commentaires.