RevoScaleR fungsi rxSummary() datang sangat berguna untuk jenis hal. Secara default akan dilaporkan berarti grup dan deviasi standar serta sel penting dan jumlah valid pengamatan, jika Anda menetapkan formula yang menyertakan istilah interaksi. Dalam contoh kami menggunakan dataset dikirimkan 'CensusWorkers.xdf' di bawah ini.
Contoh: -------- testDataDir <-file.path(rxGetOption("sampleDataDir")) rxSummary (incwage ~ jenis kelamin: status, data = file.path (testDataDir, "CensusWorkers.xdf")) Jumlah sah pengamatan: 351121 Jumlah hilang pengamatan: 0 Nama berarti StdDev menit Max ValidObs incwage:Sex:State 35333.84 40444.54 0 354000 351121 Statistik kategori (6 kategori): Kategori jenis kelamin status berarti StdDev incwage untuk jenis kelamin = Male, status = Connecticut Male Connecticut 55002.00 67742.93 incwage untuk jenis kelamin = perempuan, status = Connecticut perempuan Connecticut 32605.03 34426.27 incwage untuk jenis kelamin = Male, status = Indiana Male Indiana 38325.33 36160.07 incwage untuk jenis kelamin = perempuan, status = Indiana Indiana perempuan 23117.71 20371.68 incwage untuk jenis kelamin = Male, status = Washington Male Washington 41001.14 43962.65 incwage untuk jenis kelamin = perempuan, status = Washington perempuan Washington 25765.03 25191.75 Menit Max ValidObs MissingObs 0 354000 41751 0 0 354000 37666 0 0 314000 74221 0 0 314000 63702 0 0 336000 73372 0 0 336000 60409 0 Anda dapat menggunakan argumen 'rowSelection' untuk lebih lanjut subset data berdasarkan nilai spesifik beberapa variabel. Fungsi yang berguna lainnya adalah fungsi 'F()' memberitahu RevoScaleR memperlakukan variabel khusus sebagai faktor: Contoh: -------- ### Mendapatkan informasi tentang jenis variabel XDF berkas rxGetInfo(file.path(testDataDir,"CensusWorkers.xdf"), getVarInfo = TRUE) rxSummary (incwage ~ F (Usia): jenis kelamin, data = file.path(testDataDir,"CensusWorkers.xdf"), rowSelection = (status == "Indiana"))