Cara: Bagaimana dapat saya menghitung Statistik grup menurut kategori dataset besar.

RevoScaleR fungsi rxSummary() datang sangat berguna untuk jenis hal. Secara default akan dilaporkan berarti grup dan deviasi standar serta sel penting dan jumlah valid pengamatan, jika Anda menetapkan formula yang menyertakan istilah interaksi. Dalam contoh kami menggunakan dataset dikirimkan 'CensusWorkers.xdf' di bawah ini.Contoh:-------- testDataDir <-file.path(rxGetOption("sampleDataDir"))rxSummary (incwage ~ jenis kelamin: status, data = file.path (testDataDir, "CensusWorkers.xdf"))Jumlah sah pengamatan: 351121Jumlah hilang pengamatan: 0Nama berarti StdDev menit Max ValidObsincwage:Sex:State 35333.84 40444.54 0 354000 351121Statistik kategori (6 kategori):Kategori jenis kelamin status berarti StdDevincwage untuk jenis kelamin = Male, status = Connecticut Male Connecticut 55002.00 67742.93incwage untuk jenis kelamin = perempuan, status = Connecticut perempuan Connecticut 32605.03 34426.27incwage untuk jenis kelamin = Male, status = Indiana Male Indiana 38325.33 36160.07incwage untuk jenis kelamin = perempuan, status = Indiana Indiana perempuan 23117.71 20371.68incwage untuk jenis kelamin = Male, status = Washington Male Washington 41001.14 43962.65incwage untuk jenis kelamin = perempuan, status = Washington perempuan Washington 25765.03 25191.75Menit Max ValidObs MissingObs0 354000 41751 00 354000 37666 00 314000 74221 00 314000 63702 00 336000 73372 00 336000 60409 0Anda dapat menggunakan argumen 'rowSelection' untuk lebih lanjut subset data berdasarkan nilai spesifik beberapa variabel. Fungsi yang berguna lainnya adalah fungsi 'F()' memberitahu RevoScaleR memperlakukan variabel khusus sebagai faktor:Contoh:-------- ### Mendapatkan informasi tentang jenis variabel XDF berkasrxGetInfo(file.path(testDataDir,"CensusWorkers.xdf"), getVarInfo = TRUE)rxSummary (incwage ~ F (Usia): jenis kelamin, data = file.path(testDataDir,"CensusWorkers.xdf"), rowSelection = (status == "Indiana"))

Cara: Bagaimana dapat saya menghitung Statistik grup menurut kategori dataset besar.

Perlu bantuan lainnya?

Ingin opsi lainnya?

Apakah informasi ini berguna?

Terima kasih atas umpan balik Anda!