Problém
Ako zistím, použite funkciu RxTextData "|" ako oddeľovač alebo iných znakov?
Riešenie
Ak text údajov nie je oddelený čiarkami alebo karty, musíte zadať oddeľovač pomocou columnDelimiters argument. (To nie je skutočne argument rxImport, ale základný objekt zdroja údajov RxTextData.) V bežnom používaní, tento argument je jeden znak, napríklad columnDelimiters = "\t" tabulátormi údajov alebo columnDelimiters = "," čiarkou údajov. Každého stĺpca môže byť ohraničený rôznymi; Všetky oddeľovače musí kombinuje spolu do znaku reťazca. Ak máte stĺpca oddelené čiarkou, druhý znamienko a iného novým riadkom, používate argument columnDelimiters = ", + \n".
Identifikácia | val
1 |
2 | b
Preto uvedené údaje odstránenie pod kódom zvážiť "|" ako delimeter
hdfsFS <- RxHdfsFileSystem(hostName=”dummy ", port="dummy") txtSource <- RxTextData("directory value/ file_name in hdfs", fileSystem=hdfsFS)
airData <- rxImport(inData=txtSource, outFile = "/tmp/test.xdf",stringsAsFactors = TRUE, missingValueString = "M", rowsPerRead = 200000, overwrite=TRUE)
rxSummary(~ id+val, data = airData)
2). môcť čítať "pipe"-s oddeľovačmi údajov, musíte nastaviť možnosť "oddeľovač =" | "" v RxTextData() hovor:
txtSource <- RxTextData(("directory value/ file_name in hdfs", fileSystem=hdfsFS, delimiter = "|")