Probleem
Kuidas teada RxTextData funktsiooni kasutada selle "|" eraldaja või muu märgi?
Lahendus
Kui teksti andmed on eraldatud komade või vahekaardid, määrake eraldaja abil columnDelimiters argument. (See ei ole tegelikult argument rxImport, kuid aluseks oleva RxTextData allikas objektile.) Tavalise kasutamise see argument on ühe märgi, näiteks columnDelimiters = "\t" andmete analüüsimiseks või columnDelimiters = "," andmete komaeraldusega. Siiski võib iga veeru eraldatud erinevaid märk; kõiki eraldajaid peab liitsõnumeid koos ühe märgi string. Kui teil on üks veerg, mis on eraldatud näiteks koma, teine plussmärki ja muu uue rea, te kasutate argument columnDelimiters = ", + \n".
ID | val
1 | a
2 | b
Nii, et ülaltoodud andmed kuidas parandada ning allpool kood arvestada "|" as the delimeter
hdfsFS <- RxHdfsFileSystem(hostName=”dummy ", port="dummy") txtSource <- RxTextData("directory value/ file_name in hdfs", fileSystem=hdfsFS)
airData <- rxImport(inData=txtSource, outFile = "/tmp/test.xdf",stringsAsFactors = TRUE, missingValueString = "M", rowsPerRead = 200000, overwrite=TRUE)
rxSummary(~ id+val, data = airData)
2). selle lugemiseks "toru"-eraldatud andmed, peate suvandi "eraldaja =" | "" RxTextData() kõne:
txtSource <- RxTextData(("directory value/ file_name in hdfs", fileSystem=hdfsFS, delimiter = "|")