Проблем
Как да разбера RxTextData функцията да се използва "|" като разделител или друг знак?
Решение
Ако вашите текстови данни не е разделени със запетаи или раздели, трябва да зададете използване columnDelimiters аргумент разделител. (Това не е всъщност аргумент rxImport, а извършените RxTextData данни източник обект.) Използване на нормален, този аргумент е един знак, като например columnDelimiters = "\t" табулатори данни или columnDelimiters = "," запетая данни. Обаче всяка колона може да бъде определена от различен характер; разделители трябва да бъде свръхдълги заедно в един низ. Например, ако имате една колона с разделител запетая, втората от знака и други от нов ред, можете да използвате аргумента columnDelimiters = ", + \n".
ID | val
1 |
2 | b
Така че за тези данни как да коригирам под код да разгледа "|" като delimeter
hdfsFS <- RxHdfsFileSystem(hostName=”dummy ", port="dummy") txtSource <- RxTextData("directory value/ file_name in hdfs", fileSystem=hdfsFS)
airData <- rxImport(inData=txtSource, outFile = "/tmp/test.xdf",stringsAsFactors = TRUE, missingValueString = "M", rowsPerRead = 200000, overwrite=TRUE)
rxSummary(~ id+val, data = airData)
2). за да се четат "тръба"-с данни, трябва да зададете опцията "разделител =" | "" в RxTextData() обслужване:
txtSource <- RxTextData(("directory value/ file_name in hdfs", fileSystem=hdfsFS, delimiter = "|")