Problēmas
Kā noteikt izmantot funkciju RxTextData "|" kā norobežotājs vai citas rakstzīmes?
Risinājums
Ja teksta dati nav atdalītas ar komatiem vai cilnes, ir jānorāda norobežotājs, izmantojot columnDelimiters arguments. (Tas nav faktiski argumentu rxImport, bet pamata RxTextData datu avota objekts). Parastā lietošanas arguments ir vienu rakstzīmi, piemēram, columnDelimiters = "\t" tab atdalītu datu vai columnDelimiters = "," komatatdalīto vērtību datus. Tomēr katras kolonnas var ierobežot citu rakstzīmi; atdalītāji ir apvienotas kopā virknē vienu rakstzīmi. Piemēram, ja izmantojat kolonnas vērtību, komats, otrās pluszīmes un trešā ar jaunu rindu, jāizmanto arguments columnDelimiters = ", + \n".
ID | val
1 |
2 | b
Tāpēc iepriekš datiem, kā novērst kodu, kas ir jāņem vērā tālāk "|" kā delimeter
hdfsFS <- RxHdfsFileSystem(hostName=”dummy ", port="dummy") txtSource <- RxTextData("directory value/ file_name in hdfs", fileSystem=hdfsFS)
airData <- rxImport(inData=txtSource, outFile = "/tmp/test.xdf",stringsAsFactors = TRUE, missingValueString = "M", rowsPerRead = 200000, overwrite=TRUE)
rxSummary(~ id+val, data = airData)
2). varētu lasīt "caurules"-ierobežotu datus, jums ir iestatīta opcija "norobežotājs =" | "' RxTextData() zvanu:
txtSource <- RxTextData(("directory value/ file_name in hdfs", fileSystem=hdfsFS, delimiter = "|")