문제
사용 하 여 RxTextData 함수를 확인 하려면 어떻게 합니까에서 ' |' 구분 기호 또는 기타 문자?
솔루션
텍스트 데이터를 쉼표나 탭으로 구분 되지 않습니다., columnDelimiters 인수를 사용 하 여 구분 기호를 지정 해야 합니다. (실제로 인수 rxImport, 아니라 내부 RxTextData 데이터 소스 개체입니다.) 정상적인 사용이이 인수는 columnDelimiters 등의 단일 문자 "\t" 탭으로 구분 된 데이터 또는 columnDelimiters = = "," 쉼표로 구분 된 데이터입니다. 각 열 수 있습니다 다른 문자로 구분 된 반면 모든 구분 기호 단일 문자열로 함께 연결 된 합니다. 예를 들어, 구분 된 하나 이상의 열이 있는 경우 인수 columnDelimiters 쉼표, 더하기 기호 및 줄 바꿈을 세 초, 사용 = ", + \n".
id | val
1 | 한
2 | b
위의 데이터를 수정 하는 방법 이므로 고려해 야 할 코드 아래 ' |'의 구분으로
hdfsFS <- RxHdfsFileSystem(hostName=”dummy ", port="dummy") txtSource <- RxTextData("directory value/ file_name in hdfs", fileSystem=hdfsFS)
airData <- rxImport(inData=txtSource, outFile = "/tmp/test.xdf",stringsAsFactors = TRUE, missingValueString = "M", rowsPerRead = 200000, overwrite=TRUE)
rxSummary(~ id+val, data = airData)
2). '파이프'를 읽을 수 있게 되기를-구분 기호로 분리 된 데이터 옵션을 설정 하는 데 필요 합니다 ' 구분 기호 = "|"' RxTextData() 호출에서:
txtSource <- RxTextData(("directory value/ file_name in hdfs", fileSystem=hdfsFS, delimiter = "|")