Problema
Como saber a função RxTextData para utilizar a ' |' como delimitador de campos ou outro carácter?
Solução
Se os dados de texto não estão separados por vírgulas ou tabulações, tem de especificar o delimitador de utilizar o argumento columnDelimiters. (Não é realmente um argumento para rxImport, mas para o objecto de origem de dados subjacente do RxTextData.) Numa utilização normal, este argumento é um carácter individual, por exemplo, columnDelimiters = "\t" para dados delimitado por tabulações ou columnDelimiters = "," para dados delimitados por vírgulas. No entanto, cada coluna pode ser delimitada por um carácter diferente; todos os delimitadores devem ser adicionados em conjunto para uma cadeia de caracteres único. Por exemplo, se tiver uma coluna delimitada por uma vírgula, um segundo por um sinal de adição e um terceiro por uma nova linha, pode utilizar o argumento columnDelimiters = ", + \n".
ID | val
1 | um
2 | b
Modo para os dados acima como corrigir a abaixo código considerar ' |' como o delimeter
hdfsFS <- RxHdfsFileSystem(hostName=”dummy ", port="dummy") txtSource <- RxTextData("directory value/ file_name in hdfs", fileSystem=hdfsFS)
airData <- rxImport(inData=txtSource, outFile = "/tmp/test.xdf",stringsAsFactors = TRUE, missingValueString = "M", rowsPerRead = 200000, overwrite=TRUE)
rxSummary(~ id+val, data = airData)
2). consigam ler 'conduta'-dados delimitados, terá de definir a opção ' delimitador = "|"' na sua chamada RxTextData():
txtSource <- RxTextData(("directory value/ file_name in hdfs", fileSystem=hdfsFS, delimiter = "|")