Problem
Wie man die Funktion RxTextData verwenden die ' |' als Trennzeichen oder andere Zeichen?
Lösung
Die Textdaten nicht durch Kommas oder Tabulatoren getrennt, geben Sie das Trennzeichen, mit dem ColumnDelimiters-Argument. (Dies ist nicht wirklich ein Argument RxImport jedoch das zugrunde liegende Datenquellenobjekt für RxTextData.) Bei normaler Verwendung dieses Argument ist ein einzelnes Zeichen wie ColumnDelimiters = "\t" Daten Tabulatorzeichen oder ColumnDelimiters = "," kommagetrennte Daten. Allerdings kann jede Spalte durch ein anderes Zeichen begrenzt. alle Trennzeichen müssen in einer einzelnen Zeichenfolge verkettet. Z. B. wenn eine Spalte getrennt durch ein Komma und ein Pluszeichen (+) und eine dritte durch eine neue Zeile, verwenden Sie das Argument ColumnDelimiters = ", + \n".
ID | Val 1 | ein 2 | b Damit für die oben angegebenen Daten wie kann ich beheben die unter Code berücksichtigen ' |' als die TrennzeichenhdfsFS <- RxHdfsFileSystem(hostName=”dummy ", port="dummy") txtSource <- RxTextData("directory value/ file_name in hdfs", fileSystem=hdfsFS)
airData <- rxImport(inData=txtSource, outFile = "/tmp/test.xdf",stringsAsFactors = TRUE, missingValueString = "M", rowsPerRead = 200000, overwrite=TRUE) rxSummary(~ id+val, data = airData)
2). zu lesen 'pipe'-getrennte Daten müssen die Option "Trennzeichen =" | "" RxTextData() Aufruf:
txtSource <- RxTextData(("directory value/ file_name in hdfs", fileSystem=hdfsFS, delimiter = "|")