問題
使用する RxTextData 関数を確認する方法、' |' 区切り記号またはその他の文字としてでしょうか。
ソリューション
コンマまたはタブに、テキスト データが分離されていない場合は、columnDelimiters 引数を使用して区切り記号を指定してください。(これが rxImport、RxTextData の基になるデータ ソース オブジェクトには実際に引数)通常の使用では、この引数は、columnDelimiters などの文字を 1 つにタブ区切りのデータや columnDelimiters には、"\t"を = =「,」は、コンマで区切られたデータの。ただし、各列を別の文字で区切られますすべての区切り記号は、1 つの文字の文字列に連結する必要があります。たとえば、区切られた 1 つの列がある場合、コンマ、プラス記号、および新しい行が 3 分の 1、2 番目、引数 columnDelimiters を使用すると ="、+ \n」。
id | val
1 |、
2 | b
上のデータをどのように修正するように、以下のコードを検討してください ' |' の区切り記号として
hdfsFS <- RxHdfsFileSystem(hostName=”dummy ", port="dummy") txtSource <- RxTextData("directory value/ file_name in hdfs", fileSystem=hdfsFS)
airData <- rxImport(inData=txtSource, outFile = "/tmp/test.xdf",stringsAsFactors = TRUE, missingValueString = "M", rowsPerRead = 200000, overwrite=TRUE)
rxSummary(~ id+val, data = airData)
2). 'パイプ' を読み取ることができる-で区切られたデータは、オプションを設定する必要が ' 区切り記号 ="|"'、RxTextData() の呼び出しで。
txtSource <- RxTextData(("directory value/ file_name in hdfs", fileSystem=hdfsFS, delimiter = "|")