Problema
Kaip sužinoti RxTextData funkciją naudoti su "|" kaip skyriklis arba kitas simbolis?
Sprendimas
Jei jūsų teksto duomenys yra ne atskirtus kableliais arba skirtukus, turite nurodyti skyriklis, naudojant columnDelimiters argumentas. (Tai nėra iš tikrųjų rxImport, o esamo RxTextData duomenų šaltinio objekto argumentas.) Įprasto naudojimo, šis argumentas yra vieną simbolį, pvz., columnDelimiters = "\t" duomenų analizei arba columnDelimiters = "," kableliais atskirtų duomenų. Tačiau, kiekvieno stulpelio gali būti atskiriami kitokio pobūdžio; Visi skyrikliai turi būti kartu sujungimas į vieną simbolį. Pavyzdžiui, jei turite atskirti vieną stulpelį, kablelis, antrą pliuso ženklą, o trečiosios pagal naują eilutę, galite naudoti argumentas columnDelimiters = ", + \n".
ID | val 1 | a 2 | b Pirmiau duomenims, kaip išspręsti su žemiau kodą reikia apsvarstyti "|" kaip į delimeterhdfsFS <- RxHdfsFileSystem(hostName=”dummy ", port="dummy") txtSource <- RxTextData("directory value/ file_name in hdfs", fileSystem=hdfsFS)
airData <- rxImport(inData=txtSource, outFile = "/tmp/test.xdf",stringsAsFactors = TRUE, missingValueString = "M", rowsPerRead = 200000, overwrite=TRUE) rxSummary(~ id+val, data = airData)
2). būtų galima skaityti "klausytis"-atskirtas duomenis, jums reikės nustatyti parinktį "skyriklis =" | "" jūsų RxTextData() pokalbio metu:
txtSource <- RxTextData(("directory value/ file_name in hdfs", fileSystem=hdfsFS, delimiter = "|")