Applies ToRevolution Analytics

Problema

Kaip sužinoti RxTextData funkciją naudoti su "|" kaip skyriklis arba kitas simbolis?

Sprendimas

Jei jūsų teksto duomenys yra ne atskirtus kableliais arba skirtukus, turite nurodyti skyriklis, naudojant columnDelimiters argumentas. (Tai nėra iš tikrųjų rxImport, o esamo RxTextData duomenų šaltinio objekto argumentas.) Įprasto naudojimo, šis argumentas yra vieną simbolį, pvz., columnDelimiters = "\t" duomenų analizei arba columnDelimiters = "," kableliais atskirtų duomenų. Tačiau, kiekvieno stulpelio gali būti atskiriami kitokio pobūdžio; Visi skyrikliai turi būti kartu sujungimas į vieną simbolį. Pavyzdžiui, jei turite atskirti vieną stulpelį, kablelis, antrą pliuso ženklą, o trečiosios pagal naują eilutę, galite naudoti argumentas columnDelimiters = ", + \n".ID | val1 | a2 | bPirmiau duomenims, kaip išspręsti su žemiau kodą reikia apsvarstyti "|" kaip į delimeter

hdfsFS <- RxHdfsFileSystem(hostName=”dummy ", port="dummy") txtSource <- RxTextData("directory value/ file_name in hdfs", fileSystem=hdfsFS) airData <- rxImport(inData=txtSource, outFile = "/tmp/test.xdf",stringsAsFactors = TRUE, missingValueString = "M", rowsPerRead = 200000, overwrite=TRUE) rxSummary(~ id+val, data = airData)

2). būtų galima skaityti "klausytis"-atskirtas duomenis, jums reikės nustatyti parinktį "skyriklis =" | "" jūsų RxTextData() pokalbio metu:

txtSource <- RxTextData(("directory value/ file_name in hdfs", fileSystem=hdfsFS, delimiter = "|")

Reikia daugiau pagalbos?

Norite daugiau parinkčių?

Sužinokite apie prenumeratos pranašumus, peržiūrėkite mokymo kursus, sužinokite, kaip apsaugoti savo įrenginį ir kt.

Bendruomenės padeda užduoti klausimus ir į juos atsakyti, pateikti atsiliepimų ir išgirsti iš ekspertų, turinčių daug žinių.