Problema encontrado em Cloudera CDH4, mas aplicável a qualquer versão suportada do Hadoop.
Quando executando um script no contexto "local" resulta são produzidas, mas quando em execução no contexto de hadoop ele mostra erro de Hadoop:
"Erro interno: não é possível redefinir o hdfs params interno enquanto estiver conectado a um sistema de arquivo hdfs."
Possíveis causas:
1. - ou não estiver configurando a opção de 'nameNode' corretamente no comando RxHdfsFileSystem() ou você está usando o número de porta incorreta para HDFS na mesma função.
Se você estiver executando um EdgeNode para sua forma de código, certifique-se de que a configuração de 'host' é o nome real do nameNode e não o nome de host do edgenode que estiver executando a partir.
Além disso, verifique o Gerenciador de Cloudera e verificar se o serviço HDFS está usando a porta '8020', a porta padrão. Se ele estiver sendo executado em uma porta diferente, será necessário definir explicitamente que na seguinte chamada no seu Hadoop script de teste:
(Por exemplo)
myNameNode <-"test1.acme.com"
myPort < - 1700
hdfsFS <-RxHdfsFileSystem (hostName = myNameNode, porta = myPort)
2. - no caso de especificar um nó de aresta, você precisa especificar o mesmo nome de host e a porta em RxHadoopMR() e RxHdfsFileSystem()
3.-Certifique-se de que você tenha copiado o jar RevoScaleR arquivos do diretório em que você iniciou o instalador revolução (pasta de revolução),
scaleR-hadoop-0,1-SNAPSHOT.jar no diretório lib do Cloudera Hadoop, que normalmente é:
/opt/cloudera/parcels/CDH/lib/Hadoop/lib (para parcels) ou
/usr/lib/hadoop/lib/
Este arquivo deve ser copiado para essa pasta em todos os nós do cluster Hadoop.
Depois de modificar qualquer um desses parâmetros, execute novamente o script que mostrou inicialmente o erro.
Se o erro persistir, contate o suporte técnico, para uma solução mais profunda.