Guia Completo para Instalar e Configurar o Apache Hadoop 3 no MacOS

Guia Completo para Instalar e Configurar o Apache Hadoop 3 no MacOS
Guia Completo para Instalar e Configurar o Apache Hadoop 3 no MacOS

Este é o guia completo para instalar e configurar o Apache Hadoop 3 no MacOS. Vou mostrar-te como se faz da maneira mais simples para que possas fazê-lo com o teu Mac.

Conteúdo Do artigo

por que outro tutorial de instalação do Hadoop?

eu costumava trabalhar com o Hadoop versão 2.6 e abaixo usando o Linux, é muito fácil de configurar. No entanto, no momento, eu preciso configurar no meu Mac para desenvolver algum trabalho e exigir trabalhar com a versão mais recente do Hadoop, é o Apache Hadoop 3.2.1; então eu tentei instalar como de costume, como um Linux. Mas não funcionou!

Google for the help? A coisa é, no momento desta escrita, eu não consigo encontrar nenhum artigo único sobre a criação de Hadoop versão 3+ em um Mac. Tudo o que posso encontrar São artigos para as versões anteriores do Hadoop. Os passos devem ser os mesmos, pode perguntar-se? Sim, de facto, mas há sempre alguns pontos em falta na actualização da versão.

de qualquer forma, se você tiver algum problema em Configurar o Apache Hadoop versão 3+ Em Você Mac, este artigo pode ajudar a acabar com ele.

pré-requisitos

este guia irá usar a última versão do Hadoop, que é o Hadoop 3.2.1, que é obtido por padrão usando o Homebrew.Aqui estão algumas coisas que você precisa ter:

  • Java 8
  • Homebrew (the deps magician of the Mac)

instale e Configure Apache Hadoop 3. 2

Step 1: Update brew and install latest Hadoop

$ brew install hadoop

o comando irá buscar a última versão do Hadoop e instalar no seu Mac.

por padrão, o directório de instalação do Hadoop será localizado em /usr/local/Cellar/hadoop/3.2.1.

mais tarde, quando ler este artigo, a versão será atualizada e será diferente, a localização será o diretório de versão, /usr/local/Cellar/hadoop/X.Y.Z.

Passo 2: Actualizar a variável de ambiente HADOOP_OPTS

abrir este ficheiro, /usr/local/Cellar/hadoop/3.2.1/libexec/etc/hadoop/hadoop-env.sh e adicionar esta linha no fundo:

export HADOOP_OPTS="-Djava.net.preferIPv4Stack=true -Djava.security.krb5.realm= -Djava.security.krb5.kdc="

ou, se você encontrar a linha com export HADOOP_OPTS, você pode editá-la.

Passo 3: Actualizar o núcleo do sítio.xml

Abra este ficheiro, /usr/local/Cellar/hadoop/3.2.1/libexec/etc/hadoop/core-site.xml e actualize como se segue.

<configuration> <property> <name>hadoop.tmp.dir</name> <value>/usr/local/Cellar/hadoop/hdfs/tmp</value> </property> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property></configuration>

algumas notas a saber:

  • hadoop.tmp.dir : esta propriedade é para configurar os seus dados temporários Hadoop locais, como o armazenamento para datanode, namenode, hdfs… você poderá colocá-los em qualquer pasta que desejar, mas certifique-se que dá a permissão apropriada.
  • fs.defaultFS : is the new name for the previously-depreciated key fs.default.name.

Passo 4: Actualizar o hdfs-site.xml

Abra este ficheiro, /usr/local/Cellar/hadoop/3.2.1/libexec/etc/hadoop/hdfs-site.xml e adicione a configuração abaixo.

<configuration> <property> <name>dfs.replication</name> <value>1</value> </property></configuration>

por que o valor é 1? Bem, para fins de desenvolvimento, o modo pseudo-distribuído ou único cluster é suficiente e ele deve ter pelo menos 1 datanode, então o número de replicação é 1.

Step 5: Format and test filesystem

we need to initialize the distributed filesystem before use, so we format the first.

$ hdfs namenode -format

vamos tentar alguns comandos para testar. Mas antes disso, devemos iniciar alguns servidores DFS que incluem DataNode, NameNode, SecondaryNameNode emitindo o seguinte comando:

$ cd /usr/local/Cellar/hadoop/3.2.1/sbin$ ./start-dfs.sh

se não houver saída de mensagem de erro, então podemos começar com os comandos abaixo.

$ hdfs dfs -ls /$ hdfs dfs -mkdir /input$ touch data.txt$ echo "Hello Hadoop" >> data.txt$ hdfs dfs -put data.txt /input$ hdfs dfs -cat /input/data.txt

se o último comando mostrar o Conteúdo acima, que é Hello Hadoop, então ele funciona com sucesso.

Passo 6: executar um trabalho de MapReduce em um pacote JAR

agora, precisamos verificar se o trabalho de redução de mapas pode funcionar. Isto pode ser feito seguindo as instruções que eu coloquei no meu repositório de hadoop-wordcount Github.

Passo 7: Configurar comandos para shell

em vez de cd directório em /usr/local/Cellar/hadoop/3.2.1/sbin para executar comandos, podemos apenas configurar para global PATH, para que possam ser chamados em qualquer terminal ou shell.

adicione a seguinte linha ao seu ficheiro de configuração da linha de comandos, como /etc/profile, ~/.bashrc, ~/.bash_profile, ~/.profile, ~/.zshrc… dependendo do seu ambiente.

prefiro usar o zsh, por isso coloquei-o em ~/.zshrc no meu Mac.

export PATH=$PATH:/usr/local/Cellar/hadoop/3.2.1/sbin

Step 7: Configure complete Hadoop start command

Normalmente, a configuração predefinida do Hadoop irá usar local framework para o objectivo de depuração/desenvolvimento. Se você quiser usar yarn framework em máquina local, você pode querer iniciar o fio também, o que é feito por:

$ /usr/local/Cellar/hadoop/3.2.1/sbin/start-yarn.sh

se você já fez o Passo 6, então apenas digite start-yarn.sh.

assim, o seu ambiente Hadoop pode necessitar de dois comandos para executar, e você pode combiná-los em um comando usando alias.Aqui está, Hadoop está pronto para trabalhar no seu Mac.

em conclusão

configurar o Apache Hadoop 3+ não parece muito complicado, certifique-se de seguir os meus passos acima, então você vai tê-lo trabalhando em nenhum momento.

no entanto, se você enfrenta qualquer problema, tente ver este Apache Hadoop solução de problemas. Pode ajudar-te a resolver os teus problemas.

Deixe uma resposta

O seu endereço de email não será publicado.