Primeros pasos con Hadoop: instalación y configuración en Linux

10
73214

Primeros pasos con Hadoop: instalación y configuración en Linux

0. Índice de contenidos.


1. Introducción.

Para poner en contexto lo que es Apache Hadoop podemos decir que se trata de un framework opensource escrito en Java utilizado principalmente para ejecutar aplicaciones distribuidas bajo un cluster de máquinas ‘commodity’.

Dispone de un sistema de archivos propio: el HDFS (Hadoop Distributed File System). Se trata de un sistema de archivos distribuido en cada nodo del cluster. Utiliza un tamaño de bloque de entre 64Mb y 128Mb y está pensado para trabajar con grandes ficheros de datos. Está basado en el Google File System (GFS) creado en 2003 ya que en ese momento Google comprobó que los sistemas utilizados hasta entonces para tratar con toda la información de que disponían no eran suficientes. Necesitaban un sistema de ficheros distribuido, escalable, tolerante a fallos, con un intensivo acceso a datos y alta concurrencia.

En 2006 Dough Cutting crea Hadoop en un sistema de procesar datos a nivel web. En 2008 se gradúa como proyecto independiente de Apache Software Foundation.

Se basa en el paradigma MapReduce utilizado para paralelizar procesos en dos fases. La fase de mapeo donde se realiza el ‘escaneo’ o recogida de los datos de entrada produciendo una lista de pares (clave, valor). Estos pares son agrupados por clave y pasados a la función reduce que se encarga de procesarlos y generar un resultado agrupado de los mismos.

Hay varias formas de utilizar Hadoop. Dependiendo de nuestras necesidades podemos optar a varios tipos de instalación o modos de funcionamiento:

  • Un único nodo en local (single node), utilizado por ejemplo para hacer pruebas de concepto corriendo Hadoop en una misma máquina
  • Un cluster pseudo-distribuido para simular un cluster de varios nodos pero corriendo en una misma máquina es decir en la misma Java VM.
  • Montar un cluster entre distintas máquinas (multi node) totalmente distribuido que sería el modo que utilizaríamos para montar un sistema Big Data en producción.

En este tutorial vamos a mostrar la forma de instalar Apache Hadoop en Linux de forma pseudo-distribuida.

2. Entorno.

El tutorial se ha realizado con el siguiente entorno:

  • Ubuntu 12.04 64 bits
  • Oracle Java SDK 1.6.0_27
  • Apache Hadoop 2.2.0

3. Instalación de Hadoop.

Vamos a partir de que en la máquina ya está instalada una JDK de Java, preferiblemente la 1.6. Lo primero que haremos, obviamente será descargar Apache Hadoop de la página oficial. Descargar versión 2.2.0

A continuación muestro los pasos para descomprimir el archivo y copiarlo a un directorio de nuestro equipo.

    sudo tar xzf hadoop-2.2.0.tar.gz
    mv hadoop-2.2.0 /usr/local/
    mv /usr/local/hadoop-2.2.0 /usr/local/hadoop
  

Es una buena práctica crear un usuario y un grupo específico para configurar y administrar hadoop. Pongo los pasos necesarios para crear el usuario, asignarle la password, añadir el usuario al fichero sudoers, etc.

    useradd -d /home/hadoop -m hadoop
    passwd hadoop
    usermod -a -G sudo hadoop
    usermod -s /bin/bash hadoop
  

Nos logamos en la máquina con el usuario hadoop su hadoop. A continuacion añadimos las variables de entorno para hadoop en el $HOME/.bashrc.

    export HADOOP_HOME=/usr/local/hadoop 
    export PATH=$PATH:$HADOOP_HOME/bin
    export PATH=$PATH:$HADOOP_HOME/sbin
    export HADOOP_MAPRED_HOME=${HADOOP_HOME}
    export HADOOP_COMMON_HOME=${HADOOP_HOME}
    export HADOOP_HDFS_HOME=${HADOOP_HOME}
    export YARN_HOME=${HADOOP_HOME}
  

Una vez editado el .bashrc hacemos un source .bashrc para cargar la nueva configuración. Para comprobar que todo ha ido bien escribimos en la consola hadoop version y nos debería devolver la versión de Hadoop con la que estamos trabajando.

3.1 Configuración de SSH.

Ahora vamos a configurar el ssh para que Hadoop pueda autenticarse con una clave pública y acceder a los nodos del cluster y sobre la máquina local para el usuario que creamos anteriormente. Generaremos una nueva clave pública añadiéndola al directorio de claves del usuario. No debemos poner password ya que hadoop necesita poder conectarse al cluster directamente, imaginad si cada vez que intenta acceder a un nodo del cluster tuvieramos que meter contraseña!

    sudo apt-get install ssh
    ssh-keygen -t rsa -f ~/.ssh/id_rsa
    cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
  

Le damos permisos:

     sudo chmod go-w $HOME $HOME/.ssh
     sudo chmod 600 $HOME/.ssh/authorized_keys
     sudo chown `whoami` $HOME/.ssh/authorized_keys
  

Para comprobar que se ha instalado correctamente puedes ejecutar el comando ssh localhost y si se conecta es que todo ha ido bien. Si no fuera así revisa los pasos anteriores. Salimos de la sesión ssh con exit.

Para dejar lista la configuración de Ubuntu debemos deshabilitar IPv6 ya que como dice la documentación oficial, Hadoop no lo admite para gestionar correctamente el cluster. Ubuntu trae por defecto esta configuración por lo que debemos desactivarla. Para ello añadimos las siguientes líneas al fichero /etc/sysctl.conf.

	net.ipv6.conf.all.disable_ipv6 = 1
	net.ipv6.conf.default.disable_ipv6 = 1
	net.ipv6.conf.lo.disable_ipv6 = 1
   

Para que coja los cambios debemos reiniciar la máquina. Una vez reiniciada podemos comprobar que ha cogido bien la nueva configuración con el comando cat /proc/sys/net/ipv6/conf/all/disable_ipv6.

4. Arquitectura HDFS.

HDFS es una implementación del sistema de ficheros descrito en el paper de Google (GFS). Sigue una filosofía «Write once, read more» en concreto
para albergar grandes ficheros y principalmente pensado para programas batch donde los datos no son en tiempo real.

En HDFS se trabaja con una cantidad mínima de información llamada bloque que normalmente estará comprendida entre 64-128 Mb debido a que se trabaja con ficheros muy grandes (Gigabytes, Petabytes…). El objetivo de HDFS es dividir el fichero en bloques de tamaño fijo y distribuirlo en los distintos nodos del cluster. Debido a que se produce mucho tráfico por la red para distribuir la información con el coste que esto conlleva se opta por un tamaño de bloque alto. Recuerdo que HDFS es tolerante a fallos y caídas de nodos del cluster por lo que se replica la información en varios nodos (por defecto 3 veces).

La gestión del cluster la realiza el NameNode. Es el nodo maestro encargado de gestionar los metadatos de los ficheros y los directorios, coordina los bloques que se envían a cada datanode monitorizando su estado para asegurar que todos los trabajos se completan correctamente, redirigiendo bloques a otros datanodes si alguno estuviera caído. La información de los metadatos se almacena en memoria RAM para que el acceso sea más rápido. El NameNode es vital en el cluster por lo que se suele montar en una máquina mucho más potente que para los datanodes con mayor capacidad de proceso y sobre todo mucha memoria RAM.

Los DataNodes son los nodos esclavos encargados del almacenamiento de los bloques realizando las operaciones de lectura y escritura. Estos informan al NameNode de los bloques almacenados.

El SecondaryNameNode es un servicio auxiliar y opcional en el cluster. Es un error pensar que se trata de un segundo Namenode por si el primero fallara. Puede usarse como backup de los metadatos.

Otro demonio existente en HDFS es el JobTracker encargado de gestionar los jobs encargados de las tareas MapReduce.

Por último el TaskTracker es un demonio encargado de ejecutar una determinada tarea en cada nodo. Las tareas son aplicaciones Java MapReduce.

4.1 Configuración HDFS.

Con la instalación que hemos realizado hasta ahora tendríamos un nodo de hadoop instalado en la máquina. Si queremos configurar hadoop en un modo pseudo-distribuido debemos modificar algunos ficheros de configuración. Nos situamos en el directorio /user/local/hadoop/etc/hadoop y editamos el fichero core-site.xml

	<?xml version="1.0"?>
	<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
	
	<configuration>
		<property>
			<name>fs.default.name</name>
			<value>hdfs://localhost:8020</value>
  			<description>Nombre del filesystem por defecto.</description>
		</property>
	</configuration>

Esto configura el directorio hdfs por defecto en localhost.

A continuación configuramos algunas propiedades del sistema de ficheros en el fichero hdfs-site.xml. Como estamos configurando un cluster en un única máquina no tiene sentido indicar un factor de replicación mayor a 1.

	<?xml version="1.0"?>
	<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
	
	<configuration>
	  <property>
	    <name>dfs.namenode.name.dir</name>
	    <value>file:/home/hadoop/workspace/dfs/name</value>
	    <description>Path del filesystem donde el namenode almacenará los metadatos.</description>
	  </property>

	  <property>
	    <name>dfs.datanode.data.dir</name>
	    <value>file:/home/hadoop/workspace/dfs/data</value>
	    <description>Path del filesystem donde el datanode almacenerá los bloques.</description>
	  </property>

	  <property>
	      <name>dfs.replication</name>
	      <value>1</value>
	      <description>Factor de replicación. Lo ponemos a 1 porque sólo tenemos 1 máquina.</description>
	  </property>
	</configuration>

Creamos los directorios /home/hadoop/workspace/dfs/name y /home/hadoop/workspace/dfs/data

  mkdir /home/hadoop/workspace/dfs/name
  mkdir /home/hadoop/workspace/dfs/data

Editamos ahora el fichero hadoop-env.sh para indicar el directorio JAVA_HOME de nuestra máquina.

  export JAVA_HOME=/usr/lib/jvm/java-6-oracle

Otra propiedad que vamos a configurar será la que configura los directorios donde se realiza el MapReduce, editamos el mapred-site.xml. También configuraremos el MapReduce de nuestro Hadoop al nuevo framework MapReduce disponible a partir de la versión 2 de Hadoop llamado Yarn (Yet Another Resource Negotiator). Es un framework MapReduce mejorado capaz de realizar más trabajos y un sinfín de cosas más que veremos en otros tutoriales. De momento lo dejaremos configurado. Como nuestro cluster es pseudo-distribuido únicamente habrá una tarea map y una reduce.

Por defecto viene como mapred-site.xml.template por lo que hacemos una copia y renombramos a mapred-site.xml

	<?xml version="1.0"?>
	<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
	
	<configuration>
		<property>
		    <name>mapreduce.framework.name</name>
		    <value>yarn</value>
		</property>

		<property>
		    <name>mapred.system.dir</name>
		    <value>file:/home/hadoop/workspace/mapred/system</value>
		    <final>true</final>
		</property>

		<property>
		    <name>mapred.local.dir</name>
		    <value>file:/home/hadoop/workspace/mapred/local</value>
		    <final>true</final>
  		</property>
	</configuration>

Creamos los directorios:

  mkdir /home/hadoop/workspace/mapred/system
  mkdir /home/hadoop/workspace/mapred/local

Por último configuramos un par de propiedades en el yarn-site.xml. Habilitamos la fase de Suffle para que se pueda hacer entre las fases de Map y Reduce ya que YARN por defecto no lo incluye.

    <configuration>
	  <property>
	    <name>yarn.nodemanager.aux-services</name>
	    <value>mapreduce_shuffle</value>
	  </property>
	  <property>
	    <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
	    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
	  </property>
     </configuration>

Una vez instalado Hadoop vamos a comentar algunos comandos que se utilizan normalmente a la hora de trabajar con un cluster Hadoop. Lo primero será formatear el sistema de ficheros HDFS mediante el comando:

	hadoop namenode -format

Lo siguiente será arrancar el cluster, es decir los diferentes demonios (Namenode, Datanode…) encargados de la ejecución de las tareas MapReduce y de la gestión del sistema de ficheros HDFS. Para hacer esto ejecutamos el script start-all.shz situado en /usr/local/hadoop/sbin/

	./start-all.sh

Si ejecutamos el comando Jps que nos muestra los procesos Java corriendo en la máquina debería salir algo como esto:

	hadoop@juan:/usr/local/hadoop/sbin$ jps
	11461 DataNode
	11706 SecondaryNameNode
	12875 NodeManager
	12675 ResourceManager
	11268 NameNode
	13151 Jps

Una vez arrancado podemos acceder al interfaz WebUI en http://localhost:8088/cluster/nodesdonde podemos realizar el seguimiento de los jobs que vayamos ejecutando. Es también muy útil para ver los logs, el histórico de jobs ejecutados, la configuración de MapReduce, etc.

Otra interfaz muy útil para ver la información del NameNode es accesible en http://localhost:50070/dfshealth.jsp. Aquí podemos ver la información de nuestro NameNode y también podemos acceder de forma visual al filesystem hdfs.

5. Conclusiones.

En este tutorial he querido hacer una primera introducción a la arquitectura de Hadoop, su instalación, configuración y arranque. En sucesivos tutoriales iremos entrando en detalle en los aspectos más destacados de la arquitectura y veremos las distintas partes en que se compone.

Espero que te haya sido de ayuda.

Un saludo.

Juan

10 COMENTARIOS

  1. Hola Juan. Felicitaciones por el tutorial.
    Necesito hacerte una consulta.
    Estoy trabajando en un proyeco en el que tengo 4 nodos con Hadoop Cloudera version enterprise.
    La pregunta es: hay mucha diferencia entre las versiones community y enterprise de este software?
    Pasar de enterprise a community implicacría mucho esfuerzo?
    Gracias por la aclaración

  2. Y he instalado hace hadoop, pero mi consulta es como ejecutar sobre mi cluster hadoop un script en R. De acuerdo a lo que he leido debo programar utilizando el paradigma MapReduce. es asi?. El script que tengo en R corresponden a calculos y generacion de un enorme vector existe alguna guia para comemzar a aprender a programar en MapReduce. Agradecere la ayuda.

  3. Hola, a mí no me permite descomprimir el archivo de hadoop. Me ocurre lo siguiente lo siguiente:

    ~$ tar xfz hadoop-3.0.0-beta1-src.tar.gz
    tar (child): hadoop-3.0.0-beta1-src.tar.gz: No se puede efectuar open: No existe el archivo o el directorio
    tar (child): Error is not recoverable: exiting now
    tar: Child returned status 2
    tar: Error is not recoverable: exiting now

    No encuentro la manera de instalarlo. ¿Podrías echarme una mano? Muchas gracias

  4. me parece magnifico material oportuno a la época, lastima que en las universidades actuales no se enseña lo conveniente. para el desarrollo de los estudiantes , pero desgraciadamente, también los estudiantes de actualmente se dedican a mirar cosas sin importancia; COMO LO DECÍA MAO TSETUNG » QUIEN NO ESTUDIA E INVESTIGA NO TIENE DERECHO HABLAR» mejor dicho a quejarse. gracias

DEJA UNA RESPUESTA

Por favor ingrese su comentario!

He leído y acepto la política de privacidad

Por favor ingrese su nombre aquí

Información básica acerca de la protección de datos

  • Responsable:
  • Finalidad:
  • Legitimación:
  • Destinatarios:
  • Derechos:
  • Más información: Puedes ampliar información acerca de la protección de datos en el siguiente enlace:política de privacidad