Talend Open Studio (TOS) 4.0

3
25497

Talend Open Studio (TOS) 4.0

0. Índice de contenidos.

1. Introducción

En este tutorial os voy a enseñar a instalar Talend Open Studio 4.0 que es una herramienta ETL de código libre creada por la empresa
Talend.

¿Qué es ETL?

ETL es el acrónimo de Extract, Transform y Load (en español extraer, transformar y cargar) y hace referencia al proceso
que permite obtener la información de una fuente de datos, procesarla | formatearla | limpiarla y cargarla en otra fuente
de datos .

Características principales de la herramienta :

  • Sincronización o replicación de bases de datos
  • Intercambios de datos en el momento correcto o por lotes entre los sistemas de la infraestructura de TI
  • Migración de datos
  • Transformación y carga de datos complejas

Talend Open Studio se basa en programación por componentes (para algunos en cajitas 😉 ) por lo que el desarrollo
de cualquier script/programa varía bastante respecto a la programación habitual. Esta forma de programar consiste
en ir uniendo diferentes componentes con funcionalidades diversas mediante sus flujos de entrada y flujos de
salida para realizar una tarea más compleja. Como ya os habréis dado cuenta, ésto cumpliría con el método
algorítmico de Divide y vencerás (DYV) que consiste en resolver un problema complejo dividiéndolo en partes
más simples tantas veces como sea necesario, hasta que la resolución de las partes sencillas se torne obvia. Con lo que la
solución del problema principal se construye a partir de las soluciones de los problemas más simples.

Es cierto que programar al estilo «Old School» , es decir, programando normalmente, te proporciona toda la
libertad del mundo (cosa lógica y normal porque tú eres dueño de todas y cada una de las líneas que tiene tu
programa). Pero creo que se le debería dar una oportunidad a este tipo de programación porque casi no te limita
en esa libertad como ya iré explicando en próximos tutoriales y sobre todo porque permite realizar cambios críticos
con relativa facilidad cosa que programando normalmente no sería tan sencillo o bien requeriría más tiempo.

Aspectos destacados de esta herramienta:

  • Modelo de proceso orientado al negocio.
  • Repositorio centralizado: Información de todos los proyectos.
  • Consistencia de datos y reutilización de componentes.
  • Rápido desarrollo.
  • Fácil de mantener.
  • Desarrollo gráfico.
  • Aumenta la productividad.
  • Combina vistas gráficas con técnicas.
  • Arrastrar y soltar componentes en la ventana de diseño.
  • Amplia gama de componentes y conectores.
  • Ejecución robusta y escalable.
  • Proceso distribuido en red. Aprovecha al máximo el hardware. Indicado para todo tipo se servidores (gama
    alta y baja), ya que maximiza la tasa de utilización de los recursos.
  • Genera código estándar. Utiliza motores optimizados (JAVA o PERL).

2. Diferencias entre versiones.

En primer lugar decir que Talend dispone de 2 categorías para sus diferentes versiones :

-> Versión gratuita (Talend Open Studio)

  • Versión Talend Open Studio : Proporciona características avanzadas para mejorar la productividad en la integración de datos.

-> Versiones de pago (Talend Integration Suite)

Talend Integration Suite es la versión empresarial para dar solución a la integración de datos que proporciona mediante
una subscripción el apoyo técnico por parte de profesionales de Talend así como funciones adicionales para facilitar
el trabajo a escala empresarial.

Decir que Talend Open Studio (TOS) es el núcleo de Talend Integration Suite (TIS)

  • Versión Team .
  • Versión Professional.
  • Versión Enterprise.
  • Versión RTx (Permite la integración de datos en plataformas que requieren trabajo en tiempo real).
  • Versión Mpx (Permite la integración de datos en plataformas masivamente paralelas donde se adapta a los volúmenes de datos)
    más altos.

Estas versiones difieren entre ellas en la funcionalidad que permiten que varía segun el coste de la licencia

Diferencias principales entre la version Talend Open Studio (TOS) y Talend Integration Suite (TIS)

1) Funcionalidad básica de integración de datos

Características comunes:

  • Modelado de negocio
  • Diseño de trabajos
  • Gestión de metadatos
  • Más de 400 componentes disponibles
  • Asistentes en la creación de ficheros, base de datos , etc.
  • Importanción de componentes Talend

Características únicamente de TIS

Nota : Estas características también difieren seguún la versión

  • Comparador de gestión del campo con trabajos
  • Análisis de impato e histórico de datos
  • Captura de cambios de datos
  • Reglas de negocio impulsado por la Integración (BRMS)
  • Opciones de calidad de datos

2) Desarrollo avanzado de productividad

No tienen características comunes

Características únicamente de TIS

Nota : Estas características también difieren según la versión

  • Asistentes avanzados (SAP , WSDL, migración y replicación, etc)
  • Previsualización de datos
  • Joblets
  • Documentación automática
  • Importación de metadatos
  • Soporte Apache Hadoop (plataforma para trabajar con grandes cantidades de informacion incluso petabytes)

3) Trabajo en equipo y consolidación del desarrollo

No tienen características comunes

Características únicamente de TIS

Nota : Estas características también difieren según la versión

  • Repositorio compartido con Check In / Out
  • Gestión de acceso
  • Gestión de usuarios con directorio LDAP
  • Almacenar metadatos y proyectos en SVN
  • Proyecto Audit

4) Facilidades de despliegue

Características comunes

  • Generar un trabajo como un servicio web

Características únicamente de TIS

Nota : Estas características también difieren según la versión

  • Opciones por línea de comandos
  • Planificador basado en tiempo
  • Planificador basado en eventos
  • Gestión de SOA
  • Gestión GRID (Balanceo de carga y comuntación por error)
  • Alta disponibilidad
  • Tecnología altamente escalable FileScale
  • Arquitectura masivamente paralela

5) Monitorización

No tienen características comunes

Características únicamente de TIS

Nota : Estas características también difieren según la versión

  • Consola de monitorización de actividad
  • Seguimiento de monitorización de actividad
  • Gestión de recuperación de errores
  • Estadísticas e informes de ejecución de tiempo real

6) Soporte

Características comunes

  • Comunidad : Foros, Bugtracker
  • Soporte técnico (Opcional para TOS)
  • Documentación

Características únicamente de TIS

Nota : Estas características también difieren según la versión

  • Acceso a servicio premium (asesoría, etc)

7) Tipo de licencia e idemnización

Características comunes

  • Licencia GPL (Sólo TOS)
  • Acceso al código fuente

Características únicamente de TIS

Nota : Estas características también difieren según la versión

  • Subscripción Licencia
  • Indemnización

3. Entorno.

El tutorial está escrito usando el siguiente entorno:

4. Instalación.

Para comenzar la instalación nos conectaremos a la página web de Talend

En la parte de la derecha de la web (en color rojo) existe un acceso directo a las descargas de sus productos.

Seleccionamos el producto Talend Open Studio. Para ello seleccionamos la opción que ellos denominan como Telecargue ahora! 😉

Seleccionaremos la opción de instalación que necesitemos :

  • Windows 32
  • Windows 32 / Unix / Linux

En nuestro caso seleccionaremos la opción de Windows 32. Una vez seleccionada, nos mostrará los servidores desde los
que se pueden descargar.

Una vez seleccionado el servidor nos descargaremos el instalador.

Cuando tengamos el instalador descargado lo ejecutaremos
y mostrará una ventana que nos solicitará el directorio de instalación. Nosotros elegiremos C:\TOS4.0

Nota : A partir de ahora a este directorio más la carpeta que genera la denominaremos TOS_HOME.
En mi caso la TOS_HOME es C:\TOS4.0\TOS-Win32-r41260-V4.0.1

Seleccionamos la opción de instalar

Una vez haya terminado estaremos en disposición de empezar a utilizarlo

4. Configuración.

Tras la instalación voy a enseñar a cómo generar un proyecto y configurar un repositorio.

PASO 1 : Ejecutamos Talend Open Studio 4.0

PASO 2 : La primera vez que lo ejecutamos no mostrará las condiciones de la licencia.

PASO 3 : Cargará la pantalla inicial de Talend que indicará la existencia de un error al NO
existir ninguna conexión.

Con conexión se refiere a la existencia de un repositorio con el que trabajar.

PASO 4 : Crear un repositorio. En esta pantalla se le indicará el nombre así como
la localización.

PASO 5 : Es obligatorio introducir un correo para que nos deje crear el repositorio.

PASO 6 : Una vez creado ése podrá ser seleccionable para crear proyectos, por lo que modificaremos el
seleccionable de proyectos para crear un nuevo proyecto.

PASO 7 : Tras seleccionar GO! aparecerá la ventana de alta del proyecto donde podremos
darle un nombre, una descripción e indicar el tipo de lenguaje con el que se puede trabajar
: Java o Perl

PASO 8 : Una vez esté dado de alta podremos seleccionarlo para abrir el proyecto, por lo que lo
seleccinaremos en el desplegable apropiado y pulsaremos Open.

PASO 9 : Tras pulsar sobre Open se cargará el proyecto

PASO 10 : La primera ejecución solicitará un registro que solicitará un correo.

PASO 11 : Una vez finalizado el registro estaremos listos para comenzar a trabajar.

PASO 12 : Y ésta sería la pantalla pera comenzar a trabajar 😉

5. Conclusiones.

Con este tutorial se pretende detallar la instalación de este productor para poco a poco ir enseñando a
utilizarlo , pero claro, para eso hay que tenerlo bien instalado y configurado. Aquí termina esta primera
introducción a la progrmación con cajitas 😉

3 COMENTARIOS

  1. Estoy interesado en esta herramienta puesto que me la piden para hacer un proyecto en la universidad!!! No he checado todo el tutorial pero de igual forma gracias!!!

  2. Hola, he estado usando Talend por algún tiempo y se me acaba de presentar un problema, quiero saber si me puedes ayudar a solucionarlo. Gracias.

Los comentarios están cerrados.