Cloud Hadoop 상품
빅데이터 분석시 클라우드 자원을 노드 단위로 늘리거나 확장하여 대용량 데이터의 병렬처리가 가능함.
아파치 오픈소스를 기반으로 에코시스템, 대시보드 등 관리환경을 제공
필요한 하둡 에코 시스템만 선택하여 구성할 수 있어 불필요한 자원낭비를 방지할 수 있음.
전문성이 요구되는 Hadoop를 자동화하여 하둡클러스터를 생성함.
대시보드로 모니터링가능
서비스 이상 발생시 장애 alert가능하다.
https://standout.tistory.com/97
Data Flow 상품
Apache NiFi 기반의 데이터 처리 흐름도구를 관리형으로 제공한다.
콘솔에서 컨테이너기반 오픈소스 NiFi 확장형의 클러스터환경을 자동 설치
실시간 데이터 연결, 이동경로 추적, 데이터 분실방지 서비스
대용량 데이터 및 병렬 작업 처리할 수 있다.
연결가능한 데이터 소스는 아래와 같다.
HDFS, HIVE, HBASE, Solr, Cassandra, MongoDB, Dlasticsearch, Kafka, RabbitMQ, Syslog, HTTPS, SFTP ...
https://standout.tistory.com/1313
Data Ops 상품
오픈소스 Apache Airflow를 생성하고 관리하는 서비스
컨테이너 환경에서 오픈소스 Apache Airflow 설치 및 배포
설정을 손쉽게 관리 및 상태 모니터링이 가능하다.
Python기반의 워크플로우 작성으로 확장성이 용이하며
스케줄러를 통한 작업수행을 자동화할 수 있다.
데이터 처리 작업중 실패에 대한 재처리 플랜을 제공한다.
https://standout.tistory.com/1314
Data Wrangler 상품
쉽고 빠르게 데이터를 탐색하고 원하는 형태로 재구성해주는 상품
수집된 Raw 데이터를 사용자에게 익숙한 엑셀형태의 시각적인 데이터로 변환하여 제공한다.
Data Catalog 상품
오픈소스 Apache Atlas와 Ranger를 기반으로 데이터 자산의 메타데이터를 수집하고 통합관리하는 서비스
기업내 모든 데이터 자산의 메타데이터를 자동수집하여 통합관리 및 항상 최신상태로 유지
메타크롤러는 db, 스키마, 테이블, 칼럼 등 메타정보,
리니지크롤러는 히스토리 정보,
샘플크롤러는 메타데이터의 샘플데이터를 수집한다.
데이터의 흐름을 시각화하여 제공하며
테이블 및 스키마 변경 이력을 관리할 수 있다.
메타데이터, 테이블 명, 태그 등 조건으로 데이터 검색과 테이블 상세조회가 가능하다.
https://standout.tistory.com/1315
https://standout.tistory.com/1316