본문 바로가기

명사 美 비격식 (무리 중에서) 아주 뛰어난[눈에 띄는] 사람[것]

이론/SCP Training & Certification

Samsung Cloud Platform Practitioner Essentials [8hr] - [KR]Practitioner.Analytics(2)

Cloud Hadoop 상품

빅데이터 분석시 클라우드 자원을 노드 단위로 늘리거나 확장하여 대용량 데이터의 병렬처리가 가능함.

아파치 오픈소스를 기반으로 에코시스템, 대시보드 등 관리환경을 제공

필요한 하둡 에코 시스템만 선택하여 구성할 수 있어 불필요한 자원낭비를 방지할 수 있음.

전문성이 요구되는 Hadoop를 자동화하여 하둡클러스터를 생성함.

대시보드로 모니터링가능

서비스 이상 발생시 장애 alert가능하다.

https://standout.tistory.com/97

 

Hadoop이란?

*아파치 하둡 Apache Hadoop, High-Availability Distributed Object-Oriented Platform 오픈소스, 아파치 자바 소프트웨어 대량의 자료를 처리할 수 있는 소프트웨어 누구나 자유롭게 사용하고 개발할 수 있으며, 이

standout.tistory.com

 

 

 

Data Flow 상품

Apache NiFi 기반의 데이터 처리 흐름도구를 관리형으로 제공한다.

콘솔에서 컨테이너기반 오픈소스 NiFi 확장형의 클러스터환경을 자동 설치

실시간 데이터 연결, 이동경로 추적, 데이터 분실방지 서비스

대용량 데이터 및 병렬 작업 처리할 수 있다.

연결가능한 데이터 소스는 아래와 같다.

HDFS, HIVE, HBASE, Solr, Cassandra, MongoDB, Dlasticsearch, Kafka, RabbitMQ, Syslog, HTTPS, SFTP ...

https://standout.tistory.com/1313

 

데이터 플로우 자동화 및 데이터 통합 오픈 소스, Apache NiFi

Apache NiFi 데이터 플로우 자동화 및 데이터 통합을 위한 오픈 소스 소프트웨어 프로젝트 Apache 소프트웨어 재단에서 개발 데이터 운송과 자동화를 강화하여 데이터 흐름을 쉽게 관리하고 최적화

standout.tistory.com

 

 

 

Data Ops 상품

오픈소스 Apache Airflow를 생성하고 관리하는 서비스

컨테이너 환경에서 오픈소스 Apache Airflow 설치 및 배포

설정을 손쉽게 관리 및 상태 모니터링이 가능하다.

Python기반의 워크플로우 작성으로 확장성이 용이하며

스케줄러를 통한 작업수행을 자동화할 수 있다.

데이터 처리 작업중 실패에 대한 재처리 플랜을 제공한다.

https://standout.tistory.com/1314

 

데이터 워크플로우, 스케줄링 및 모니터링을 관리하는 Apache Airflow

Apache Airflow Apache 소프트웨어 재단에서 개발 데이터 워크플로우, 스케줄링 및 모니터링을 관리하기 위한 오픈 소스 플랫폼 비정형 데이터 처리 및 워크플로우 자동화를 위한 도구로 널리 사용 아

standout.tistory.com

 

 

 

Data Wrangler 상품

쉽고 빠르게 데이터를 탐색하고 원하는 형태로 재구성해주는 상품

수집된 Raw 데이터를 사용자에게 익숙한 엑셀형태의 시각적인 데이터로 변환하여 제공한다.

 

Data Catalog 상품

오픈소스 Apache Atlas와 Ranger를 기반으로 데이터 자산의 메타데이터를 수집하고 통합관리하는 서비스

기업내 모든 데이터 자산의 메타데이터를 자동수집하여 통합관리 및 항상 최신상태로 유지

메타크롤러는 db, 스키마, 테이블, 칼럼 등 메타정보,

리니지크롤러는 히스토리 정보,

샘플크롤러는 메타데이터의 샘플데이터를 수집한다.

데이터의 흐름을 시각화하여 제공하며

테이블 및 스키마 변경 이력을 관리할 수 있다.

메타데이터, 테이블 명, 태그 등 조건으로 데이터 검색과 테이블 상세조회가 가능하다.

https://standout.tistory.com/1315

 

데이터 자산 관리를 위한 오픈 소스 프로젝트, Apache Atlas

Apache Atlas Hadoop 생태계에서 데이터 관리와 데이터 자산 관리를 위한 오픈 소스 프로젝트 데이터 자산의 메타데이터 관리 및 검색을 지원하여 기업 내에서 데이터 자산을 추적하고 이해하는 데

standout.tistory.com

https://standout.tistory.com/1316

 

Hadoop 기반의 데이터 플랫폼에서 보안 및 접근 제어를 관리하는 Apache Ranger

Apache Ranger Apache 소프트웨어 재단에서 개발 Hadoop 기반의 데이터 플랫폼에서 보안 및 접근 제어를 관리하기 위한 오픈 소스 프로젝트 데이터에 대한 편리하고 정교한 보안 정책을 설정하고 관리

standout.tistory.com