Data Platform Engineering

HBae의 Architecture를 살펴보기 이전에 다시 한번 복습해보자. HBase의 필요성 Hadoop은 빠른 쓰기 및 읽기를 처리할 수 없으며, 파일을 완전히 다시 작성하지 않고서는 파일을 변경할 수도 없다. HBase는 최적화된 방식으로 빠른 임의 쓰기 및 읽기를 허용하므로 HDFS의 단점을 극복하기 위해 Hadoop위에 구축된 NoSQL, 열지향 데이터베이스 이다. 기본이해 대량의 정형 또는 비정형 데이터에 대한 임의 엑세스를 제공하도록 설계된 Google의 빅테이블과 유사한 데이터 모델이다. HBase는 HDFS의 내결함성 기능을 활용하는 Hadoop 에코시스템의 중요한 구성 요소이다. HBase는 기존 RDBMS의 몇 가지 중요한 기능을 놓치기 때문에 데이터베이스 대신 데이터 저장소라고 할 ..
Meta Table HBase는 META 테이블이라고 부르는 HBase Catalog 테이블을 유지한다. 여기에는 클러스터에 포함된 리전의 위치정보들을 저장하고 있다. 이 테이블은 주키퍼가 관리한다. 1. 클라이언트는 주키퍼의 META 테이블을 서비스하는 리전 서버의 호스트 정보를 읽어온다. 2. 클라이언트는 리전 서버에 .META 테이블을 쿼리해서 접근하려는 row키를 가지고 있는 리전 서버 정보를 가져온다. 클라이언트는 META 테이블의 정보를 캐시한다. 3. 해당 리전 서버로 부터 row를 읽는다. HBase META 테이블은 아래와 같은 구조를 가지고 있다. Meta 테이블은 클러스터에 있는 모든 리전 정보를 저장하고 있다. Meta 테이블은 b tree 다. Meta 테이블은 Key와 Value..
Hbase는 하둡 기반의 분산 데이터베이스이다. NoSQL분류되어 스키마 변경없이 자유롭게 데이터를 저장 할 수 있다. HDFS위에서 작동되기 때문에, HDFS의 데이터의 가용성과 확장성을 그래도 이용할 수 있다. 데이터베이스 CAP이론에서 HBASE는 CP타입 (Consistency & Partition tolerance) 시스템으로 구글의 BigData 모델과 유사한 기능을 제공한다. 데이터베이스 CAP 이론 1. 일관성 (Consiostency) 다중 클라이언트에서 같은 시간에 조회하는 데이터는 항상 동일한 데이터임을 보증하는 것. 이것은 관계형 데이터베이스가 지원하는 가장 기본적인 기능이지만 일관성을 지원하지 않는 NoSQL을 사용한다면 데이터의 일관성이 느슨하게 처리되어 동일한 데이터가 나타나지..
데이터 웨어하우스 정의 비즈니스 인텔리전스 (BI) 활동, 특히 분석을 활성화 및 지원하기 위해 설계된 데이터 관리 시스템의 한 유형이다. 데이터를 액섹스하고 분석하는 엔진 데이터필드 또는 문자열과 같은 레이아웃 및 유형들을 설명하는 스키마로 구성 의사결정에 도움을 주기 위해 분석가능한 형태로 변환한 데이터들이 저장되어 있는 중앙저장소. Read Only Data -> ETL -> DW -> OLAP server -> Frontend 이러한 순서로 생각하면 된다. 장점 - 정보에 기반한 의사결정가능 - 여러소스로부터 데이터통합 - 데이터의 높은품질 (일관성, 정확성) - 인텔리전스 기록 - 분석처리 프로세스와 트랜잭션 데이터베이스의 성능향상 ETL : Extract, Transform, Load ETL란..
ERE
'Data Platform Engineering' 카테고리의 글 목록