본문 바로가기

Transformation1

[Spark] RDD(Resilient Distributed Dataset) 개념과 연산 예제 2021.10.20 - [BigData/Spark] - [Spark] 스파크 개념 앞에 게시물에서 Spark Core에 RDD라는 내용이 나왔는데 RDD의 개념과 사용법을 알아보도록 하겠습니다. 1. RDD (Resilient Distributed Dataset) 란? - 회복력 있는 메모리에 분산된 데이터셋으로 기본적으로 스파크 내부적으로 연산하는 데이터들을 RDD 형태로 사용한다. 2. RDD 특징 - 여러 분산 노드에 나누어진다. - 다수의 파티션으로 관리된다. - 변경이 불가능한 데이터 셋이다. 3. RDD 생성 위 그림을 참고해서 보면 RDD는 파일 시스템( HDFS, GlusterFS )을 읽어와서 메모리에 저장할 때 생성이 되고 코드에서 생성되는 데이터를 저장할 때 사용된다. 즉 정리하자면 .. 2021. 11. 6.

이전 1 다음

티스토리툴바