본문 바로가기

BigData3

[Spark] RDD(Resilient Distributed Dataset) 개념과 연산 예제 2021.10.20 - [BigData/Spark] - [Spark] 스파크 개념 앞에 게시물에서 Spark Core에 RDD라는 내용이 나왔는데 RDD의 개념과 사용법을 알아보도록 하겠습니다. 1. RDD (Resilient Distributed Dataset) 란? - 회복력 있는 메모리에 분산된 데이터셋으로 기본적으로 스파크 내부적으로 연산하는 데이터들을 RDD 형태로 사용한다. 2. RDD 특징 - 여러 분산 노드에 나누어진다. - 다수의 파티션으로 관리된다. - 변경이 불가능한 데이터 셋이다. 3. RDD 생성 위 그림을 참고해서 보면 RDD는 파일 시스템( HDFS, GlusterFS )을 읽어와서 메모리에 저장할 때 생성이 되고 코드에서 생성되는 데이터를 저장할 때 사용된다. 즉 정리하자면 .. 2021. 11. 6.
[개발] Spark SQL DataFrame Vector to Array LogisticRegression으로 모델 학습한 결과 테이블 중에서 rawprediction, probability 값이 vector 형태로 나오는데 spark sql에서 인덱스 1 값을 가지고 오고 싶어서 방법 찾던 중 해결한 방법. 추후에 spark를 더 공부한 후 다른 방법을 찾으면 글 업데이트할 예정. 현재 사용하고 있는 Spark 버전은 Spark 2.3.1 spark 3.0.0 버전 부터는 vector_to_array 함수 제공 Spark DataFrame 스키마에 column dataType이 vector인 경우가 있을 때 Spark Sql에서 데이터를 꺼내오기 위해 아래와 같이 처리함. vector 가 포함되어 있는 데이터 프레임 스키마 withColumn : 데이터 프레임에 새로운 컬럼.. 2021. 10. 21.
[Spark] 스파크 개념 "스파크를 다루는 기술 Spark in Action"을 읽고 개인적으로 학습한 내용을 정리하는 포스터 입니다. 자세한 내용은 책을 참조해주세요. 출판사 웹 사이트 : https://www.gilbut.co.kr/book/view?bookcode=BN001997#bookData 1. 스파크란 빅데이터 처리를 위한 오픈소스 병렬 분산 처리 플랫폼 스파크는 잡에 필요한 데이터를 메모리에 캐시로 저장하는 인-메모리 실행 모델 (맵리듀스의 한계점은 맵리듀스 잡의 결과를 다른 잡에서 사용하려면 결과를 HDFS에 저장해야 함) 스칼라, 자바, 파이썬, R 등 다양한 프로그래밍 언어 지원 실시간 스트림 데이터 처리, 머신 러닝, SQL 연산, 그래프 알고리즘, 일괄 처리 등 여러 종류의 프로그램을 단일 프레임워크에서 .. 2021. 10. 20.