computer/spark
-
spark-Drivercomputer/spark 2016. 10. 7. 12:20
원문 : https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-driver.htmlDirverSpark Driver는 Spark application 위한 sparkContext를 관리하는 JVM process이다.Spark Driver는 DAGScheduler와 Task Scheduler를 이용하여 job들과 task들 실행을 조종(cockpit)한다. 또한, 환경설정을 위해서 Web UI를 관리한다.Figure 1. Driver with the services 이것은 task들로 spark application을 분리한다. executor들 위에서 실행할 그것들을 스케쥴링한다.드라이버는 task 스케쥴러가 살아있는 곳이고 wo..
-
spark-stagecomputer/spark 2016. 10. 6. 20:14
원문 : https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-dagscheduler-stages.html [ 소개 ]stage는 물리적 실행 단위이다. 물리적 실행 계획안의 단계이다.stage는 RDD 파티션당 하나인, 병렬 task들의 집합이다. stage는 스파크 job의 부분으로써 실행된 function의 부분적인 결과들을 계산한다. 그림1. stage, tasks 그리고 보내진 job 바꿔 말하면, spark job은 stages들을 분할한 계산들을 계산하는 것이다.stage는 유일하게 id에 의해 식별된다. stage가 생성될때, DAGScheduler는 stage 제출(submission)의 수를 추적하기 위해, 내부..
-
spark-Spark Architecturecomputer/spark 2016. 10. 6. 14:28
원본 : https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-architecture.htmlSpark Architecturespark는 master/worker 구조를 사용한다. master라 불리며, 싱글 coordinator로 불리는 driver는 executor가 동작하는 worker들을 관리한다. 그림1. 스파크 구조 driver와 executor들은 그들 자신의 자바 프로세스에서 동작한다. 당신은 모두 같은 곳(수평적 클러스터) 나 분산된 머신(수직적 클러스터)나 혼합된 머신구성에서 그것들을 동작시킬 수 있다. 물리적 기계는 hosts나 nodes라고 불린다.그림2. 상세한 스파크 구조