분류 전체보기
-
spark-Drivercomputer/spark 2016. 10. 7. 12:20
원문 : https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-driver.htmlDirverSpark Driver는 Spark application 위한 sparkContext를 관리하는 JVM process이다.Spark Driver는 DAGScheduler와 Task Scheduler를 이용하여 job들과 task들 실행을 조종(cockpit)한다. 또한, 환경설정을 위해서 Web UI를 관리한다.Figure 1. Driver with the services 이것은 task들로 spark application을 분리한다. executor들 위에서 실행할 그것들을 스케쥴링한다.드라이버는 task 스케쥴러가 살아있는 곳이고 wo..
-
spark-SparkContext카테고리 없음 2016. 10. 7. 09:38
원문 : https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-sparkcontext.htmlSparkContext — Entry Point to Spark (Core)sparkContext는 spark 어플리케이션을 위한 스파크 진입점이다. note. sparkContext 인스턴스는 spark 어플리케이션이다.sparkContext는 내부 서비스들이 설정되고, 스파크 실행 환경에 연결이 완료된다. sparkContext 인스턴스가 생성되면, sparkContext를 RDD들, accumulator들과 broadcast 변수들을 생성하는것과 spark 서비스에 접근, job들을 실행하는데 이용한다. sparkContext는 근본..
-
spark-stagecomputer/spark 2016. 10. 6. 20:14
원문 : https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-dagscheduler-stages.html [ 소개 ]stage는 물리적 실행 단위이다. 물리적 실행 계획안의 단계이다.stage는 RDD 파티션당 하나인, 병렬 task들의 집합이다. stage는 스파크 job의 부분으로써 실행된 function의 부분적인 결과들을 계산한다. 그림1. stage, tasks 그리고 보내진 job 바꿔 말하면, spark job은 stages들을 분할한 계산들을 계산하는 것이다.stage는 유일하게 id에 의해 식별된다. stage가 생성될때, DAGScheduler는 stage 제출(submission)의 수를 추적하기 위해, 내부..
-
spark-Spark Architecturecomputer/spark 2016. 10. 6. 14:28
원본 : https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-architecture.htmlSpark Architecturespark는 master/worker 구조를 사용한다. master라 불리며, 싱글 coordinator로 불리는 driver는 executor가 동작하는 worker들을 관리한다. 그림1. 스파크 구조 driver와 executor들은 그들 자신의 자바 프로세스에서 동작한다. 당신은 모두 같은 곳(수평적 클러스터) 나 분산된 머신(수직적 클러스터)나 혼합된 머신구성에서 그것들을 동작시킬 수 있다. 물리적 기계는 hosts나 nodes라고 불린다.그림2. 상세한 스파크 구조
-
Spark and Spark Streaming Unit Testingcomputer/빅데이터 2016. 8. 5. 11:50
원문 해석 : http://mkuthan.github.io/blog/2015/03/01/spark-unit-testing/Spark and Spark Streaming Unit Testing 당신이 분산시스템을 만들때, 그것을 테스트하기 쉽게 만드는 것은 중대한일이다. 당신의 IDE에서 완벽하게, 통제되는 환경에서 테스트를 실행해봐라. 복잡한 시스템의 긴 개발-테스트-개발 사이클은 당신의 생산성을 없앨 것이다. 아래글에서 당신은 spark 와 Spark Streaming applications에 대한 나의 테스트 전략을 볼 수 있다. Unit or integration tests, that is the question우리의 가상 spark application은 apache kafka로부터 데이터를 받는..
-