computer
-
spark-Drivercomputer/spark 2016. 10. 7. 12:20
원문 : https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-driver.htmlDirverSpark Driver는 Spark application 위한 sparkContext를 관리하는 JVM process이다.Spark Driver는 DAGScheduler와 Task Scheduler를 이용하여 job들과 task들 실행을 조종(cockpit)한다. 또한, 환경설정을 위해서 Web UI를 관리한다.Figure 1. Driver with the services 이것은 task들로 spark application을 분리한다. executor들 위에서 실행할 그것들을 스케쥴링한다.드라이버는 task 스케쥴러가 살아있는 곳이고 wo..
-
spark-stagecomputer/spark 2016. 10. 6. 20:14
원문 : https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-dagscheduler-stages.html [ 소개 ]stage는 물리적 실행 단위이다. 물리적 실행 계획안의 단계이다.stage는 RDD 파티션당 하나인, 병렬 task들의 집합이다. stage는 스파크 job의 부분으로써 실행된 function의 부분적인 결과들을 계산한다. 그림1. stage, tasks 그리고 보내진 job 바꿔 말하면, spark job은 stages들을 분할한 계산들을 계산하는 것이다.stage는 유일하게 id에 의해 식별된다. stage가 생성될때, DAGScheduler는 stage 제출(submission)의 수를 추적하기 위해, 내부..
-
spark-Spark Architecturecomputer/spark 2016. 10. 6. 14:28
원본 : https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-architecture.htmlSpark Architecturespark는 master/worker 구조를 사용한다. master라 불리며, 싱글 coordinator로 불리는 driver는 executor가 동작하는 worker들을 관리한다. 그림1. 스파크 구조 driver와 executor들은 그들 자신의 자바 프로세스에서 동작한다. 당신은 모두 같은 곳(수평적 클러스터) 나 분산된 머신(수직적 클러스터)나 혼합된 머신구성에서 그것들을 동작시킬 수 있다. 물리적 기계는 hosts나 nodes라고 불린다.그림2. 상세한 스파크 구조
-
Spark and Spark Streaming Unit Testingcomputer/빅데이터 2016. 8. 5. 11:50
원문 해석 : http://mkuthan.github.io/blog/2015/03/01/spark-unit-testing/Spark and Spark Streaming Unit Testing 당신이 분산시스템을 만들때, 그것을 테스트하기 쉽게 만드는 것은 중대한일이다. 당신의 IDE에서 완벽하게, 통제되는 환경에서 테스트를 실행해봐라. 복잡한 시스템의 긴 개발-테스트-개발 사이클은 당신의 생산성을 없앨 것이다. 아래글에서 당신은 spark 와 Spark Streaming applications에 대한 나의 테스트 전략을 볼 수 있다. Unit or integration tests, that is the question우리의 가상 spark application은 apache kafka로부터 데이터를 받는..
-
-
[spark] spark clustercomputer/빅데이터 2016. 4. 29. 16:28
스파크 본문 내용 번역 : http://spark.apache.org/docs/latest/submitting-applications.html작성중 Application들 보내기spark-submit 스크립트는 Spark의 bin 디렉토리에 있다. 이 스크립트는 cluster에서 application을 실행할때 사용된다.이것은 공통된 인터페이스를 통해 cluster managers를 지원하는 Spark의 모든곳에서 사용된다. (cluster manager : Standalone, mesos, yarn)그래서 당신은 각 서버에서 특별하게 당신의 application을 구성할 필요가 없다. Application의 의존성 묶기만약 당신의 코드가 다른 프로젝트들을 의존하고 있다면, Spark Cluster에 코..