-
[환경설정] Spark 설치 및 ubuntu 환경 설정 (feat.AWS)DataProcessing/Spark 2021. 2. 15. 23:24728x90
Spark 설치 시 다음과 같은 프로그램들이 필요합니다.
- Spark 2.4.7
- Java jdk 1.8_251
- Scala 2.11.12
- Hadoop 2.7.3
- Python 3.7.5 (Pyspark 사용 시 필요)
- Spark 2.4.7
$ wget https://downloads.apache.org/spark/spark-2.4.7/spark-2.4.7-bin-hadoop2.7.tgz
$ tar xvf spark-*
echo "export SPARK_HOME= ~/programs/Spark/spark-2.4.7-bin-hadoop2.7" echo "export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin" echo "export PYSPARK_PYTHON=/usr/bin/python3"
AWS 접속 후 꼭 경로설정 반영할 것!
$ ~/.profile
- Java jdk 1.8_251
[windows os]
https://www.oracle.com/java/technologies/javase/javase8u211-later-archive-downloads.html
Java SE Development Kit 8u251 다운로드
[AWS 설치 시]
$ sudo apt-get update $ sudo apt-get install openjdk-8-jdk
- Scala 2.11.12
[Scala 스칼라 다운로드]
$ sudo apt-get install scala -y
[Scala 스칼라 버전 확인]
$ scala -version
- Hadoop 2.7.3
$ wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz
$ tar xvzf hadoop-2.7.3.tar.gz
echo "export HADOOP_HOME= ~/programs/Hadoop/hadoop-2.7.3" echo "export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin"
AWS 접속 후 꼭 경로설정 반영할 것!
$ ~/.profile
- python 3.7.5
$sudo apt-get install python3.7
* Python 버전 변경 시 참고
- PIP 설치
$ sudo apt install python3-pip
* AWS 계정 비밀번호 변경
$ passwd
1. 현재 password입력 2. 새 password입력
이상 오늘의 삽질일기 끝!
여기저기 삽질도 해보고
날려도 먹으면서
배우는 게
결국 남는거다
- Z.Sabziller
'DataProcessing > Spark' 카테고리의 다른 글
[Spark Streaming] Tutorial #1 트윗 데이터 실시간 스트리밍(feat. Kafka, Pyspark) (0) 2021.02.18 [Spark] 데이터 가공(Feat. 코로나 Trend분석) (0) 2021.02.17 [Spark] Trend 분석 연관어 빈도수 구하기 (feat. 불용어 처리) (0) 2021.02.06 [Spark] 스파크 Dataframe 데이터프레임 가공하기 (0) 2021.01.31 [Spark] Tutorial #1 데이터 조회, 가공 & 데이터프레임 생성 (0) 2021.01.24