Simple is IT, 누구나 보고 누구나 깨닫는 IT

빅데이터(Big Data)와 하둡(Hadoop) 본문

Simple is IT/Database

빅데이터(Big Data)와 하둡(Hadoop)

currenjin 2020. 5. 5. 22:50

BIG DATA

: 기존 데이터베이스 관리 도구의 능력을 넘어서는 대량의 정형 또는 비정형 데이터 집합을 포함해 가치를 추출하고 결과를 분석한다.

공통적 특징은 3V

데이터의 다양성 (Variety)

데이터의 양 (Volume)

데이터 생성 속도 (Velocity)

추가로. 정확성(Veracity), 가변성(Variability), 시각화(Visualization) 등이 계속해서 새로 추가가 된다.

File System

DBMS

Hadoop

데이터에 대한 물리적 접근만 조정

데이터에 대한 물리적 접근과 논리적인 접근 모두 조정

File System의 장점과 DBMS의 장점을 서로 결합한 형태의 Hadoop이 등장

동일한 파일을 두 개 이상의 프로그램이 동시에 접근 불가

동일한 데이터를 다수 사용자가 동시에 접근 가능

데이터가 비구조적이며, 중복성과 유지보수 비용이 높음

데이터가 구조화되어 있으며 중복성과 유지보수 비용이 낮음

각 응용 프로그램마다 파일이 따로 있으므로 데이터가 통합되어 있지 않음

데이터가 중복을 배제하면서 통합되어 있음

어떤 프로그램이 기록한 데이터는 다른 프로그램에서 읽을 수 없는 경우가 많음

접근권한이 있는 모든 프로그램이 데이터를 공유함

데이터에 대한 접근을 미리 작성된 프로그램을 통해서만 가능함

질의어를 사용하여 데이터에 대한 융통성 있는 접근이 가능함

위 파일을 참고해서 모든 설정을 완료한 상태이다.


hadoop namenode -format 명령으로 파일시스템 포맷 시작

(하나의 파티션과 같은 녀석이기 때문에)



start-dfs.sh 명령으로 프로그램을 시작한다.


 

process의 정상적인 작동 확인

그렇게 되면 아래 사진처럼 웹 환경이 원활하게 접속이 되는 것이 정상이다.

http://localhost:9870

http://localhost:8088

hadoop command

hdfs dfs -[기존 리눅스 명령어]

hdfs dfs -put [업로드 파일] [업로드 할 위치]

hdfs fsck [검사 할 파일 명] -files -blocks

ex) 디렉토리 생성 후 굿 윌 헌팅의 대사 파일을 저장해보았다.

hdfs dfs -mkdir -p /user/root/conf

hdfs dfs -mkdir /input

hdfs dfs -put ~/goodwillhunting /input

hdfs fsck /input/goodwillhunting -files -blocks

cat ~/hadoop-3.1.2/logs/hadoop-root-datanode-master.log | grep blk_1073741826_1002

대사 파일 안의 문자 수 카운트하기

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.2.jar wordcount /input/goodwillhunting /user/root/word

오류가 발생하여 위의 로그를 확인해보았다.

-- 요청하는 사양은 memory : 1536, vCores : 1

-- 현재 제공하는 사양은 memory : 1024, vCores : 1

--> 요청하는 메모리 만큼을 할당해주기 위해

$HADOOP_HOME/etc/hadoop/yarn_site.xml 메모리를 바꾸어준다.

정상적인 결과화면


Comments