넘쳐나는 빅 데이터, 노란 코끼리 ‘Hadoop’이 해결한다!
빅데이터,노란코끼리,하둡,hadoop,빅데이터3대요소,오픈소스,분산처리,맵리듀스,더그 커팅과 마이크 카파렐라, 클라우데라,호튼웍스


“1억 8천만 개의 트위터를 분석해 본 결과, 유권자들은..”

지난 4.11 총선거를 기억하는가? 우리는 지난 4.11 총선거를 치르면서 언론의 여론 동향 파악 경로의 변화를 접할 수 있었다. 과거에도 트위터를 통한 여론 분석은 있었으나 이번에는 언론에서도 비중 있게 다룰 만큼 그 위상이 높아졌다. 일반적인 전화나 대면 분석에 대한 비중은 줄어들고 인터넷에 퍼진 광범위한 트윗 데이터의 수집·분석을 통한 각 정당 지지율이나 특정 후보의 당선여부 예측 비중이 높아진 것이다. 이 같은 변화의 뒤에는 요즘 IT업계의 가장 큰 화두인 ‘빅 데이터(Big Data)’와 ‘하둡(Hadoop)’이 있다. 

빅 데이터란? 
통상적으로 빅 데이터는 ‘기존 데이터에 비해 너무 커서 기존 방법이나 도구로 수집, 저장, 검색, 분석, 시각화하기 어려운 정형 또는 비정형 데이터(정보통신산업진흥원,ETRI)’를 말한다. 하지만 빅 데이터의 정의를 단순한 정량적인 차원으로만 접근해서는 안 된다. 데이터는 지속적으로 발전하는 과정에 있고, 산업별 시장별 구분에 따라 다르게 적용되기 때문이다.
빅 데이터란 개념을 이해하기 위해서는 빅 데이터의 3대 요소(3V)를 이해할 필요가 있다. 3대 요소란 바로 ‘크기(Volume)’와 ‘속도(Velocity)’, 그리고 ‘다양성(Variety)’이다.

빅 데이터 3대 요소(TDWI Research 2011)

 

데이터의 양은 급속히 증가하고 있다. 인류가 지금까지 생산한 데이터보다 최근 2년간 만들어진 데이터가 더 많을 것이라는 이야기가 들릴 정도다. 그만큼 데이터의 종류 역시 매우 다양하다. 갑작스런 데이터의 증가에는 여러 이유가 있었겠지만 컴퓨팅, 모바일의 발달과 SNS라는 매체의 힘이 컸다. 특히 페이스북, 트위터와 같은 소셜 네트워크의 출현은 데이터양의 폭발적 증가를 이끌었다.

2011년의 경우 새롭게 생성되거나 복제된 정보의 양이 1.8ZB(1조 8000억Gigabyte)를 넘어섰는데, 이는 우리나라 모든 사람이 18만년 동안 1분마다 3개의 글을 트위터에 게시하는 양에 맞먹고, HD영화 2000억여 편에 해당하는 엄청난 양이다. 그리고 이러한 데이터양은 앞으로도 매년 2배 이상 증가할 것이라는 예측이 나오고 있다. 

그렇다면 이러한 빅 데이터가 중요해지는 이는 무엇일까? 연관 없어 보이는 다량의 데이터를 분석하여 그 속에서 의미 있는 정보나 패턴을 읽어내면 다변화된 현대 사회를 보다 정확하게 예측할 수 있기 때문이다. 그리고 이를 통해 사람들에게 필요한 유의미한 정보를 생성하고 전달할 수 있게 된다. 지난 1월에 방송된 KBS1 ‘시사기획 창-빅데이터, 세상을 바꾸다’ 편에서 등장한 샌프란시스코의 빅 데이터 활용 사례를 예로 들어보자. 샌프란시스코는 범죄, 부동산 등 100가지의 데이터 묶음을 일반인에게 공개했다. 이 데이터들은 샌프란시스코에서 강력범죄가 도심에서 많이 일어나며 마약범죄는 강력범죄가 많이 일어나는 곳에서 자주 발생한다는 사실 등을 알려주었는데, 이 같은 의미 있는 정보를 통해 사람들은 자신들의 거주지를 결정하는데 도움을 얻었으며, 샌프란시스코에서도 범죄가 일어날만한 곳에 경찰을 배치하여 범죄 발생률을 낮추는 등 범죄 예방 시스템을 구축할 수 있었다.

@The IBM Curiosity Shop / http://www.flickr.com/photos/curiosityshop/6256689337/


그렇다면 과거에는 왜 이러한 데이터에 주목하지 않았을까? 슈퍼컴퓨팅 전문기업 클루닉스 대표 권대석 박사에 따르면 크게 3가지 이유가 있다.

첫째, 지금까지는 사람이 어떻게 행동했다, 물류가 어떻게 이동했다, 재고량이 어떻게 증감했다 등의 모든 사건에 대한 저장기술이 기술적으로 불가능했다는 것이다. 하지만 디지털 기술의 발달과 디지털 장치의 확산으로 이 모든 사건을 기록할 수 있게 되었다.
둘째, 지금까지는 디지털 빅 데이터를 저장하는 것이 경제적으로 합리적이지 않았기 때문이다. 1980년대에는 1Gbyte를 저장하기 위해서 100만$(10억원 이상)가 드는 등 경제적 부담이 컸다. 하지만 2010년도에 들어서면서 0.1$(100원) 미만으로 떨어져 이제는 아주 사소한 것까지 모두 녹화해 두는 것도 가격적으로 그리 부담스럽지 않게 되었다.
셋째, 방대한 양의 데이터를 저장할 수 있게 되고 경제적 부담이 해결된다고 해도 이들 데이터를 분석하는데 너무나 오랜 시간이 필요하다면? 아마 그 데이터의 가치는 반감될 것이다. 과거에는 하루에 발생하는 엄청난 양의 데이터들을 한 대의 컴퓨터로 읽는 데만 해도 엄청난 시간이 소요된다는 문제가 있었다. 하지만 지금은 이러한 과정이 병렬 분산처리기술(클러스터) 등의 기법이 활성화 되면서 가능해졌다.


하둡(Hadoop)을 주목하라!

빅 데이터와 함께 주목받은 것이 바로 ‘하둡(Hadoop)’이다. 더그 커팅과 마이크 카파렐라에 의해 개발된 하둡은 간단히 말해 방대한 양의 데이터를 분산 처리하여 빠른 시간 내 결과를 제공하는 오픈소스 기반 데이터 관리 기술로, 분산시스템에서 대량의 자료를 처리하는 자유 자바 소프트웨어 프레임 워크다.

하둡의 심볼 (출처:hadoop.apache.org/)

하둡의 뿌리는 구글과 맞닿아있다. 이는 구글이 설립 초기부터 대규모 자료를 검색하고 분석하는데 사용한 분산 파일 시스템 GFS(Google File System)과 분산 처리 시스템 MapReduce에 대한 논문을 접한 더그 커팅이 이를 참고하여 구현한 것이기 때문인데, 하둡은 구글 파일 시스템(GFS)을 대체할 수 있는 하둡 분산 파일 시스템(HDFS)과 맵리듀스(MapReduce)* 알고리즘을 구현한 오픈소스 프레임 워크인 것이다. '하둡'이란 명칭은 더그 커팅의 아들이 가지고 놀던 장난감 코끼리의 이름을 따서 지어졌다고 전해지는데, 그 때문에 하둡의 심볼 역시 노란 코끼리다.

*맵리듀스(MapReduce) : 다수의 컴퓨터에서 데이터를 분산처리하여, 그 결과를 추려내는 데이터 프로세싱 기법

지금까지의 데이터 분석 기술은 대부분 컴퓨터 한 대로 메모리, 파일시스템, 데이터베이스에 데이터를 저장하고, 이를 기반으로 데이터를 분석하는 알고리즘을 실행하는 구조였다. 여전히 메모리에 데이터를 로딩 해야 했고, 그래서 많은 시간이 소요될 수밖에 없었다. 하지만 Hadoop이 보급되면서 버려지던 빅 데이터에 관심을 가지게 되었고, 이를 분석·처리하기 시작한 것이다.

대표적인 Hadoop 솔루션 업체로는 클라우데라(Cloudera)와 호튼웍스(Hortonworks)가 있다. Cloudera는 빅 데이터와 클라우드 시장의 교육 및 기술지원을 제공하고 있고, Hortonworks는 Hadoop 코어 기술과 아키텍처* 개선을 담당하고 있다. 또, IBM은 아파지 하둡(Apache Hadoop)을 기반으로 자신들의 Basic, Enterprise 배포판을 가지고 있고, Oracle은 자신들의 하드웨어에 Cloudera를 결합한 Hadoop Appliance를 제공하고 있다.

*아키텍처 : 하드웨어와 소프트웨어를 포함한 컴퓨터 시스템 전체 설계 방식

하둡 에코시스템 @Régis Gaidot / http://www.flickr.com/photos/_after8_/4002604072

지금 이 시간에도 데이터는 계속 쏟아지고 있으며, 저장되고, 분석되고 있다. 하지만 우리는 초당 1만개의 신체 데이터를 쏟아내는 첨단 의료기기의 자료를 제대로 활용하고 있는가? 세계 곳곳에서 얻어지는 기상 관측값을 필요한 시기에 제대로 공급하고 있는가? 각 기관마다 보유하고 있는 데이터는 서로 잘 공유되고 있는가?

많은 양의 데이터를 보유하고 있다고 해서 반드시 가치있는 것은 아니지만 잘 처리된 데이터는 의미를 만든다. 데이터 없이는 지식의 폭이 좁아질 수밖에 없다. 또한 데이터가 없다면 어떤 결정을 할 때 객관적인 근거가 결여되어 주관적인 판단을 할 수밖에 없을 것이다. 세상은 복잡하지만 그 안에는 분명 어떤 흐름이 있고, 넘치는 데이터 속에는 유의미한 이야기가 있다. 리눅스의 등장으로 OS 시장이 크게 바뀌었듯이 Hadoop의 등장으로 다양한 빅 데이터 분석을 시도하게 되었고, 이로써 세상의 변화에 대한 데이터의 영향력은 더욱 커질 것이다. 그리고 이것이 우리가 Hadoop에 주목하는 이유다.



 

 

참고
· 권대석 박사(클루닉스 슈퍼컴 전문기업, www.clunix.com)
· 한국정보화진흥원(www.kosma.or.kr)
· 한국전자통신연구원(www.etri.re.kr)
· KBS 시사기획 창, 빅 데이터 세상을 바꾸다 (2012년 1월 31일 방송, www.kbs.co.kr)
· TDWI rsearch 2011 big data analytic report (www.tdwi.org)
· 한국인터넷진흥원(www.kisa.or.kr)
· 국가정보화전략위원회, 빅 데이터를 활용한 스마트 정부 구현(안), 2011.10.26.
· Mckinsey&Company, Big data: Then next frontier for innovation, competition, and productivity, 2011.6.
· IDC, 2010 Digital Universe Study, 2010.4.26.
· 누구나 다 아는 대용량 데이터 분석 기술(kimws.wordpress.com)

블로그 이미지

굿가이(Goodguy)

우리 생활 속 과학이야기