빅 데이터(Big Data)가 도대체 뭘까?



'빅 데이터'는 작년부터 대단한 이슈입니다. 국내외 모든 언론 매체에서 선정한 2012년 10대 기술 동향에 빠짐없이 들어가있기도 하고요. 그런데 빅 데이터가 뭔가요?

구글과 같은 공룡 글로벌 업체가 나타나고, 페이스북과 트위터 등의 대형 소셜 네트워크가 확산되면서 그들의 서버에는 엄청난 데이터가 쌓이기 시작합니다. 페이스북이 10억명의 유저 정보를 보유하는 것처럼 이전과는 비교도 할 수 없을만큼 대단히 많은 데이터였습니다. 업체들은 그 많은 데이터를 기존의 방식대로 저장하다보니 셀 수 없이 많은 서버 컴퓨터가 필요하게 되었습니다. 참고로 현재 구글이 운용하고 있는 서버 대수는 대략 100만대 정도입니다. 또한 지금까지 그렇게 많은 데이터를 축적한 경험이 없다보니 기존 방식으로는 성능도 만족스럽지 못했습니다. 그들은 고민하기 시작했습니다. 예전처럼 하다가는 거덜나겠는데?

그리고 그들은 직접 해결책을 찾기 시작합니다. 그 결과로서 구글은 '구글 파일 시스템(GFS)', '맵리듀스(MapReduce)', 페이스북은 '카산드라(Cassandra)'와 같은 기존과 다른 솔루션들을 개발하여 적용하였습니다. 여러 시행착오를 거치면서 조금씩 안정화되고 사람들은 이러한 시스템의 무궁무진한 가능성을 깨닫습니다.

이제 예전에 비해 무제한적인 데이터를 큰 부담없이 저장 할 수 있게 되었습니다. 게다가 이어서 큰 데이터를 실시간으로 시각화(Visualization)시켜주는 기술, 축적된 데이터를 인공지능으로 스스로 마이닝하는 기술, 얻어진 데이터를 언어적으로 해석하는 기술 등이 획기적으로 발전하기 시작했습니다. 이러한 기술들 역시 최신 기술 동향에 포함되는 블루 오션입니다. 마침내 대용량 저장 기술과 저장된 데이터의 실시간 통계, 시각화, 등의 기술들은 함께 어우러져 '빅 데이터'라는 이름으로 세상에 알려지게 되었습니다.

이제 데이터를 다루는 페러다임이 과거와 달라졌습니다. '의미있는 데이터를 선별하여 저장하자'던 과거의 방식에서 '버려지는 데이터에서 의미있는 정보를 찾자'로 사고가 전환됩니다. 사실상 의미있는 데이터를 반드시 선별해야 했던 이유는 데이터베이스 서버의 하드웨어 제약이 가장 큰 이유였기 때문에 이제 그런 제약이 사라진 상황에서 굳이 심혈을 기울여 아껴쓸 필요가 없게 된 것입니다.

이는 우리 사회에 새로운 시야를 열어주었습니다. 지금까지 버려졌던 수 많은 정보들이 새롭게 가공되어 우리 앞에 의미있는 정보로 나타납니다. 기업 환경에서는 시시콜콜한 고객의 작은 움직임이 큰 의사결정의 수단으로 작용됩니다. 설비 산업에서도 기기의 계측, 센서 정보등을 모아서 좀 더 미세한 컨트롤이 가능해 집니다. 이 세상의 모든 오브젝트들을 이미지 형태로 저장하면 사물 검색이 가능해집니다. 소셜 네트워크에서의 메시지들을 취합하면 우리 사회가 어떤 이슈를 중심으로 어느 방향으로 발전해 나가는지를 분석 할 수 있습니다. 다음소프트 송길영 부사장의 '소셜 빅데이터 마이닝을 통한 트렌드 분석'과 같은 자료는 우리 일상에서 흔히 볼 수 있는 소셜 네트워크 데이타가 어떤 식으로 의미있게 재구성되는지를 보여줍니다.

빅 데이터는 사실 짧은 두 단어로 설명하기에는 너무 넓은 범위를 다루고 있습니다. 출현한지 얼마 되지 않은 탓에 기술적으로 아직 완벽하지 않고 지금도 발전해가는 과정이지만, 그 용도는 벌써부터 무궁무진하게 활용되고 있습니다. 아마도 이 흐름을 가만히 살펴본다면, 근시일내에 이 기술이 우리 사회를 어떻게 바꾸어 가는지 살펴 볼 수 있을 것입니다.

0 comments:

댓글 쓰기

Powered by Blogger.

Popular Posts