[전문가 칼럼] 김윤호 전문위원의 금융칼럼-

어떤 지도자나 리더 없이도 효율적으로 조직을 운영하는

무리를 ‘스마트 스웜(the smart swarm)’

 

 

가장 단순한 방법으로 세상을 뒤바꾼 가장 영리한 집단, 스마트 스웜

 

 

 


새떼가 날아올라 헤엄치듯 하늘을 비행하고 있다. 과학자들은 새들이 주변 6~7마리의 움직임을 추적함으로써 서로 부딪히지

않고 날 수 있음을 밝혀냈다. 6~7마리씩 연쇄적으로 네트워크가 이뤄지는 것이다. 새떼가 보여준 지능은 영화제작에 먼저

응용됐다. 인간종족과 악의 군사 수십만이 전투를 하는 영화 <반지의 제왕2-두개의 탑>의 마지막 장면은 새떼의 비행방식을

활용, 엑스트라의 투입없이 시뮬레이션으로 만들었다. | 경향신문 자료사진

 

 

집단이 지혜를 모을 때 실수는 상쇄되고,
최상의 해답이 떠오른다!

인간 조직과 곤충 집단의 행동에 대한 예리한 분석과 심도 깊은 연구를 통해 효율적인 조직운영의 원리를 명쾌하게 밝힌다!

단순한 자연의 원리 속에 숨겨진 가장 전략적인 문제 해결의 원칙을 과학적으로 규명한 혁신적 저서!



2009년 예일대학교는 전몰장병기념일에 국무장관 힐러리 클린턴을 포함한 9명에게 명예박사학위를 수여했다. 학위 수여식에서

힐러리 클린턴은 가장 마지막 순서였다. 마침내 그녀의 이름이 불리자 청중들은 박수를 치기 시작했고, 그중 한 무리의 학생들이

일어서서 기립박수를 치기 시작하자 기립박수의 물결은 꼬리에 꼬리를 물고 청중 전체로 퍼져나갔다. 결국 힐러리 클린턴은 그날

학위 수여식에서 청중 전체의 기립박수를 받은 유일한 사람이 되었다. 학위 수여식에서 힐러리 클린턴이 청중 전체에게 받은

기립박수는 전염성 있는 행동이 수많은 개인들의 사이에서 어떤 메커니즘을 거쳐 진행되는지를 보여주는 사례였다. 같은 원리로,

실제로 재미있었다고 생각한 사람이 거의 없는 공연에서도 사람들은 일어서서 박수를 치기도 하고, 정말 훌륭한 공연이 아무런

박수 갈채 없이 끝나기도 한다.


이처럼 연쇄적인 신호나 행동을 통해 서로에게 영향을 미치는 행동 패턴은 곤충에게서도 발견된다. 개미나, 벌 떼, 새의 무리와

같은 대규모의 집단은 어떤 지휘나 감독 체계 없이도 각각의 개체가 단순한 규칙에 따라 주고받는 상호작용만으로도 복잡하고

어려운 문제를 해결해나간다. 이 책은 이처럼 어떤 지도자나 리더 없이도 효율적으로 조직을 운영하는 무리를 ‘스마트

스웜(the smart swarm)’이라 이름 붙이고, 치밀하고 섬세한 진화의 과정을 통해 발전한 영리한 무리의 행동 원리

속에 인간의 직관을 뛰어넘는 창조와 혁신의 패러다임을 발견하고 있다.


실제로 먹이를 운반하는 개미 무리의 행동은 유통과 물류의 혁신을 가져왔고, 벌 떼의 의사결정 과정은 전문가보다 탁월한

비전문가 집단의 놀라운 통찰력을 입증했으며, 흰개미는 웹 2.0으로 대표되는 정보 공동체의 핵심 원리를 제공했다! 저자는 자기

조직화, 지식의 다양성, 간접 협동, 적응 모방이라는 네 가지 원리로 영리한 무리의 행동패턴을 정리함으로써 집단지능의 과학적

원리를 밝히고 있다. 이것은 웹 2.0을 기반으로 한 위키피디아, 유튜브 그리고 최근 부각되고 있는 소셜네트워크 현상에 대한

과학적 원리와도 일맥상통한다. 지금까지 대중의 협력을 기반으로 한 집단지능을 강조하는 비즈니즈 모델은 그 성공에 대한

사례 분석만이 있었을 뿐 그 과학적 원리에 대한 설명이 없었다. 그런 의미에서 이 책은 돈 탭스코트가 지적했듯이 “자연

자체에 존재하는 역동적이고 복잡한 협력 체계로부터 우리가 무엇을 배울 수 있으며” 또한 “자연은 복잡계 이론을

현실에 적용하는 일에 어떤 도움을 줄 수 있을지” 명쾌하게 설명하고 있다.



책임자는 필요없다 _ 자기 조직화

자기조직화는 원래 모래언덕의 물결 무늬나 특정한 화학 반응물질들이 결합될 때 나타나는 현란한 나선 무늬처럼 자연계에서

자발적으로 패턴이 생기는 것을 뜻하는 것으로, 생물학자들이 이 용어를 차용하여 말벌집의 복잡한 구조나 벌과 새와 물고기

무리가 본능적으로 서로 행동을 조정하는 방식을 설명하고 있다. 이 자기 조직화의 원리를 가장 잘 보여주는 것이 바로 개미다.

개미는 단순히 더듬이를 접촉하는 행동만으로도 그날 먹이를 구하러 나가야 할지, 어디에 먹이가 있는지를 정확하게 파악할

수 있다. 또한 지나다니는 길마다 페로몬 자취를 남기고, 뒤따르는 개미들은 페로몬 향이 더 강한 길, 즉 앞서 더 많은 개미들이

지나간 길을 선택함으로써 사물을 옮기는 가장 효율적인 방법을 발전시켰다. 개미의 이런 행동패턴은 기업을 복잡한 업무를

 최적화하는 데 도움을 주고 있다.


대표적으로 미국 전역의 1만 5천이 넘는 고객에게 산소, 액화 질소 등 다양한 종류의 가스를 판매하는 아메리칸에어리퀴드는

요동치는 에너지 가격과 수시로 변하는 생산비, 다양한 수송 방식, 불확실한 고객의 요구라는 복잡한 조건 속에서 가장 효율적인

방법으로 가스를 생산하고 운송할 수 있는 방법을 찾기 위해 고민하고 있었다. 이 회사의 문제를 해결한 것은 탁월한 리더십도,

위대한 경영 철학도, 복잡한 수식도 아니었다. 그것은 개미의 행동 원리를 모방하여 만든 프로그램이었다.


오늘날 많은 기업들, 그리고 수많은 정책 결정자들과 개인들은 에어리퀴드가 그랬듯이 예측할 수 없는 복잡한 상황에 처해 있고

끊임없이 변화하는 새로운 환경에 대처할 방법을 찾고 있다. 그런 맥락에서 문제를 해결하기 위해 많은 개체들에게 해결과제를

분산시키고 빠르게 변하는 환경에 적응하며 본능적으로 자기조직화를 하는 개미 군체의 영리한 행동 방식은 전통적인

위계조직이 한계를 드러내고 있는 현재의 경제 상황에서 조직을 운영하는 기업에 시사하는 바가 크다.



전문가에게 묻지 말고, 대중에게 물어라 _ 지식의 다양성

2005년 1월, 미국의 전자제품 유통업체인 베스트바이의 부회장은 수백 명의 직원들에게 2월의 선물 카드 판매량을 예측해보라는

메일을 보냈다. 한 달 후 답장을 보낸 192명의 답의 평균값을 실제 2월의 판매량과 비교해보니 그 정확도는 놀랍게도 99.5%에

달했다. 판매량 예측을 담당했던 부서가 내놓은 답보다 거의 5%나 더 높은 수치였다. 이처럼 한두 명의 전문가가 아니라 다수의

대중의 의견을 구하는 것은 꿀벌이 새로운 집을 지을 위치를 정하는 원리와 정확하게 일치한다.


초여름 개체수가 늘어나 새로운 집을 구하는 벌의 무리에서 적당한 장소를 찾기 위해 주위를 탐사하러 나간 정찰벌은 한 마리씩

돌아와서 서로 다른 장소를 추천하며 꼬리춤을 춘다. 모든 정찰벌들이 모든 장소를 가본 후 협의하는 과정을 거치지 않는다.

벌들이 의사결정을 하는 과정은 주식시장과 더 흡사하다. 주식시장에서는 집단의 전체적인 판단에 따라 주가가 오르내린다. 다른

정찰벌의 춤을 지켜보는 정찰벌은 주식 거래자들처럼 설득당해서 광고되는 후보지를 직접 조사하러 나설 수도 있다. 보고 나서

마음에 든다면 춤을 춤으로써 그곳에 찬성표를 던질 수도 있다. 합류하는 꿀벌이 많아질수록 그곳이 선택될 가능성은 높아진다.

정찰벌이 오고가며 결정을 내리는 방식은 아주 난삽해 보인다. 하지만 그런 방식으로 벌들은 최상의 후보지를 결정한다. 이와

동일한 원리로 보잉사는 일반적으로 9~15개월이 걸리던 비행작동검사의 기간을 절반으로 단축하여 수십억 달러의 위약금을

물어야 하는 위기를 넘길 수 있었다.


모든 사람이 같은 식으로 문제를 본다면, 모두 같은 해답에 집착할 가능성이 높다. 하지만 서로 다른 문제 해결 기술을

지닌 사람들이 머리를 하나로 모으면, 가장 영리한 개인들로 이루어진 집단을 능가할 수 있다. 즉 다양성은 능력을 낳는다고 할 수 있다. 지식의 다양성을 추구하라! 생각들의 우호적인 경쟁을 장려하라! 생각의 범위를 좁히는 효과적인

메커니즘을 이용하라! 이것이 바로 벌의 집 구하기 과정에서 얻는 교훈이다.



집단의 정보를 공유함으로써 문제 해결을 위한 새로운 가능성을 모색한다 _ 간접 협동

2003년 8월 14일, 미국 오하이오 주에서 주송전선 하나에 합선이 일어나 전력 공급이 끊겼다. 언제나 흔히 일어날 수 있는

일이었고, 단순히 전력을 우회 공급함으로써 쉽게 해결될 수 있는 문제였다. 하지만 우연치 않게 근처 화력발전소도 시설

유지 보수를 위해 멈춘 상태였고 그날따라 뜨거운 날씨로 전력 사용량이 급증하면서 전력 공급 체계는 불안할 정도로

취약해졌다. 급기야 오하이오 주에서 주송전선에서 전력 공급이 끊기자 복잡하게 연결된 북아메리카의 전력망은 연쇄적으로

전력 공급이 중단되기에 이르렀다. 이로 인해 미국 8개주와 캐나다 2개주의 발전소 500곳 이상이 가동을 멈추었고, 북아메리카

역사상 최악의 정전 사태가 벌어졌다. 이는 네트워크 과학자들의 말하는 이른바 캐스케이드cascade의 대표적인 사례이다.

캐스캐이드란 산불을 일으키는 불꽃이나 주식시장의 붕괴를 촉발하는 뉴스 같은 초기 사건이 다른 사건들을 일어나기 더 쉽게

만들며, 그 사건들은 또 다른 사건들을 더 일어나기 쉽게 만드는 식으로 계 전체로 반응이 확산되는 것을 말한다.


영리한 무리는 인간이 미처 예방하지 못한 캐스케이드 효과를 피하는 특수한 행동을 진화시켰다. 예를 들어

나미비아의 흰개미는 건조한 환경에서 습도를 유지하기 위해 엄청난 규모와 놀랄 만큼 견고한 정교한 구조를 가진

둔덕을 만든다. 이 작은 개미가 이토록 정교한 둔덕을 만들 수 있는 것은 흰개미들이 직접 상호작용을 하는 대신

둔덕의 구조와 상호작용을 하기 때문이다. 다시 말해 흰개미는 자신들이 살아갈 융통성 있고 영리한 구조를

만듦으로써 수많은 개체들이 효율적으로 협력할 수 있도록 하는 것이다. 발전 회사들이 오랜 세월에 걸쳐 구축한

전력망이나 개인과 민간기업이 함께 만든 월드와이드 웹도 바로 같은 맥락으로 생각할 수 있다.



민첩한 생각 전달 과정으로 행동을 조율한다 _ 적응 모방

2002년 개봉된 <반지의 제왕_ 두 개의 탑>의 마지막 전투장면은 일반적인 군중장면의 제작기법과는 전혀 다른 방식으로

촬영되었다. 이 장면에서 활력 넘치는 집단의 행동을 만들어내기 위해 스티븐 리걸로스는 새와 사람의 무리를 비롯하여

자연에서 유사한 집단들을 연구했다. 하늘을 나는 찌르레기나 기차역에 모인 사람들처럼 인물들이 서로 상호작용을 하도록

군중을 모형화한 것이다.
찌르레기는 집단 비행을 할 때, 가장 가까운 이웃 6~7마리의 행동을 추적함으로써 자신의 행동을 조정한다. 이것이 바로 영리한

무리의 네 번째 원리인 적응 모방이다. 이는 한 집단의 개체들이 자신이 어디로 가고 있는지 자신이 뭘 아는지에 관한 신호를

포착하면서 서로에게 세심하게 주의를 기울이는 방식을 뜻한다. 그들이 그런 신호에 어떻게 반응하는가가 집단 전체의 행동을

빚어낸다. 그런 개체들이 따르는 특정한 경험 법칙들은 여전히 과학자들을 당혹하게 하지만 변덕스러운 열광, 유행, 금융

시장에서의 쏠림현상 같은 인간의 집단행동의 원리를 규명할 수 있다.

하지만 영리한 무리의 행동원리가 반드시 현명하고 올바른 결정으로 인도하는 것만은 아니다. 때로 군중은 최악의

재난을 일으키기도 한다. 사막 메뚜기 집단이 갑자기 대륙 전체를 초토화시키듯이 군중은 얼마든지 어리석은 행동을

할 수도 있다. 집단의 힘을 다스려 쓸 만한 정보를 솎아내고 문제를 해결하는 대신, 혼돈의 에너지를 분출할 때 군중은

대규모 압사 사고를 일으키기도 하고, 2009년 아이슬란드의 금융 붕괴와 같은 엉뚱한 의사결정을 하기도 한다. 이

책은 분명 이와 같은 군중의 어두운 면까지도 정확하게 지적하고 있다.

점점 더 복잡해지는 현대사회에서 우리는 더욱 복잡한 환경을 염두에 두고 결정을 해야 하는 상황에 처할 수밖에 없다. 그런

복잡한 상황에서 우리가 어떻게 하면 가장 효율적으로 문제를 해결해나가고 조직을 운영해나갈 수 있을까? 이 해답을 자연에서

찾은 전문가, 영리한 무리에게서 찾을 수 있을 것이다.



피터 밀러
캘리포니아 대학에서 박사학위 취득. 1992년부터 《내셔널 지오그래픽》의 선임편집자로 활동하며 전 세계에 걸쳐 생생한 자연과

인류의 모습을 취재하고 기록했다. 영장류학자인 제인 구달과 다이앤 포시, 설치 미술가 마크 젠킨스, 마틴 스미스와 윌리엄

힛문 등의 작가와 존 글렌, 에드먼드 힐러리 등의 탐험가들과 함께 집필 활동을 해왔으며, 내셔널지오그래픽 텔레비전의 작가로

활동하기도 했다. 이 책에서 리더나 지휘자 없이도 효율적으로 조직을 운영하는 무리를 ‘스마트 스웜’이라 이름 붙이고, 이들의

행동 패턴을 통해 21세기 사회의 키워드인 집단지능의 과학적 토대를 대중적으로 설명해냄으로써 협동의 과학을 창시했다는

평가를 받고 있다.

옮긴이 이한음
서울대 생물학과를 졸업했다. 1996년 실험실을 배경으로 한 과학소설 《해부의 목적》으로 《경향신문》 신춘문예에 당선되었고,

전문적인 과학 지식과 인문적 사유가 조화된 번역으로 우리나라를 대표하는 과학 전문 번역자로 인정받고 있다. 리처드 도킨스,

에드워드 윌슨, 리처트 포티, 제임스 왓슨 등 저명한 과학자의 대표작이 그의 손을 거쳐갔다. 현재 과학 전문 저술가로 활동하며

과학의 현재적 흐름을 대중에게 생동감 있게 전달하고 있다. 저서로는 《신이 되고 싶은 컴퓨터》 《DNA, 더블댄스에 빠지다》가

있으며, 옮긴 책으로는 《복제양 돌리》 《인간 본성에 대하여》 《쫓기는 동물들의 생애》 《핀치의 부리》 《DNA : 생명의 비밀》 《펄 벅 평전》 《악마의 사도》 《살아있는 지구의 역사》 《조상 이야기》 《굿바이 프로이트》 《와일드 하모니》 《생명 : 40억

년의 비밀》 《셜록 홈스의 과학》 등이 있다. 《만들어진 신》으로 한국출판문화상 번역 부문을 수상했다.

[전문가 칼럼] 김윤호 전문위원의 금융칼럼 -

 

트위터 네트워크의 ‘연결요소’ 분석해 투자 시뮬레이션

 

 

양대 소셜네트워킹서비스(SNS)의 회원이 총 13억 명을 돌파했다. 페이스북(Facebook) 가입자는 최근 8억 명을 넘어섰고

트위터(Twitter)는 5억 이상의 회원을 확보했다. 이들이 하루에 올리는 게시물의 수는 일일이 헤아리기 어려울 정도다.

 

SNS 메시지를 분석해 동향을 알아내는 분석도 각광을 받고 있다.

각국에서 오가는 수십에서 수백만 건의 자료를 분석하는 ‘빅데이터

(Big Data) 기법’과 여러 정보 간의 상관성을 조사해 숨겨진 의미를

찾아내는 ‘’데이터 마이닝(Data Mining) 기법’이 대표적이다. 최근에는

트위터 메시지를 전산학적으로 분석해 사용자의 감정까지 알아내는

 새로운 분석법까지 등장하는 추세다. 지난달에는 트위터를 분석해

다음날의 주가와 거래량까지 예측하는 기술까지 등장했다.미국

캘리포니아대학교 리버사이드 캠퍼스의 컴퓨터공학과는 지난달

미국컴퓨터협회(ACM) 주최로 시애틀에서 열린 ‘제5회 웹검색 및

데이터 마이닝 국제컨퍼런스(WSDM)’에서 ‘SNS 활동과 관련된 금융

시계열 분석(Correlating Financial Time Series with Micro-Blogging Activity)‘

이라는 논문을 발표했다.특정 기업에 대해 언급한 SNS 메시지를 수집해서

실제 주식시장 변동과 비교했더니 유의미한 결과를 얻었다는 것이다. 4개월

동안 컴퓨터 시뮬레이션으로 식을 사고 팔았더니 평균 손실률보다 훨씬 나은

성과를 기록했다.


▲ 지난달 미국 캘리포니아대 연구진이 SNS 메시지를

분석해 주가와 거래량을 예측하는 데 성공했다고 발표했다.

 ⓒImageToday

트위터 네트워크의 ‘연결요소’ 분석해 투자 시뮬레이션

연구에는 바겔리스 리스티디스(Vagelis Hristidis) 교수뿐만 아니라 야후 바르셀로나 연구센터(YRB)의 연구자 3명이 참여했다.

이들은 데이터 마이닝 기법을 이용해 트윗(tweet)이라 불리는 트위터 메시지를 연구해왔다.

이번 실험에서는 트윗의 변화와 주식시장의 변동성 간에 연관이 있을 것이라는 가설 하에 분석을 진행했다. 트위터 사용자들이

특정 기업에 대한 언급을 많이 한다면 주식을 구매할 가능성이 높다고 봤기 때문이다. 또한 요즘은 시장 관련 소식이 트위터를

통해 가장 먼저 공개되므로 핵심정보를 미리 얻어낼 수도 있다고 보았다.



연구진은 미국 신용평가회사 스탠다드앤푸어스가 집계하는 종합주가지수 ‘S&P 500’의 2010년 상반기 자료 중에서 무작위로

150개 기업을 선정하고 매일의 폐장시 주가와 당일 거래량을 조사했다.

또한 특정 기업과 연관된 트윗만을 골라내는 필터링 프로그램도 개발했다. 예를 들어 애플사에 대한 트윗이 갑자기 늘어나는

것은 실제로 변동사항이 생겼거나 향후 주식 매입이나 매도에 영향을 끼칠 가능성이 높다는 의미다.


연구 초반에는 트윗의 숫자가 많을수록, 다시 말해 특정 기업에 대한 언급이 증가하거나 다른 사용자들이 이를 퍼뜨리기

시작하면 단순히 주식 거래량이 늘어날 것으로 예상했다. 그런데 분석을 시작하자 의외의 결과가 나타나기 시작했다.

거래량뿐만 아니라 주가까지도 예측이 가능했던 것이다.

논문은 ‘연결요소(connected components)’라는 개념을 이용해 트위터와 주식시장의 상관성을 설명하고 있다. 새로운 CEO,

새로 출시된 상품, 최근의 재무보고서 등 특정 기업의 변화를 언급하는 트윗들은 나름의 네트워크를 구축하며 여기저기로

퍼져나간다는 것이다.



특정 트윗이 여러 사용자에게 퍼져 나가는 방법은 여러 가지가 있다. 특정 사용자가 많은 팔로워(follower)를 거느리면 트윗을

읽는 사람도 그만큼 늘어나 영향력이 커진다. 다른 사용자가 리트윗(retweet) 기능을 이용해 또 다른 네트워크로 퍼뜨리기도

하고, 멘션(mention) 기능을 통해 답변과 논의를 주고받기도 한다.

또한 특별한 목록으로 구분하는 해시태그(hashtag)를 붙여 관련 트윗을 한자리에 모으기도 하고, 메시지에 별도의

웹주소(URL)을 부여해 트위터 이외의 SNS 서비스로 이동시키기도 한다.



다우존스 산업평균지수보다 높은 이익 얻어내

연구진은 트위터의 특성과 네트워크를 고려한 분석기법을 개발해 모의 주식투자를 진행하기도 했다. 해당 기업에 대해

2010년 3월 1일부터 6월 30일까지 4개월 동안 가상으로 매입하고 매도하는 시뮬레이션 프로그램을 적용시킨 것이다.

트위터의 데이터를 이용한 투자 시뮬레이션과 더불어 회귀분석 모델, 무작위 모델, 고정 모델 등도 대조군으로 사용했다.

 

 

회귀분석 모델은 지난 몇 일 동안의 주가 변동을 기반으로 매일 주식을

매입하는 방식으로, 시뮬레이션 결과 4개월 동안의 투자 손실률은 8.9~13.1

퍼센트에 달했다.무작위 모델은 매일 아무 주식이나 골라 매입했다가 폐장 전에

매도하고 다음날 다시 매입과 매도를 반복하는 방식이며 4개월 동안 평균 손실은

5.5퍼센트 정도였다. 고정모델은 시가 총액, 회사 규모, 총부채 등을 최상으로

조합해 주식을 매입하고 시뮬레이션 기간 내내 보유하고 있는 방식이다. 이

방식의 평균 손실은 3.8퍼센트였다.그런데 트위터의 데이터를 이용하는 분석법

으로 모델을 개발해 시뮬레이션에 적용하자 평균 손실률이 2.4퍼센트에 불과해

가장 낮은 수치를 기록했다. 이 기간의 다우존스 산업평균지수(DJIA)는 4.2퍼센트

가량 추락했으니 보통 수준을 뛰어넘는 이익을 낸 셈이다.논문은 투자의 비법으로 ‘연결요소의 선정과 분석’을 꼽았다. 트위터 상에서 특정 메시지와 높은 연관성을

지닌 트윗을 찾아내어 이를 추적해 전체 네트워크 구성을 밝혀내야 한다는 것이다. 연결요소가 많아질수록 거래량이 많아지고 주가가 변화하는 등 상호작용 정도가

강해졌다.
▲ 연구진이 분석한 트위터 메시지의 연결구조.

빨간색은 트위터 메시지, 초록색은 사용자,

파란색은 웹주소이며 유사성이 높은 노드끼리는

검은 선으로 이어져 있다. ⓒWSDM 2012

 


물론 이 방법에도 허점은 있다. 연구를 이끈 리스티디스 교수는 캘리포니아대 발표자료를 통해 “트위터를 이용한 투자 전략은

다우존스가 하강한 기간에만 들어맞았고 다우존스가 상승하는 기간에는 큰 성과를 내지 못했다”고 밝혔다. 또한 단기간 예측

에서는 정확도가 떨어진다. 연구진의 모델이 다우존스 산업평균지수 이상의 이익을 내기 시작한 것은 시뮬레이션을 시작한지

한 달이 지나서였다.

그럼에도 이번 논문은 새로운 영역을 개척했다는 점에서 뜨거운 관심을 받고 있다. 지금까지 트위터를 이용한 주식시장 예측

시도는 트윗에 담긴 사용자의 감정을 긍정과 부정으로 나누어 전체 거래량을 예상하는 방향으로만 진행되어 왔다.

그러나 이번 연구는 단순한 트윗 숫자뿐만 아니라 트윗 간의 네트워크 관계를 밝혀 개별 주식의 거래와 등락을 예측했다는

점에서 높은 평가를 이끌어내고 있다.

 

 

임동욱 객원기자 | im.dong.uk@gmail.com

저작권자 2012.03.30 ⓒ ScienceTimes

 

 

[전문가 칼럼] 김윤호 전문위원의 금융칼럼-

빅 데이터 처리의 일반적 사용은 사람 혹은 애플리케이션의

구조화된 입력으로 사용하기 위해

 

가변성(Variety)

데이터는 좀처럼 완벽히 정렬되고 처리를 위해 준비돼 나타나지 않는다. 빅 데이터 시스템의 흔한 주제는 소스 데이터가

다양하고, 관계형 구조에 깔끔히 맞아 들어가지 않는다는 것이다. 이것은 소셜 네트워크의 텍스트, 이미지 데이터, 센서

소스의 직접적 원자료일 수 있다. 이러한 것 중 어떤 것도 애플리케이션에 통합될 준비가 돼 오진 않는다.

어느 정도 보장된 컴퓨터 간 통신인 웹에서도 데이터의 실체는 엉망이다. 다른 브라우저가 서로 다른 데이터를 보내고,

사용자는 정보를 주지 않으며 서로 다른 소프트웨어 버전이나 업체(vendor)를 사용할지도 모른다. 그리고 처리 과정

일부가 사람을 포함한다면, 분명 에러와 불일치가 있을 것이다.

빅 데이터 처리의 일반적 사용은 사람 혹은 애플리케이션의 구조화된 입력으로 사용하기 위해 구조화되지 않은 데이터를

받아서 정렬된 의미를 추출하는 것이다. 한 예는 어떤 이름이 정확히 무엇을 참조하는지 결정하는 과정인 개체 분석

(entity resolution)이다. 이 도시가 영국 런던인가, 텍사스 런던인가? 비즈니스 로직이 이런 문제에 도달했을 때, 단순히

추측하고 싶진 않을 것이다.

소스 데이터에서 처리된 애플리케이션 데이터로 이동 과정은 정보 손실을 포함한다. 당신이 깔끔하게 정리할 때, 결국 어떤

것을 버릴 수밖에 없다. 이것은 빅 데이터 원칙을 강조한다. 가능하면, 모든 것을 유지하라. 버리는 약간의 정보에 유용한

신호가 있을 수 있다. 소스 데이터를 잃는다면, 돌아갈 길은 없다.

대중성과 잘 이해된 특징에도, 데이터가 깔끔히 정리됐을 때라도 그 종점이 반드시 관계형 데이터야 하는 것은 아니다.

어떤 데이터 타입은 어떤 계열의 데이터베이스에 더 잘 맞는다. 예를 들면, XML로 인코딩된 문서는 MarkLogic처럼 XML 전용

저장소에 저장할 때 가장 융통성 있게 사용할 수 있다. 소셜 네트워크 관계는 본래 그래프며, Neo4J 같은 그래프

데이터베이스가 그래프에 더 단순하고 효과적으로 작업한다

극단적 데이터 타입 부조화(mismatch)가 아닌 곳에서도 관계형 데이터베이스의 단점은 스키마의 정적 특성이다. 시험적

환경인 애자일에서도 계산 결과는 더 많은 신호 탐지와 추출과 함께 변화한다. 부분적으로 구조화된 NoSQL 데이터베이스는

유연성 면에서 이 요구를 만족한다. NoSQL은 데이터 구성에 충분한 구조를 제공하지만, 저장 이전 데이터의 정확한 스키마를

요구하지 않는다.

실제

우리는 빅 데이터의 특성을 살펴봤고, 높은 차원에서 빅 데이터의 세계를 조사했다. 대개 구현 단계에 들어서면, 위의 툴 선택을

넘어서는 고려할 차원이 있다.

클라우드 혹은 기업 내에서?(Cloud or in-house?)

이제 빅 데이터 솔루션 대다수는 세 가지 형태로 제공되는데, 이것들은 오직 소프트웨어만, 응용 혹은 클라우드 기반이다.

어떤 길을 택할지 결정은 데이터 지역성(locality), 프라이버시와 규제(regulation), 인력, 그리고 프로젝트 요구사항 등 다른

것에 의존한다. 많은 기관이 기업 내 구현을 보충하기 위해, 필요할 때(on-demand) 클라우드 자원을 사용하는 등 하이브리드

솔루션을 선택한다.

빅 데이터는 크다(Big data is big)

너무 커서 전통적으로 처리할 수 없는 데이터가 다른 곳으로 이동하기에도 너무 크다는 것은 근본적인 사실이다. IT는

우선순위의 뒤바뀜(inversion)을 겪고 있다. 이동할 필요가 있는 것은 데이터가 아니라 프로그램이다. 미국 인구 조사국

데이터를 분석하고 싶다면, 코드를 그러한 데이터를 가까이에 관리하는 아마존의 웹 서비스 플랫폼에서 실행하는 편이

훨씬 쉽고, 데이터를 전송하는 시간과 돈이 들지 않을 것이다.

데이터가 이동하기에 아주 크지 않더라도 특히 신속히 업데이트되는 데이터를 가지면 집약성(locality)이 여전히 이슈가

될 수 있다. 금융 트레이딩 시스템은 소스 데이터에 가장 빠른 연결을 위해 데이터 센터에 들어가는데, 1밀리 초의 처리

시차를 경쟁우위와 동일시하기 때문이다.

 

 

 

 

[전문가 칼럼 ] 김윤호 전문위원의 금융 칼럼-

빅 데이터의 가치의 성공적 이용은 실험과 탐구가 필요하다.

 

저자 : Edd Dumbill
역자 : 한순보
원문 : What is big data?

빅 데이터는 전통적인 데이터베이스 시스템 처리 용량을 넘어서는 데이터다. 빅 데이터는 아주 크고, 매우 빨리 변하며,

기존 데이터베이스 아키텍처의 구조에 맞지 않는다. 이 데이터에서 가치를 얻으려면, 그것을 처리할 다른 방법을 택해야 한다.

2012년 인기 있는 IT 유행어(buzzword)인 빅 데이터는 가능한 것(viable)이 되었는데, 이는 비용 대비 효율 높은 접근 방법이

나타나 대량 데이터의 부피, 속도, 그리고 가변성을 잘 다루었기 때문이다. 빅 데이터 안에는 이전에는 데이터에서의 추출에

필요한 작업량 때문에 숨어 있던 가치 있는 패턴 및 정보가 존재한다. 월마트나 구글 같은 선도기업에는 얼마 전부터 이러한

능력이 있었지만, 엄청난 비용이 들었다. 오늘날의 일반적인 하드웨어, 클라우드 아키텍처와 오픈 소스 소프트웨어는 리소스가

다소 부족한 회사도 빅 데이터 처리를 고려할 수 있게 했다. 빅 데이터 처리는 클라우드에서 값싸게 서버 시간을 빌릴 수 있는

차고(garage)에서 시작하는 작은 스타트업 회사에서도 충분히 가능한 일이다.

한 기관에 빅 데이터의 가치는 분석적 사용과 신제품 조력(enabling)의 두 범주로 나뉜다. 빅 데이터 분석은 쇼핑객의 거래

내용과 사회적, 지리적 데이터를 분석하여 드러나는 고객 간 또래 영향력(peer influence)과 같이, 처리에 비용이 너무 많이

드는 데이터 때문에 이전에는 숨어있던 통찰력을 제공한다. 합리적 시간 내에 모든 데이터 항목을 처리하는 것은 표본 추출이(sampling)라는 골칫거리의 필요성을 제거하고, 미리 정해진 보고서(report)를 게재하는 다소 정적인 특징과 달리 데이터를

조사하는 접근방법을 돕는다.

지난 10년간 성공한 웹 스타트업은 빅 데이터를 새로운 제품과 서비스를 가능하게 한 도구로써 이용한 주요한 예다. 예를 들면,

페이스북은 사용자와 친구의 행동에서 많은 신호를 결합해 상당히 개인화된 사용자 경험을 정성껏 제공하고, 사업 광고의

새로운 방법을 만들 수 있었다. 빅 데이터를 뒷받침하는 아이디어와 도구의 핵심이 구글, 야후, 아마존과 페이스북서 나온 것은

우연이 아니다.

산업에서 빅 데이터가 떠오르는 것은 필연적 상대(counterpart)를 가져온다. 민첩함(agility). 빅 데이터의 가치의 성공적 이용은

실험과 탐구가 필요하다. 새로운 제품을 만들든지 경쟁력 있는 장점을 얻는 방법을 찾든지 이 작업은 호기심과 기업가 세계관을

요구한다. 



빅 데이터는 어떻게 생겼는가?

"클라우드"가 다양한 기술을 포함한 용어인 것처럼, 포괄적 용어 "빅 데이터"는 아주 모호할 수 있다. 빅 데이터 시스템의

입력 데이터는 소셜 네트워크, 웹 서버 로그, 차량 흐름 센서, 인공위성 이미지, 방송 음성 스트림, 은행 거래 내역, 락 음악

MP3, 웹 페이지 콘텐츠, 정부 스캔 문서, GPS 경로 기록, 자동차 원격 측정치, 금융 시장 데이터로부터 쏟아질 수 있고,

이 목록은 끝이 없다. 이들이 정말 모두 같은가?

문제를 명확히 하기 위해, 부피(volume), 속도(velocity), 가변성(variability), V로 시작하는 세 가지가 빅 데이터의 각각 다른

면을 특징짓는데 흔히 사용된다. 이것은 데이터의 특성과 데이터 이용을 가능하게 하는 소프트웨어 플랫폼을 살펴보고

이해하는 것을 도와주는 렌즈이다. 십중팔구 당신은 어느 정도는 이것들과 씨름하게 될 것이다.

부피(Volume)

많은 양의 정보를 처리하는 능력에서 얻는 이익이 빅 데이터 분석의 주요 매력이다. 더 많은 데이터를 갖는 것이 더 나은

모델을 갖는 것보다 낫다. 많은 양의 데이터에 간단한 산수를 적용하는 것이 생각보다 훨씬 효과적일 수 있다. 6가지 요소를

고려하는 것보다 300가지를 고려해 예측한다면 수요를 더 잘 예측할 수 있을까?

부피는 전통적 IT 구조에 가장 직접적 도전이다. 부피는 확장 가능한 저장 공간과 질의에 대한 분산 접근 방식을 요구한다.

많은 회사가 이미 대량의 로그 형태로 보관 데이터를 가지고 있지만, 그것을 처리할 능력은 없다.

데이터 부피가 전통적 관계형 데이터베이스 인프라가 다룰 수 있는 것보다 크다면, 처리 옵션은 크게 Greenplum 같은

데이터웨어하우스(data warehouse) 혹은 데이터베이스의 대량 병렬 처리 아키텍처와 아파치 하둡 기반의 솔루션으로 나뉜다.

보통 다른 V요소 중 하나인 가변(variety)이 작동하는 정도에 의해 선택이 정해진다. 일반적으로, 데이터웨어하우스 접근 방식은

미리 정해진 스키마를 포함하고, 규칙적이고 느리게 변하는 데이터 세트에 적합하다. 반면 아파치 하둡은 처리하는 데이터

구조에 조건이 없다.

하둡의 핵심은 다수 서버에 걸친 분산 컴퓨팅 문제를 위한 플랫폼이라는 점이다. 하둡은 야후가 처음 개발 배포했는데, 이는

검색 인덱스를 컴파일하는 데 구글이 개척한 MapReduce 접근 방식을 구현한다. 하둡의 MapReduce는 여러 서버 간 데이터

세트를 분산하는 것과 데이터에 작업하는 것을 포함한다("map" 단계). 그리고 부분 결과를 다시 결합한다("reduce" 단계).

데이터를 저장하기 위해 하둡은 고유의 분산 파일시스템인 HDFS를 이용하는데, 이것은 다수의 컴퓨팅 노드에서 데이터를

이용할 수 있게 한다. 일반적인 하둡 이용 패턴은 세 단계를 포함한다.

  • HDFS에 데이터를 로드

  • MapReduce 작업, 그리고

  • HDFS에서 결과 추출

이 과정은 본래 분석적이거나 혹은 인터랙티브하지 않은(non-interactive) 컴퓨팅 작업에 적합한 배치 작업이다. 이것 때문에,

하둡 자체는 데이터베이스나 데이터웨어하우스 솔루션이 아니지만, 이들의 분석을 도와주는 역할을 할 수 있다.

가장 잘 알려진 하둡 사용자인 페이스북의 모델은 이 패턴을 따른다. MySQL 데이터베이스가 핵심 데이터를 저장한다. 그리고는

친구의 관심에 근거한 사용자 추천을 하는 계산이 이뤄지는 하둡에 반영된다. 페이스북은 결과를 MySQL로 전달하여 페이지에서

사용자에게 이를 제공한다.

(중략 )

 

 

 

빅 데이터는 엉망이다(Big data is messy)

인프라구조에 대한 것만은 아니다. Pete Warden이 그의 빅 데이터 용어집에서 "아마도, 엉망인 소스 데이터를 유용한 것으로

바꾸는데 드는 시간이 데이터 분석 처리를 하는 나머지 시간을 합한 것보다 많이 든다."라고 했듯이, 빅 데이터 전문가는

데이터를 다루는데 80%의 노력이 데이터를 먼저 깔끔하게 하는 것이라고 계속 보고한다. 데이터 수집과 정리의 고비용에 때문에,

스스로 얻기 위해 실제 필요한 것을 고려할 가치가 있다. 데이터 시장은 일반 데이터를 얻는 수단이며, 종종 역으로 개선한 것으로

이바지할 수 있다. 물론 품질은 가변적이지만, 점점 더 데이터 시장이 경쟁해야 할 벤치마크가 될 것이다.

문화(Culture)

빅 데이터 현상은 수학, 프로그래밍, 그리고 과학적 직관을 결합한 지식 분야인 데이터 과학 출현에 밀접히 얽혀있다. 빅 데이터로

이익을 얻는 것은 기술이 있는 팀에 투자하고, 이익을 위해 데이터를 이해하며 사용하기 위해 조직적으로 팀을 곁에 기꺼이 두는 것을 의미한다.

D.J. Patil은 "데이터 과학팀 구성(Building Data Science Teams)" 보고서에서 데이터 과학자를 다음 자질을 가진 것으로 특징지었다.

  • 테크니컬 전문가: 일반적으로 최고의 데이터 과학자는 어떤 과학 분야에 깊은 전문 지식을 가진다.

  • 호기심: 내부에 숨겨진 것을 알려는, 문제를 발견하고, 테스트할 수 있는 매우 명확한 가설 집합으로 만드는 갈망

  • 이야기하기(storytelling): 이야기하기 위해 데이터를 사용하고 효과적으로 전달할 능력

  • 영리함: 창의적 방식으로 문제를 다르게 보는 능력

빅 데이터 분석 프로젝트에 지대한 영향을 가져올 특징은 불편한 측면이 있을 수 있다. 데이터는 캐지기 위해 저장고(silos)에서

벗어나야 하고, 기관은 분석 결과를 전달하고 해석하는 법을 배워야 한다.

이야기하기와 영리함은 분석하는 노력의 이득이 기관에 흡수될지 궁극적으로 좌우하는 관문 요소(gateway factor)다. 데이터

시각화 기술과 실제가 점점 의미 있는 방식으로 분석적 통찰력을 조정하기 위해 인간과 컴퓨터의 틈을 메우는 데 중요해진다.

당신이 가고자 하는 곳을 알아라

마지막으로, 빅 데이터는 만병통치약이 아니다. 당신은 데이터에서 패턴과 단서를 찾을 수 있지만, 그다음에 무엇인가?

북아메리카 지역 IBM의 선행 분석의 리더인 Christer Johnson이 빅 데이터로 시작하는 기업에 충고한다. 우선 무슨 문제를

풀려는지 정하라.

어떻게 광고 전략을 바꿔 고객당 비용을 증가시킬 수 있는가와 같이 실제 비즈니스 문제를 택한다면, 그것이 구현으로 이끌

것이다. 빅 데이터 작업은 기업가 정신에서 이익을 얻지만, 구체적 목표에서도 강력한 이익을 얻는다.

 

 

 

 

 

 

+ Recent posts