[전문가 칼럼] 김윤호 전문위원의 금융칼럼 -

 

트위터 네트워크의 ‘연결요소’ 분석해 투자 시뮬레이션

 

 

양대 소셜네트워킹서비스(SNS)의 회원이 총 13억 명을 돌파했다. 페이스북(Facebook) 가입자는 최근 8억 명을 넘어섰고

트위터(Twitter)는 5억 이상의 회원을 확보했다. 이들이 하루에 올리는 게시물의 수는 일일이 헤아리기 어려울 정도다.

 

SNS 메시지를 분석해 동향을 알아내는 분석도 각광을 받고 있다.

각국에서 오가는 수십에서 수백만 건의 자료를 분석하는 ‘빅데이터

(Big Data) 기법’과 여러 정보 간의 상관성을 조사해 숨겨진 의미를

찾아내는 ‘’데이터 마이닝(Data Mining) 기법’이 대표적이다. 최근에는

트위터 메시지를 전산학적으로 분석해 사용자의 감정까지 알아내는

 새로운 분석법까지 등장하는 추세다. 지난달에는 트위터를 분석해

다음날의 주가와 거래량까지 예측하는 기술까지 등장했다.미국

캘리포니아대학교 리버사이드 캠퍼스의 컴퓨터공학과는 지난달

미국컴퓨터협회(ACM) 주최로 시애틀에서 열린 ‘제5회 웹검색 및

데이터 마이닝 국제컨퍼런스(WSDM)’에서 ‘SNS 활동과 관련된 금융

시계열 분석(Correlating Financial Time Series with Micro-Blogging Activity)‘

이라는 논문을 발표했다.특정 기업에 대해 언급한 SNS 메시지를 수집해서

실제 주식시장 변동과 비교했더니 유의미한 결과를 얻었다는 것이다. 4개월

동안 컴퓨터 시뮬레이션으로 식을 사고 팔았더니 평균 손실률보다 훨씬 나은

성과를 기록했다.


▲ 지난달 미국 캘리포니아대 연구진이 SNS 메시지를

분석해 주가와 거래량을 예측하는 데 성공했다고 발표했다.

 ⓒImageToday

트위터 네트워크의 ‘연결요소’ 분석해 투자 시뮬레이션

연구에는 바겔리스 리스티디스(Vagelis Hristidis) 교수뿐만 아니라 야후 바르셀로나 연구센터(YRB)의 연구자 3명이 참여했다.

이들은 데이터 마이닝 기법을 이용해 트윗(tweet)이라 불리는 트위터 메시지를 연구해왔다.

이번 실험에서는 트윗의 변화와 주식시장의 변동성 간에 연관이 있을 것이라는 가설 하에 분석을 진행했다. 트위터 사용자들이

특정 기업에 대한 언급을 많이 한다면 주식을 구매할 가능성이 높다고 봤기 때문이다. 또한 요즘은 시장 관련 소식이 트위터를

통해 가장 먼저 공개되므로 핵심정보를 미리 얻어낼 수도 있다고 보았다.



연구진은 미국 신용평가회사 스탠다드앤푸어스가 집계하는 종합주가지수 ‘S&P 500’의 2010년 상반기 자료 중에서 무작위로

150개 기업을 선정하고 매일의 폐장시 주가와 당일 거래량을 조사했다.

또한 특정 기업과 연관된 트윗만을 골라내는 필터링 프로그램도 개발했다. 예를 들어 애플사에 대한 트윗이 갑자기 늘어나는

것은 실제로 변동사항이 생겼거나 향후 주식 매입이나 매도에 영향을 끼칠 가능성이 높다는 의미다.


연구 초반에는 트윗의 숫자가 많을수록, 다시 말해 특정 기업에 대한 언급이 증가하거나 다른 사용자들이 이를 퍼뜨리기

시작하면 단순히 주식 거래량이 늘어날 것으로 예상했다. 그런데 분석을 시작하자 의외의 결과가 나타나기 시작했다.

거래량뿐만 아니라 주가까지도 예측이 가능했던 것이다.

논문은 ‘연결요소(connected components)’라는 개념을 이용해 트위터와 주식시장의 상관성을 설명하고 있다. 새로운 CEO,

새로 출시된 상품, 최근의 재무보고서 등 특정 기업의 변화를 언급하는 트윗들은 나름의 네트워크를 구축하며 여기저기로

퍼져나간다는 것이다.



특정 트윗이 여러 사용자에게 퍼져 나가는 방법은 여러 가지가 있다. 특정 사용자가 많은 팔로워(follower)를 거느리면 트윗을

읽는 사람도 그만큼 늘어나 영향력이 커진다. 다른 사용자가 리트윗(retweet) 기능을 이용해 또 다른 네트워크로 퍼뜨리기도

하고, 멘션(mention) 기능을 통해 답변과 논의를 주고받기도 한다.

또한 특별한 목록으로 구분하는 해시태그(hashtag)를 붙여 관련 트윗을 한자리에 모으기도 하고, 메시지에 별도의

웹주소(URL)을 부여해 트위터 이외의 SNS 서비스로 이동시키기도 한다.



다우존스 산업평균지수보다 높은 이익 얻어내

연구진은 트위터의 특성과 네트워크를 고려한 분석기법을 개발해 모의 주식투자를 진행하기도 했다. 해당 기업에 대해

2010년 3월 1일부터 6월 30일까지 4개월 동안 가상으로 매입하고 매도하는 시뮬레이션 프로그램을 적용시킨 것이다.

트위터의 데이터를 이용한 투자 시뮬레이션과 더불어 회귀분석 모델, 무작위 모델, 고정 모델 등도 대조군으로 사용했다.

 

 

회귀분석 모델은 지난 몇 일 동안의 주가 변동을 기반으로 매일 주식을

매입하는 방식으로, 시뮬레이션 결과 4개월 동안의 투자 손실률은 8.9~13.1

퍼센트에 달했다.무작위 모델은 매일 아무 주식이나 골라 매입했다가 폐장 전에

매도하고 다음날 다시 매입과 매도를 반복하는 방식이며 4개월 동안 평균 손실은

5.5퍼센트 정도였다. 고정모델은 시가 총액, 회사 규모, 총부채 등을 최상으로

조합해 주식을 매입하고 시뮬레이션 기간 내내 보유하고 있는 방식이다. 이

방식의 평균 손실은 3.8퍼센트였다.그런데 트위터의 데이터를 이용하는 분석법

으로 모델을 개발해 시뮬레이션에 적용하자 평균 손실률이 2.4퍼센트에 불과해

가장 낮은 수치를 기록했다. 이 기간의 다우존스 산업평균지수(DJIA)는 4.2퍼센트

가량 추락했으니 보통 수준을 뛰어넘는 이익을 낸 셈이다.논문은 투자의 비법으로 ‘연결요소의 선정과 분석’을 꼽았다. 트위터 상에서 특정 메시지와 높은 연관성을

지닌 트윗을 찾아내어 이를 추적해 전체 네트워크 구성을 밝혀내야 한다는 것이다. 연결요소가 많아질수록 거래량이 많아지고 주가가 변화하는 등 상호작용 정도가

강해졌다.
▲ 연구진이 분석한 트위터 메시지의 연결구조.

빨간색은 트위터 메시지, 초록색은 사용자,

파란색은 웹주소이며 유사성이 높은 노드끼리는

검은 선으로 이어져 있다. ⓒWSDM 2012

 


물론 이 방법에도 허점은 있다. 연구를 이끈 리스티디스 교수는 캘리포니아대 발표자료를 통해 “트위터를 이용한 투자 전략은

다우존스가 하강한 기간에만 들어맞았고 다우존스가 상승하는 기간에는 큰 성과를 내지 못했다”고 밝혔다. 또한 단기간 예측

에서는 정확도가 떨어진다. 연구진의 모델이 다우존스 산업평균지수 이상의 이익을 내기 시작한 것은 시뮬레이션을 시작한지

한 달이 지나서였다.

그럼에도 이번 논문은 새로운 영역을 개척했다는 점에서 뜨거운 관심을 받고 있다. 지금까지 트위터를 이용한 주식시장 예측

시도는 트윗에 담긴 사용자의 감정을 긍정과 부정으로 나누어 전체 거래량을 예상하는 방향으로만 진행되어 왔다.

그러나 이번 연구는 단순한 트윗 숫자뿐만 아니라 트윗 간의 네트워크 관계를 밝혀 개별 주식의 거래와 등락을 예측했다는

점에서 높은 평가를 이끌어내고 있다.

 

 

임동욱 객원기자 | im.dong.uk@gmail.com

저작권자 2012.03.30 ⓒ ScienceTimes

 

 

+ Recent posts