데이터 매쉬업(mash-up) 이라는 표현이 있다. 이는 하나의 사건은 여러가지 요인들에 의해 결정되며, 여러 요인들에 대한 고려는 사건의 정확도를 높히기 때문에 많은 데이터의 연결이 필요하다는 것을 의미한다.
거미줄처럼 연결되어있는 수많은 데이터의 대표적인 것이 소셜 미디어이다. 소셜 미디어의 성격과 분석 요인들에 대해 알아보고, 각종 소셜 미디어를 검색하는 검색엔진이 키워드를 분석하고 평가하는 것에 대해 알아보자.
소셜 미디어란
소셜미디어는 기존의 전통적인 매스미디어에서 다양한 방식으로 다양한 컨텐츠를 다양한 디바이스를 통해 전달해주는 광범위한 소통 방식을 뜻한다. 여기에는 페이스북과 같은 SNS와 유튜브, 지금 보고 있는 포스팅과 같은 블로그 등이 있다.
소셜 미디어는 스마트폰의 확산으로 인해 급격하게 확산되었고, 이는 참여/공유/소통/오픈이라는 시대 정신을 낳게 하였다. 어느 정도 통제가 가능하고 범위가 한정되어 있던 기존의 매스미디어 시대와는 확실히 다르다. 소셜미디어는 모든 사람들이 컨텐츠의 소비자인 동시에 생산자이기에 통제가 힘들고 사회 모든 분야에 커다란 영향을 준다. 소셜미디어의 종류는 일반적으로 상상하는 것보다 훨씬 다양하며 매 순간 수많은 데이터를 생산하고 있다. 데이터의 내용이나 형식은 끊임없이 진화하고 있다. 카페나 블로그 형식에서 최근 브런치나 텀블러와 같은 형식으로 진화하고 있는 것처럼 말이다. 2015년까지 전 세계에서 30억명 이상이 소셜미디어를 사용하였으며 그렇게 생산된 데이터의 양은 매년 ZB(Zettabytes) 단위이다. 또한 이 데이터들의 90%가 문장, 사진, 영상과 같은 비정형 데이터이다. 이는 기존의 IT기술로는 분석이 불가능하며 빅데이터 분석 기술로만 분석이 가능하다. 비정형 데이터 중 그나마 분석이 용이한 텍스트 분석이 가장 보편화 되어 있으며, 최근들어 이미지나 영상에 대한 분석 기법들도 발달하고 있다.
소셜미디어의 텍스트 분석은 자연어 처리과정을 거쳐 키워드를 분류한다. 분류된 키워드는 미리 정의된 키워드 사전에 따라 감성분석, 연관어 분석, 빈도분석을 수행하게 된다. 컴퓨터 소프트웨어를 통해 분석된 키워드는 전문가가 해석하는 절차를 거쳐 비로소 가치있는 데이터로 탄생하게 된다.
소셜미디어 분석은 주제와 결과가 흥미롭고 대중들의 관심을 끌기 좋다. 이 때문에 빅데이터 분석의 사례로서 자주 등장하곤 한다. 그래서인지 소셜미디어 분석과 빅데이터 분석을 동일하다고 생각하는 사람들이 많다. 하지만 소셜 미디어 분석은 빅데이터 분석의 하나의 범주이지 동일한 것이 아니다. 즉, 소셜미디어 분석은 빅데이터 분석의 하나의 분야라고 볼 수 있다.
소셜 미디어 분석의 특징
1. 대중들이 알고 있을 만한 키워드를 중심으로 분석해야 한다.
잘 알려지지 않은 키워드는 분석 결과에 신뢰성이 떨어진다. 따라서 소셜미디어를 분석하여 비지니스에 활용하거나 이익을 내기 위해서는 대중성 있는 테마를 선정하여 분석하는 것이 유효할 것이다.
예를들어 영화관람에 대한 SNS분석으로 소비자의 패턴을 분석한다던지 관광지에서 작성된 블로그 글을 분석하여 관광 홍보에 활용하는 등의 전략을 사용하는 것이다.
2. 관점이 반드시 필요하다.
특정한 목적을 정해서 분석해야만 그 목적을 충족시킬 수 있다. 하나의 현상에 대해 목적이 여러개라면 결과 역시 여러개가 나올 수밖에 없다. 분석하는 대상의 시각을 반드시 이해해야 그 결과를 정확하게 해석할 수 있다.
3. 루머와 사실을 구분할 수 있다.
기계에서 나오는 데이터들과는 달리 소셜미디어에는 진실보다 더 많은 루머들이 존재한다. 루머와 사실을 구분할 수 있어야만 의미있는 결과를 얻을 수 있을 것이다.
2013년 KAIST에서 루머와 진짜 정보를 분별하는 방법에 대한 연구가 있었다. 2006년에서 2009년 사이 미국 트위터 사용자들 사이에서 널리 퍼진 뉴스 100개를 선정하여 확산 경로와 사용된 단어의 특성을 분석한 것이다.
분석 결과 소셜미디어에 퍼진 루머와 사실은 아래와 같은 특성을 가진다.
루머는 장기간에 걸쳐 계속 유통되며 서로 상관관계가 없는 사용자 사이에서 산발적으로 전파된다. 또한 '아니다', '사실일지 모르지만', '확실치는 않지만', '내 생각에는' 이라는 표현의 사용비율이 매우 높다. 또한 루머는 여러 사람이 조금씩 같은 내용을 퍼트리는 확산 형태를 보인다.
진짜 정보일 경우에는 특정한 사람이 한꺼번에 대중들에게 퍼뜨리는 확산 형태를 보인다. 이러한 진짜 정보에 대한 관심은 한번 엄청난 피크를 기록한 뒤 빠르게 사라지게 된다.
이러한 요소들을 토대로 정보의 진위를 따지는 알고리즘을 개발했는데, 90%이상의 정확도를 보여주었다. 루머와 진짜 정보를 분별하는 분석 알고리즘을 확보하는 것은 소셜 미디어 분석에서 가장 핵심적이라고 할 수 있다.
소셜미디어의 분석 단계 - 검색엔진의 키워드 분석 단계
소셜 미디어에는 SNS의 멘션, 유튜브 등의 영상정보, 블로그의 포스팅, 웹사이트의 정보들 등이 있다. 대중들은 이러한 소셜 미디어의 정보들을 검색엔진을 통해 검색한다. 따라서 구글, 네이버와 같은 검색엔진은 소셜 미디어를 분석하여 키워드를 추출하고 이를 검색어에 대해 색인(index)을 생성 하는 것이 중요할 것이다. 때문에 소셜미디어 분석 과정을 아는 것은 매우 중요하다. 더 유능한 검색엔진을 개발해야 하는 기업들 뿐 아니라, 검색 엔진에 자신들의 정보를 노출시키기를 원하는 대중들 역시 분석 단계에 대한 이해는 많은 도움이 될 것이다.
사용자 요구사항
사용자의 요구사항에는 데이터를 추출할 웹사이트, 키워드 사전, 불용어, 기타 요구 사항 등으로 이루어진다.
데이터를 추출할 웹사이트는 보통 수백에서 수천개에 달한다.
키워드 사전은 필요한 키워드를 모은 것이다. 보통 텍사노미(taxonomy)라는 키워드 분류 사전을 칭한다. 보통 수천~수백만 단어에 달하는데 여기에는 동의어가 모두 포함되어야 한다. 예를 들어 서울시라는 키워드에는 서울시 뿐만 아니라 서울, 서울특별시 등의 동의어와 셔울과 같은 오타를 고려한 키워드도 포함시켜야 한다.
불용어는 텍사노미에 정의된 것을 찾을 때 제외해야 하는 것을 뜻한다. 예를 들면 서울시에 대한 소셜미디어 분석에서 노래 이름인 '서울의 달' 과 같은 것은 제외하는 것이 정확한 분석을 위해 도움이 될 것이다.
1단계-Crawling Service
웹크롤링은 소프트웨어가 정해진 웹사이트에 가서 그 사이트의 컨텐츠를 복사해서 가져오는 것을 뜻한다. 단순히 가져오는 것 뿐 아니라 주어진 검색어 사전대로 검색을 할 수 있는 색인(index)를 만들어 준다. 크롤링은 주기적으로 자동으로 반복되며 처음 복사한 것에서 변화한 것만 다시 가져온다. 이 주기를 빠르게 하면 특정 사이트의 컨텐츠는 실시간과 가깝게 가져올 수도 있다. 보통 구글, 네이버와 같은 검색엔진에서 발달해 있다. 검색엔진에는 웹 크롤링을 하는 시스템이 필수적이다. 소셜미디어 분석에 있어서는 고객이 원하는 특정한 요구조건에 대해 따로 개발을 해야 하는 커스터마이징 서비스도 필요하다.
2단계-자연어 처리단계
웹크롤링이 서비스에서 받은 데이터를 처리한다.
보통 웹크롤링 서비스에서 넘겨주는 데이터들은 주어진 키워드가 포함된 텍스트나 사진,동영상에 대한 간단한 정보들이다. 자연어 처리는 단어를 음절 처리해서 명사, 동사, 형용사 등만 남기고 불용어를 만나면 전체를 삭제하고 키워드를 추출한다. 그 키워드를 중심으로 좌우 몇 개 단어 사이에 특정한 단어들이 나왔는지를 분석한다. 특정 키워드 들에 대해서는 가중치를 주기도 한다. 자연어 처리를 마친 데이터는 텍스트 분석 단계를 거치게 된다.
텍스트 분석의 종류는 감성분석, 연관어 분석, 소셜 네트워크 분석 등 종류가 매우 많다.
먼저 감성분석은 감성 사전을 미리 만들어 두고, 단어들이 그 범주에 들어가면 레벨을 결정한다.
호감/비호감으로 2단계로 구성하기도 하지면 분석 엔진에 따라 10단계 이상으로 레벨을 구분하는 경우도 있다.
감성분석을 위한 감성 사전은 오랜 기간동안 적합성을 테스팅 해야 한다. 때문에 감석분석에 대한 방법론과 감성 사전은 지적 가치로서 인정을 받아야 한다.
연관어 분석은 특정 키워드가 나타날 때 같이 나타나는 단어들을 나열한다. 즉 연관어들을 나열한 것이다. 보통은 하나의 키워드에서 10~100개 사이로 추출한다.
소셜 네트워크 분석은 특정 텍스트에 중점을 두기 보다는 텍스트 끼리의 연결을 전체로 본다. 그런 연결들의 확산과 진화 과정을 계량적으로 분석하게 된다.