[K바이오 빅데이터 대상] 국내 포털 기사 수집 단어별 중요도 측정

[아시아경제 서소정 기자] 전 세계가 신종 코로나바이러스감염증(코로나19) 사태로 전대미문의 위기를 겪고 있는 가운데 대한민국은 위기상황을 잘 극복하면서 'K바이오의 위상'을 드높이고 있다. 이에 아시아경제는 'K바이오 빅데이터 브랜드 대상'을 신설해 대한민국 제약 바이오 산업의 글로벌 경쟁력을 견인하고자 한다.


특히 이번 대상은 각 언론사 뉴스를 토대로 '빅데이터 분석'을 실시해 바이오 브랜드에 대한 시장의 다양한 평가를 도출했다는 점에서 의미가 크다. 이를 위해 아시아경제는 숙명여대 웹발전연구소(문형남 교수), 빅데이터 분석 전문기업인 비큐AI 와 함께 빅데이터를 분석하고 수상기업을 선정했다.

어떻게 분석했나

K바이오 빅데이터 브랜드 수상 기업은 텍스트 마이닝 기법을 활용해 선정됐다. 올해 1월 1일부터 10월 30일까지 네이버 등 국내 주요 인터넷 포털사이트에서 바이오ㆍ제약 기업에 대한 기사 등을 수집한 뒤 TF-IDF 값을 기준으로 단어별 중요도를 측정해 주요 키워드를 선정했다.


TF(Total Frequency)는 특정 단어가 전체 문서에서 얼마나 자주 등장하는지를 나타내며, IDF(Inverse Document Frequency)는 특정 단어가 등장한 문서의 역수 값이다. TF-IDF는 TF값과 IDF를 곱해 산출하며, 이 값이 높을수록 특정 문서에서 자주 등장한 주요 단어라는 뜻이다. 선정된 각 주요 단어들 사이의 연관성을 동시 등장 빈도를 기준으로 관계를 정의한 뒤 키워드 네트워크 분석을 통해 주요 단어들 사이의 전체적인 의미 구조를 파악한 결과를 통해 최종적으로 수상 기업을 선정했다.


보건복지부 장관상에 삼성바이오로직스 , 식품의약품안전처장상에 셀트리온 , 아시아경제대표상에 SK바이오사이언스와 GC 녹십자 가 선정돼 수상의 영예를 안았다. 이들 바이오ㆍ제약 기업은 공통적으로 해외 수출이 활발했고, 신종 코로나바이러스감염증(코로나19) 치료제와 밀접한 연관성을 보이면서 주목 받은 기업들이다. 또 코로나19 상황 속에서도 올해 해외 수주를 늘리고 호실적을 기록하면서 K바이오의 위상을 높였다는 평가를 받았다.





서소정 기자 ssj@asiae.co.kr

<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>