"사기집단만 콕 집는다"…타깃 중심 네트워크 분석 기술 개발[과학을읽다]
전체 데이터 없어도 '의미 있는 집단'만 탐색
고객 분석·이상거래 탐지·신약개발 활용 기대
국내 연구진이 복잡한 네트워크 데이터 속에서 특정 대상과 강하게 연결된 집단만 효율적으로 찾아내는 분석 기술을 개발했다. 소규모 열성 고객군 분석이나 사기 의심 계좌 추적, 단백질 네트워크 기반 신약개발 등에 활용될 수 있을 것으로 기대된다.
울산과학기술원(UNIST)은 김정훈 컴퓨터공학과 교수 연구팀이 사용자가 지정한 대상을 반드시 포함하면서도, 정해진 규모 안에서 의미 있는 집단만 탐색하는 새로운 커뮤니티 분석 알고리즘을 개발했다고 28일 밝혔다.
실제 관계망 데이터 기반 커뮤니티 탐색 성능 비교. 연구팀 알고리즘은 가라테 동아리·돌고래 사회관계망 등 실제 네트워크 데이터에서 기존 기법보다 높은 정확도로 실제 집단을 식별했다. 또 아마존·유튜브 등 대규모 관계망에서도 내부 연결은 촘촘하고 외부와는 잘 구분된 집단을 효과적으로 찾아냈다. 아래 예시는 관심 사용자를 중심으로 탐색한 커뮤니티 결과로, 파란색 노드가 많고 빨간색 노드가 적을수록 집단 식별 정확도가 높음을 의미한다. 연구팀 제공
커뮤니티 탐색은 대규모 네트워크 데이터 안에서 내부 연결이 강한 집단을 찾아내는 기술이다. 사회관계망서비스(SNS) 추천 시스템이나 금융 이상거래 탐지, 생물학 네트워크 분석 등에 활용된다. 기존 기술은 전체 네트워크 정보를 확보해야 하는 경우가 많아 개인정보 제한이나 초대형 데이터 환경에서는 활용이 어려웠다. 관계가 약한 대상까지 함께 묶이는 문제도 있었다.
연구팀은 전체 네트워크를 모두 확보하지 않아도 사용자가 지정한 대상 주변에서 '실제 의미 있는 집단'만 골라낼 수 있는 방식을 개발했다.
알고리즘은 특정 노드에서 출발해 주변 후보를 하나씩 탐색하며 집단을 확장한다. 이 과정에서 새로운 후보를 추가했을 때 전체 연결성이 얼마나 개선되는지를 계산하고, 집단 규모가 불필요하게 커질수록 점수가 쉽게 올라가지 않도록 설계했다.
또 단순히 개별 관계만 보는 대신 주변의 작은 연결 묶음까지 함께 분석해, 혼자서는 눈에 띄지 않지만 함께 있을 때 집단 특성을 강화하는 관계도 반영할 수 있도록 했다.
"사기 탐지·소수 고객 분석"…현실형 AI 분석 기술
실제 네트워크 데이터 실험에서도 성능 개선 효과가 확인됐다. 연구팀에 따르면 기존 최고 성능 기법 대비 F1 점수는 최대 1.39배, ARI 점수는 최대 5.95배 향상됐다. 이는 찾고자 하는 집단을 더 정확하게 선별하면서도 관계가 약한 대상을 덜 포함했다는 의미다.
연구팀은 이번 기술이 실제 산업 환경에서 활용성이 높을 것으로 기대하고 있다. 예를 들어 마케팅 분야에서는 소규모 충성 고객군을 정밀하게 추출할 수 있고, 금융 분야에서는 사기 의심 계좌와 연결된 관련 집단 탐지에 활용할 수 있다. 생물학 분야에서는 단백질 관계망 분석을 통해 신약개발 단서를 찾는 데도 응용 가능하다.
김정훈 교수는 "현실의 네트워크 분석에서는 전체 데이터를 한 번에 확보하기 어렵고, 실제 필요한 집단 규모도 대부분 정해져 있다"며 "이번 기술은 사용자가 관심을 갖는 대상 주변에서 의미 있는 관계만 빠르게 찾는 데 초점을 맞췄다"고 설명했다. 이어 "추천 서비스, 이상거래 탐지, 단백질 네트워크 분석 등 다양한 분야에 적용 가능할 것"이라고 말했다.
꼭 봐야 할 주요 뉴스
"주식 빼서 적금 갈아탄다고?"…최고 연 19.4% 금...
이번 연구에는 김다희 UNIST 연구원이 제1저자로 참여했으며, 한국연구재단 지원을 받아 수행됐다. 연구 결과는 데이터베이스 분야 최고 권위 학회 가운데 하나인 '2026 국제데이터관리학회(SIGMOD)'에 채택돼 발표될 예정이다.
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>