통계 이야기

AI를 활용하여
텍스트 데이터 수집 및 분석하기

구자룡 | 밸류바인 대표

우리는 일상에서 혹은 비즈니스에서 수많은 데이터를 생산하고 또 소비하고 있다. 대표적으로 자동차 내비게이션은 나의 차량 이동 정보가 나도 모르게 제공되어 다른 사람의 차량 내비게이션에 사용된다. 반대로 다른 사람의 정보를 내가 이용한다. 정형화된 데이터를 AI가 분석해서 제공해 주기 때문에 가능하다. 온라인 쇼핑몰에서 어떤 제품을 구매하고자 할 때 다른 사람들이 작성한 후기를 보고 구매한다. 내가 제공한 후기는 다른 사람들이 보게 될 것이다. 다만 이 경우는 비정형 텍스트 데이터를 우리가 직접 읽고 판단한다.
텍스트 데이터는 그 자체로 보면 빅데이터이지만, 우리가 직접 하나씩 읽을 때는 스몰데이터다. 고객 리뷰, 블로그 포스트, 소셜 미디어 댓글 등이 비즈니스 관점에서 관심을 가질 만한 텍스트 데이터다. 즉, 이런 데이터를 분석함으로써 고객의 의견과 정서를 파악하여 제품 및 서비스 개선 방향을 찾을 수 있다. 우리 브랜드에 대한 언급을 모니터링하여 브랜드의 평판을 관리하고 위기 상황에 신속하게 대응할 수 있다. 또한, 최신 트렌드를 파악하고 경쟁사의 마케팅 전략, 제품 리뷰 등을 분석하여 경쟁사와의 차별화를 모색할 수 있다.

1. 텍스트 데이터 분석의 새로운 도구 : 생성형 AI

우리는 텍스트 데이터를 분석하고 통찰함으로써 비즈니스의 많은 문제를 데이터에 기반하여 해결할 수 있다. 이를 위해서는 텍스트 데이터가 무엇이고 어떻게 수집하고 분석하는지에 대해 이해해야 한다. 정형 데이터에 대한 분석 기법과 도구에 비해 텍스트 데이터 분석을 할 수 있는 분석 기법과 도구는 최근 들어 정립되었다. 통계 분석을 기반으로 하는 모델링의 발전 속도에 비하면 한참 늦은 상황이다. 이유는 자연어 처리에 어려움이 많았기 때문이다. 그러나, 생성형 AI가 등장하면서 너무나 쉽게 이 문제가 해결되고 있다. 생성형 AI가 바로 대규모 언어 모델을 기반으로 자연어 처리를 하기 때문이다. 이제 누구나 생성형 AI를 활용하여 텍스트 데이터 분석을 할 수 있는 시대가 되었다. 생성형 AI가 나를 대신하여 파이썬 코딩을 해 주기 때문에 누구나 쉽게 텍스트 데이터 분석을 할 수 있다.
텍스트 마이닝(Text Mining)이라고도 하는 텍스트 데이터 분석(Text Data Analysis)은 비정형 텍스트를 정형으로 변환하여 의미 있는 패턴과 새로운 인사이트를 찾아내는 분석 방법이다. 텍스트 데이터 분석을 통해 기업은 제품 및 서비스의 품질을 향상하고, 고객 만족도를 높이며, 시장에서 경쟁 우위를 확보할 수 있다. 텍스트 데이터와 그 분석의 중요성이 더 커지고 있다.
텍스트 데이터는 비정형 데이터로 그 안에 무엇이 포함되어 있는지 명확하지 않기 때문에 이를 통해 의미있는 정보를 추출하기 위해서는 체계적이고 효율적인 분석이 필요하다. 대표적인 텍스트 데이터 분석 기법으로 형태소 분석, 감정 분석, 주제 모델링, 텍스트 분류, 클러스터링, 워드 클라우드 시각화 등이 있다. 이를 통해 텍스트 데이터를 정형 데이터로 변환해 통계적 분석이나 머신러닝 모델링에 활용할 수 있으며, 분석기법을 활용해 유의미한 패턴을 찾을 수 있다.

(1) 형태소 분석

형태소 분석은 텍스트 데이터를 가장 기본적인 의미 단위인 형태소로 분해하는 과정이다. 예를 들어, “고양이가 집에 있다”라는 문장은 “고양이/명사 + 가/조사 + 집/명사 + 에/조사 + 있다/동사”로 형태소 분석을 통해 분해될 수 있다. 형태소 분석은 텍스트 분류, 감성 분석, 주제 모델링 등의 분석 작업에 선행되는 기초 작업이다.

(2) 감정 분석

감정 분석(감성 분석 또는 긍·부정 분석)은 텍스트 데이터에 담긴 긍정적, 부정적, 중립적인 감정을 파악해 제품 및 서비스에 대한 고객의 반응을 이해하는 데 사용된다. 예를 들어, 특정 제품에 대한 리뷰가 긍정적인 경우, 해당 제품의 강점을 강화하는 방향으로 마케팅 전략을 수립할 수 있으며, 반대로 부정적인 리뷰가 많을 때는 문제점을 파악하고 이를 개선하는 방향으로 전략을 조정할 수 있다.

(3) 주제 모델링

주제 모델링은 대규모 텍스트 데이터에서 주제(토픽)를 자동으로 추출하는 기법이다. 텍스트 데이터에서 자주 언급되는 주제를 찾아낼 수 있으며, 이를 통해 텍스트의 전체적인 내용을 파악할 수 있다. 예를 들어, 뉴스 기사 데이터를 분석할 때 특정 시점에서 가장 많이 언급된 주제를 도출하고, 이를 바탕으로 해당 시기의 사회적 이슈나 트렌드를 분석할 수 있다.

(4) 텍스트 분류

텍스트 분류는 텍스트 데이터를 특정 카테고리 또는 레이블로 자동 분류하는 기법이다. 텍스트 문서를 사전에 정의된 카테고리로 분류하기 위해 머신러닝 모델을 사용한다. 예를 들어, 뉴스 기사를 ‘정치’, ‘경제’, ‘스포츠’ 등의 카테고리로 분류할 수 있다. 스팸 메일 필터링, 감성 분석(긍정/부정 분류), 주제 분류, 고객 리뷰 분석 등 다양한 분야에서 활용된다.

(5) 클러스터링

클러스터링(Clustering)은 비슷한 특성을 가진 데이터들을 그룹으로 묶어 주는 분석 기법이다. 텍스트 데이터를 클러스터링하면, 유사한 패턴이나 주제를 가진 텍스트들을 하나의 그룹으로 묶어낼 수 있다. 이를 통해 특정 주제에 대한 전반적인 의견을 파악하거나 주요 관심사를 추출할 수 있다. 예를 들어, 호텔 리뷰 데이터를 클러스터링해 ‘클러스터 0: 가성비·역세권·청결’, ‘클러스터 1: 객실 컨디션(공간·온도)’, ‘클러스터 2: 가치 극대화(조식/뷔페)’ 등과 같이 클러스터별로 고객의 의견을 그룹화할 수 있다.

2. AI를 활용하여 텍스트 데이터 수집하기

데이터 분석의 일반적인 프로세스와 마찬가지로 텍스트 데이터 분석 역시 문제 정의가 선행된다. 이 문제를 해결할 텍스트 데이터를 수집 및 전처리하고 분석 및 시각화한 뒤, 분석 결과를 활용해 새로운 가치를 만들어야 한다.
우리가 모바일 앱 서비스를 한다고 가정해 보자. 문제는 우리 서비스에 대한 고객의 불만을 개선하여 서비스의 품질을 높이는 것이라고 하자. 이 문제를 해결하기 위해서는 우리가 제공한 앱에 대한 고객의 리뷰를 앱스토어에서 수집해야 한다. 이런 경우에 설문조사나 심층 면접 같은 방법도 있지만 고객의 진솔한 이야기를 자유롭게 적은 텍스트가 이미 존재하기 때문에 앱 혹은 웹에 있는 디지털 텍스트 데이터를 활용하는 것이 훨씬 좋은 선택이다.
예를 들어, NH스마트뱅킹 앱 이용 고객의 리뷰(Voice of Customer, VOC)를 분석하여 서비스 개선 방안을 찾아보자. 구글플레이에서 NH스마트뱅킹 앱의 리뷰를 수집할 수 있다[그림 1]. 다양한 방법이 있겠지만 여기서는 AI를 이용하여 노코드로 수집해 보자. 웹사이트의 데이터를 몇 번의 클릭만으로 수집할 수 있는 리스틀리(listly.io/ko/) 확장 프로그램을 이용한다. 수집한 데이터는 엑셀이나 구글 시트로 다운로드 가능하다[그림 2].
이렇게 수집한 데이터를 작성일, 이용 후기, 유용성 평가, 답변일 등 분석에 필요한 필드만 남겨놓고 작성자 등 불필요한 필드는 제거하는 전처리를 수행한다. 여기서 한글 리뷰를 전체 복사한 다음 MS 워드에서 영문으로 기계 번역한다. 데이터 파일에 새로운 필드를 하나 생성해서 영문 리뷰를 붙여 넣기 한다. 한글 리뷰를 영문으로 번역한 이유는 텍스트 데이터 분석에서 시각화 등은 아직 한글 처리에 한계가 있기 때문이다.

<표 Ⅲ-1> 주요 제조업종별 사업체 수, 종사자 수, 유형자산 증감률
<표 Ⅲ-1> 주요 제조업종별 사업체 수, 종사자 수, 유형자산 증감률
<표 Ⅲ-1> 주요 제조업종별 사업체 수, 종사자 수, 유형자산 증감률

3. AI를 활용하여 텍스트 데이터 분석하기

챗GPT와 같은 생성형 AI는 텍스트 데이터 분석에서 매우 유용하게 사용될 수 있다. 챗GPT는 자연어 처리 기반의 강력한 언어 모델로, 텍스트 데이터를 전처리하고, 감성 분석을 수행하며, 클러스터링 등의 복잡한 분석 작업을 자동화할 수 있다. 즉, 기존 수작업 분석에 비해 시간과 노력을 크게 절감할 수 있다. 특히 챗GPT 에는 데이터 분석을 위한 전용 챗봇으로 “Data Analyst”가 있다.
예를 들어, 여러분은 은행 마케팅 관리자다. 어떻게 하면 텍스트 데이터에서 고객의 니즈를 파악하거나 서비스의 개선 방안을 수립할 수 있을까? 이 문제를 해결하기 위해 우리는 앞에서 리스틀리를 이용해 텍스트 데이터를 수집했다. 위에서 제시한 은행 앱 데이터를 기반으로 서비스 개선 방안을 찾아보자.

(1) 챗GPT/Data Analyst에서 텍스트 데이터 분석하기

먼저 이 데이터를 “챗GPT/Data Analyst”에 업로드하고 데이터 탐색을 시켜본다. 제공한 데이터를 챗GPT가 인식하게 하여 데이터 구조와 유형 분석 및 간단한 기술 통계분석으로 전반적인 데이터를 파악하게 된다.
분석에 앞서 프롬프트에 무엇을 요청할지 생각해야 한다. 텍스트 데이터 분석에 필요한 요청 사항들을 하나씩 작성하면 된다. 해결해야 할 문제, 즉 과제를 해결하는 데 필요한 분석이 어떤 것인지를 사전에 정리해서 차례 대로 하나씩 요청하는 방안을 추천한다. 물론 이러한 정리가 어렵다면 주어진 데이터로 어떤 분석이 가능한지, 혹은 이러이러한 결과를 얻기 위해 제공한 데이터로 어떤 분석이 가능한지 챗GPT에 요청하는 것으로 분석을 시작해도 된다. 여기서는 감정 분석, 주제 모델링, 키워드 추출, 시각화 등의 분석 방법을 활용하여 앱 기능에 대한 서비스 개선 방안을 찾는다.
“제공한 데이터를 탐색해 줘”라는 프롬프트에 챗GPT의 답변은 다음과 같다.

데이터셋의 기본적인 구조와 특징입니다.

  • □ 데이터 개요:
    • ● 총 행(row): 460개
    • ● 총 열(column): 6개
  • □ 열 설명:
    • ● 인덱스: 리뷰 순서로 보이는 번호 (중복 없음)
    • ● 작성일: 리뷰가 작성된 날짜 (문자열 형식)
    • ● 이용후기: 고객이 남긴 한글 리뷰
    • ● 유용성평가: 다른 고객이 이 리뷰를 유용하다고 평가한 수치 (일부 결측값 존재)
    • ● 답변일: 기업의 답변 날짜 (일부 결측값 존재)
    • ● Reviews: 영어로 번역된 리뷰 내용
  • □ 결측치 정보:
    • ● 유용성평가: 85개 결측(460 - 375)
    • ● 답변일: 156개 결측 (460 - 304)
  • 다음 중 어떤 탐색을 원하시나요?
    • ● 리뷰 작성일 및 활동량 분석
    • ● 유용성 평가 분포
    • ● 답변 유무 및 패턴
    • ● 리뷰 내용(한글 또는 영어)에 대한 텍스트 분석
    • ● 감정 분석 또는 키워드 추출
    • ● 기타 직접 지정한 분석

원하는 항목을 알려주시면 그에 맞춰 탐색해드릴게요.

이제 본격적인 텍스트 데이터 분석을 해야 한다. 챗GPT가 제안한 분석 방법 혹은 문제 해결을 위해 필요하다고 생각하는 분석을 인간 분석가의 통찰을 바탕으로 진행하면 된다.

(2) 리뷰 내용에 대한 텍스트 분석

일반적으로 텍스트 분석은 텍스트 전처리(불용어 제거, 특수문자 제거 등), 형태소 분석(명사, 동사 등 주요 어휘 추출), 단어 빈도 분석(가장 많이 사용된 단어), 워드 클라우드 시각화(시각적으로 단어 중요도 표현) 등으로 이루어진다. 기존의 파이썬 코딩은 이 모든 과정을 수작업으로 진행해야 한다. AI를 활용하면 이 모든 내용을 자동으로 처리할 수 있다. 다만 아직은 한글 텍스트를 AI에서 분석하는 데 어려움이 있다. 챗GPT의 현재 환경에서는 코엔엘파이(KoNLPy, 한국어 형태소 분석기)가 설치되어 있지 않아 형태소 분석을 바로 수행할 수 없다. 다른 생성형 AI도 유사한 문제를 가지고 있다. 가장 쉬운 대안은 한글 리뷰를 영문으로 번역한 다음 영문 리뷰로 텍스트 분석을 하는 방법이다. 영문 번역은 MS 워드에서 쉽게 기계번역을 할 수 있다. 분석의 결과는 한글로 제공된다.
“리뷰 내용(영문)에 대한 텍스트 분석을 해줘.”라는 프롬프트에 대해 챗GPT가 제공한 결과는 [그림 4]와 같다.

[그림 4] 리뷰 내용(영문)에 대한 워드 클라우드 맵

워드 클라우드 분석으로 영어 리뷰에서 자주 등장한 단어를 시각화한 결과다. 발견된 주요 단어는 “login, slow, error, password, transfer, screen, time, work, account, open” 등이다. 이러한 단어들을 통해 고객들이 주로 로그인 문제, 느린 속도, 이체 오류, 비밀번호 관련 이슈, 앱이 작동하지 않거나 열리지 않는 문제 등에 대해 언급하고 있음을 확인할 수 있다.

(3) 감정 분석과 키워드 추출하기

[그림 5] 리뷰에 대한 감정 분석 결과

리뷰 내용에 대한 고객들의 긍/부정, 중립적 감정을 파악하기 위해 감정 분석을 요청하고, 그 결과를 시각화 차트로 분석하기 위해 “감정 분석(긍정/부정 리뷰 구분)을 해줘. 시각화 차트에 값을 표시해 줘.”라고 챗GPT에 요청했다. 분석 결과는 [그림 5]와 같다. 리뷰에 대한 감정 분석 결과, 전체 리뷰 수 460개 중에서 중립(Neutral)이 214개 46.5%, 긍정(Positive)이 184개 40.0%, 부정(Negative)이 62개 13.5%로 나타났다.
전체 리뷰 중 절반 이상이 중립적이며, 긍정 리뷰가 부정 리뷰보다 약 3배 많음을 확인할 수 있다. 앱 사용에 있어 좋은 경험을 한 고객들이 많지만, 일부는 부정적인 감정(로그인, 속도, 오류 등)을 표현하고 있다.
이 분석 결과로 보면, 중립 리뷰가 많기 때문에 고객 응대나 안내 메시지의 개선 여지가 있어 보인다. 서비스 개선을 위해서는 긍정 리뷰보다는 부정 리뷰를 살펴봐야 한다. 부정 리뷰에 자주 등장하는 단어를 추가로 추출하기 위해 “부정 리뷰에 자주 등장하는 단어를 추출해 줘.”라고 요청했다.
20개의 단어가 추출됐다. 이를 바탕으로 고객이 어떤 문제를 자주 언급하는지 파악하기 위해 “부정 리뷰에서 자주 등장한 단어 상위 20개를 통해 고객이 어떤 문제를 자주 언급했는지 파악해 줘”라고 다시 요청했다. 부정 리뷰에서 자주 등장한 단어 상위 20개를 분석하여, 고객들이 자주 언급한 문제 유형을 요약한 결과는 [그림 6]과 같다.

[그림 6] 상위 단어 기반 고객 불만 유형 분석

주요 고객 불만 유형을 정리하면, 기술적 오류(앱 다운, 기능 작동 안 함), 로그인 및 인증 실패, 속도 문제(앱 지연, 느림), 이체 및 계좌 관련 오류, 업데이트 후 불안정성, 고객 서비스 및 대응 부족 등으로 나타났다. 이러한 결과를 바탕으로 앱 품질 개선, 고객 경험 개선 우선순위 결정, 고객지원 강화 등에 활용할 수 있다. 고객의 숨은 니즈를 고객이 스스로 작성한 텍스트에서 찾는 방법이다.

(4) 주제 모델링 및 토픽별 주제 분석

텍스트 데이터에서 자주 언급되는 주제를 찾아내어 텍스트의 전체적인 내용을 파악하기 위해 토픽 모델링 분석을 해보자. 단, 챗GPT의 특성 중 하나는 위와 같이 드릴다운(Drill-down, 요약된 데이터에서 시작하여 더 상세한 하위 수준의 데이터로 이동하며 분석하는 기법)이 될 때 전체 데이터로 분석 요청을 하지 않으면 제한된 데이터로만 분석이 된다는 것이다. 이는 엑셀에서 필터로 제한했을 때와 동일한 현상이다. 따라서, 분석의 목적에 따라 필요한 요청을 별도로 해야 한다. 챗GPT에게 “전체 응답을 기준으로 토픽 모델링을 수행해 줘”라고 요청했다.
총 5개의 토픽을 구했다. 각 토픽은 주제별로 자주 등장한 단어들을 기반으로 구성되어 있다. 이를 통해 고객 리뷰가 주로 어떤 주제에 집중되어 있는지 파악할 수 있다. 이후 “토픽 모델링 결과를 기준으로 고객 리뷰가 주로 어떤 주제(문제/경험)에 집중되어 있는지 파악해 줘”라고 다시 요청했다.
각 토픽에서 자주 등장한 단어들을 해석하여 고객이 리뷰에서 집중한 주요 주제(문제/경험)를 [그림 7]과 같이 요약할 수 있다.

[그림 7] 토픽별 고객 리뷰 주요 주제 분석

토픽 모델링을 기반으로 도출된 고객 리뷰 주제 분석 결과는 각 토픽에 대한 핵심 키워드, 주제 요약, 해석을 포함하고 있어 고객 불만 및 관심 영역을 전략적으로 파악하는 데 활용할 수 있다.

4. AI를 활용하여 서비스 개선 전략 수립하기

텍스트 데이터 분석 결과를 바탕으로 서비스 개선 방안을 챗GPT에 요청해 보자. “지금까지 분석한 결과를 바탕으로 서비스 개선 방안 5가지를 제안해 줘”라고 프롬프트에 요청했다.
리뷰 데이터 분석(텍스트 분석, 감정 분석, 토픽 모델링)을 기반으로 NH스마트뱅킹 앱의 사용자 불만과 주요 주제들을 파악하고, 이를 토대로 [그림 8]과 같은 서비스 개선 방안 5가지를 제안해 주었다.

[그림 8] 서비스 개선 방안 요약

고객 리뷰 분석을 바탕으로 이체 기능 개선, 로그인 및 인증 개선, 속도 및 반응성 향상, 업데이트 안정성 확보, 고객지원 응답 체계 고도화 등 서비스 개선 방안 5가지가 제안되었다. 각 항목에는 개선이 필요한 핵심 이슈, 이에 대응하기 위한 구체적 방안을 포함하고 있어, 실제 개선 전략 수립 및 우선순위 설정에 바로 활용할 수 있다.
지금까지 진행한 고객 리뷰 데이터 분석 결과를 종합하면, NH스마트뱅킹 앱은 핵심 금융 기능의 품질 안정성과 사용자 경험 전반에서 개선이 필요한 지점을 명확히 보여주고 있다. 제안한 5가지 개선 방안을 실행하면 고객 만족도와 앱 신뢰도를 동시에 향상할 수 있을 것이다. 다만, 여기 제안된 내용은 특정 기업의 특정 서비스에 국한된 내용이기 때문에 사례로서는 의미가 있지만 일반화할 수는 없다. 텍스트 데이터 수집 및 분석 방법은 예시한 방법을 그대로 활용하면 된다.

5. AI를 활용한 텍스트 데이터 분석 시사점

여러분은 여러분의 문제를 정의하고 텍스트 데이터를 수집하고 분석하여 필요한 결과물을 얻어야 한다. AI가 분석하고 제안한 내용에 대해 좋다거나 나쁘다거나 판단을 내리는 것은 무의미하다. 데이터 분석에 대한 기본적인 이해를 바탕으로 문제를 해결하기 위해 분석적 마인드를 가지고 심층적인 분석을 해야만 원하는 결과, 즉 문제를 해결할 수 있는 분석 결과를 얻을 수 있다.
AI를 활용하지 않고 단기간에 텍스트 데이터를 손쉽게 수집, 분석하며 개선 방안을 찾는 것은 현실적으로 매우 어려운 일이다. 다만 분석 결과와 제안 내용을 그대로 수용하는 것은 문제의 소지가 있다. 분석 자체는 객관적이지만 그 과정에 주관이 개입되기 때문이다. 분석가의 주관이든 AI의 주관이든 분석 결과는 주관적인 결과물이다. 단지 데이터로 분석했기 때문에 객관적으로 보일 뿐이다.
따라서 AI가 분석하고 제안한 결과를 바탕으로 인간 분석가의 통찰이 더해져야 한다. AI는 책임을 지지 않기 때문이다. 분석 결과는 문제 해결과 의사결정을 위한 기초 자료이며 이를 옥석으로 만드는 것은 인간 분석가의 몫이다. 도메인(예시한 사례에서 은행 업무 및 앱 서비스)에 대한 지식이 있어야 데이터 분석의 결과를 보다 의미 있게 통찰할 수 있다. 여전히 인간 분석가가 필요한 이유이다.

ai 일러스트
  • 참고문헌
  • 구자룡(2025). 『챗GPT로 시작하는 데이터 리터러시』. 마들렌북.
  • 구자룡(2024). 『AI 데이터 분석』. 커뮤니케이션북스.
  • 구자룡(2024). 『데이터 마인드 기르는 습관』. 좋은습관연구소.