.jpeg)
텍스트 데이터 레이블링은 기계가 구조화되지 않은 텍스트 정보를 이해하고 해석할 수 있도록 하는 자연어 처리 (NLP) 의 기본 작업입니다.디지털 텍스트 데이터가 기하급수적으로 증가함에 따라 정확하고 효율적인 텍스트 데이터 레이블링의 중요성이 그 어느 때보다 커졌습니다.NER (Named Entity Recognition) 및 감정 분석이라는 두 가지 주요 응용 분야를 중심으로 텍스트 데이터 레이블링을 살펴보고 이러한 작업과 관련된 기법, 과제 및 모범 사례를 살펴보면서 NLP 업계의 실무자와 연구자에게 귀중한 통찰력을 제공하겠습니다.
자연어 처리에서 텍스트 데이터 레이블링의 중요성
텍스트 데이터 레이블링은 에서 중요한 역할을 합니다. 사용자 지정 데이터에 대한 LLM 교육 NLP 모델을 평가하여 의미 있는 통찰력을 추출하고 정보 추출, 감정 분석, 텍스트 분류와 같은 다양한 작업을 수행할 수 있도록 합니다.텍스트 데이터 레이블링은 이름이 지정된 개체 또는 감성 극성과 같은 텍스트 세그먼트에 적절한 레이블을 할당함으로써 지도 학습 알고리즘에 필요한 근거를 제공합니다.
그러나 텍스트 데이터 레이블링에는 나름의 문제가 있습니다.필드 및 형식이 잘 정의된 구조화된 데이터와 달리 텍스트 데이터는 구조화되지 않으며 종종 모호성, 불일치 및 영역별 뉘앙스를 포함합니다.게다가 텍스트 데이터의 용량과 다양성으로 인해 수동 레이블 지정은 시간이 많이 걸리고 리소스가 많이 소모됩니다.
이러한 문제에도 불구하고 텍스트 데이터 레이블링의 중요성은 아무리 강조해도 지나치지 않습니다.고객 피드백을 위한 감정 분석, 정보 추출을 위한 명명된 개체 인식, 콘텐츠 조정을 위한 텍스트 분류와 같은 실제 응용 프로그램을 처리할 수 있는 정확하고 강력한 NLP 모델을 학습하려면 레이블이 지정된 고품질 텍스트 데이터 세트가 필수적입니다.
명명된 개체 인식
명명된 개체 인식 (NER) 은 텍스트에서 사람 이름, 조직, 위치 및 날짜와 같은 명명된 개체를 식별하고 분류하는 작업을 포함하는 NLP의 기본 작업입니다.NER은 정보 검색, 질문에 대한 답변, 지식 그래프 생성을 비롯한 다양한 다운스트림 애플리케이션의 구성 요소 역할을 합니다.
엔티티 유형 및 주석 체계 정의
NER의 첫 번째 단계는 엔티티 유형과 주석 체계를 정의하는 것입니다.엔티티 유형은 당면한 특정 도메인 또는 작업과 관련된 명명된 엔티티의 범주를 나타냅니다.일반적인 개체 유형에는 다음이 포함됩니다.
- 인물: 개인의 이름 (예: “존 스미스” 또는 “엠마 왓슨”)
- 조직: 회사, 기관 또는 그룹의 이름 (예: 'Google' 또는 'UN')
- 위치: “뉴욕시” 또는 “에베레스트 산”과 같은 지리적 위치의 이름
- 날짜: 임시 표현식 (예: “2023년 1월 1일” 또는 “지난 금요일”)
- 제품: “iPhone” 또는 “Nike”와 같은 제품 또는 브랜드 이름
엔티티 유형을 정의하는 것 외에도 일관된 주석 체계를 설정하는 것이 중요합니다.NER에 일반적으로 사용되는 두 가지 주석 체계는 다음과 같습니다.
- IOB (내부-외부-시작) 태깅: 이 체계에서는 각 토큰에 “I" (개체 내부), “O" (개체 외부) 또는 “B" (개체 시작) 레이블이 지정됩니다.예를 들어 '존 스미스는 구글에서 일한다'는 라벨은 '[ B-Person] [I-Person] [O] [B-Organization] '으로 표시됩니다.
- BIOES (시작-내부-외부-끝-단일) 태깅: 이 체계는 엔티티의 끝 (“E”) 및 단일 토큰 엔티티 (“S”) 에 대한 추가 레이블을 도입하여 IOB 태깅을 확장합니다.동일한 예에는 “[B-Person] [E-Person] [O] [S-Organization]”라는 레이블이 붙을 수 있습니다.
적절한 주석 체계를 선택하는 것은 NER 작업의 특정 요구 사항과 텍스트 데이터의 특성에 따라 달라집니다.
중첩된 엔티티와 겹치는 엔티티 처리
NER의 문제 중 하나는 중첩되고 겹치는 개체를 처리하는 것입니다.중첩된 엔티티는 한 엔티티가 다른 엔티티 내에 포함될 때 발생합니다. 예를 들어 “New York City”는 더 큰 위치인 “미국” 내에 있는 위치입니다.여러 엔티티가 일부 공통 토큰을 공유할 때 중복되는 엔티티가 발생합니다. 예를 들어 “John Smith”는 조직 이름인 동시에 “John Smith Inc.”라는 조직 이름의 일부인 동시에 개인이기도 합니다.
중첩되고 겹치는 엔티티를 처리하기 위해 다음과 같은 다양한 접근 방식이 제안되었습니다.
- 계층화된 주석: 여러 개체에 속하는 토큰에 여러 레이블을 할당하여 중첩된 구조와 겹치는 구조를 표현할 수 있습니다.
- 그래프 기반 표현: 개체와 개체의 관계를 그래프로 표현합니다. 여기서 노드는 개체에 대응하고 간선은 개체 간의 관계를 나타냅니다.이 접근 방식을 사용하면 복잡한 개체 구조를 캡처할 수 있습니다.
- 분할 기반 접근 방식: NER을 시퀀스 분할 문제로 취급합니다. 여기서 목표는 개별 토큰에 레이블을 할당하는 것이 아니라 개체의 경계를 식별하는 것입니다.이 접근 방식은 다양한 수준의 여러 세그먼트를 허용하여 중첩되거나 겹치는 항목을 처리할 수 있습니다.
중첩되고 겹치는 개체를 처리하려면 정확하고 포괄적인 개체 인식을 보장하기 위해 주석 체계와 NLP 알고리즘 선택을 신중하게 고려해야 합니다.
NER용 사전 학습된 언어 모델 활용
최근 몇 년 동안 BERT (트랜스포머의 양방향 인코더 표현) 및 그 변형과 같은 사전 학습된 언어 모델은 NLP 분야에 혁명을 일으켰습니다.이러한 모델은 레이블이 지정되지 않은 대규모 텍스트 코퍼라를 기반으로 학습되며 풍부한 의미 및 구문 정보를 캡처할 수 있습니다.
NER에 사전 학습된 언어 모델을 활용하면 기존 접근 방식에 비해 성능이 크게 향상되는 것으로 나타났습니다.일반 프로세스에는 다음 단계가 포함됩니다.
- 미세 조정: 사전 학습된 언어 모델은 레이블이 지정된 NER 데이터 세트를 기반으로 미세 조정되므로 특정 도메인 및 개체 유형에 맞게 조정할 수 있습니다.
- 토큰 레벨 분류: 미세 조정된 모델은 일반적으로 모델 출력 위에 소프트맥스 레이어를 사용하여 입력 텍스트의 각 토큰에 대한 개체 레이블을 예측하는 데 사용됩니다.
- 사후 처리: 주석 체계와 추가 제약 조건 또는 규칙을 고려하여 예측된 토큰 수준 레이블을 사후 처리하여 최종 개체 범위를 얻습니다.
NER용으로 사전 학습된 언어 모델을 미세 조정하면 다음과 같은 몇 가지 이점이 있습니다.
- 개선된 일반화: 사전 학습된 모델은 일반적인 언어 지식을 캡처하여 레이블이 지정된 데이터가 제한된 새로운 도메인 및 개체 유형에 대한 더 나은 일반화를 가능하게 합니다.
- 컨텍스트 표현: 사전 학습된 모델은 상황에 맞는 단어 표현을 생성하여 주변 컨텍스트를 캡처하고 보다 정확한 개체 인식을 가능하게 합니다.
- 전이 학습: 미세 조정을 통해 사전 학습 작업에서 NER 작업으로 지식을 이전할 수 있으므로 레이블이 지정된 대규모 데이터 세트의 필요성이 줄어듭니다.
그러나 사전 학습된 모델을 미세 조정하려면 훈련에 필요한 계산 리소스와 특정 데이터 세트에 과적합될 가능성과 같은 문제도 수반됩니다.
감정 분석
감정 분석은 NLP에서 텍스트 데이터 레이블링의 또 다른 중요한 응용 프로그램입니다.여기에는 고객 리뷰, 소셜 미디어 게시물 또는 뉴스 기사와 같은 특정 텍스트의 감정의 양극성 (긍정적, 부정적 또는 중립적) 을 결정하는 작업이 포함됩니다.기업 및 조직은 감정 분석을 통해 여론에 대한 통찰력을 얻고, 브랜드 평판을 모니터링하고, 데이터를 기반으로 의사 결정을 내릴 수 있습니다.
라벨링 세분성: 문서 수준, 문장 수준, 가로 세로 수준
감정 분석은 작업의 특정 요구 사항에 따라 다양한 세부 수준에서 수행할 수 있습니다.
- 문서 수준의 감정 분석: 여기에는 제품 리뷰 또는 뉴스 기사와 같은 전체 문서 또는 텍스트 스니펫에 단일 감정 레이블을 할당하는 작업이 포함됩니다.개별 문장이나 측면의 감정을 고려하지 않고 텍스트의 전반적인 감정을 제공합니다.
- 문장 수준 감정 분석: 이 접근 방식에서는 문서 내의 각 문장에 감정 레이블을 독립적으로 할당합니다.이를 통해 텍스트의 여러 부분에 표현된 감정을 보다 세밀하게 분석할 수 있습니다.
- 측면 수준 감정 분석: 대상 기반 감정 분석이라고도 하는 이 접근 방식은 텍스트에 언급된 특정 측면 또는 개체에 대한 감정을 식별하는 데 중점을 둡니다.예를 들어 제품 리뷰에서는 측면 수준 감정 분석을 통해 “배터리 수명” 또는 “디스플레이 품질”과 같은 개별 제품 기능에 대한 감정을 파악할 수 있습니다.
적절한 세부 수준을 선택하는 것은 감정 분석 작업의 구체적인 목표와 레이블링 및 교육에 사용할 수 있는 리소스에 따라 달라집니다.
풍자, 아이러니, 비유적 언어 다루기
감정 분석의 어려움 중 하나는 풍자, 아이러니, 비유적 언어를 다루는 것입니다.이러한 언어적 현상은 텍스트의 의도된 감정을 크게 변화시킬 수 있으며 기계가 정확하게 감지하고 해석하기 어려운 경우가 많습니다.
풍자와 아이러니는 사용된 단어의 문자적 의미와 반대되는 감정을 표현하는 것을 포함합니다.예를 들어, “좋아요, 또 지연된 항공편이네요.딱 필요한 물건이었어요!”'훌륭하다'와 'JUST WHAT I NEED NEED (JUST WHAT I NEED) '라는 단어에는 일반적으로 긍정적인 의미가 담겨 있지만 부정적인 감정을 비꼬는 표현입니다.
은유나 관용구와 같은 비유적 언어도 감정 분석에 어려움을 야기합니다.예를 들어, “감정의 롤러코스터였습니다”라는 문구는 기존의 감정 분석 방식으로는 포착할 수 없는 일련의 강렬하고 다양한 감정을 은유적으로 묘사합니다.
풍자, 아이러니, 비유적 언어를 다루기 위해 다음과 같은 몇 가지 기법이 제안되었습니다.
- 문맥적 특징: 주변 문장이나 토론 주제와 같은 문맥 정보를 통합하면 풍자와 아이러니를 감지하는 데 도움이 될 수 있습니다.예를 들어 긍정적인 말 뒤에 부정적인 문장이 온다면 비꼬는 것을 의미할 수 있습니다.
- 감성 변화: “아니요”, “하지만”, “하지만”과 같이 진술의 감정을 바꿀 수 있는 단어나 문구를 식별하면 풍자와 아이러니를 감지하는 데 도움이 될 수 있습니다.이러한 감정의 변화는 표현된 감정의 양극성을 반전시킬 수 있습니다.
- 언어 패턴: 과장, 반복 또는 수사적 질문과 같은 특정 언어 패턴은 풍자 또는 아이러니를 나타낼 수 있습니다.규칙 기반 또는 머신 러닝 접근 방식을 통해 이러한 패턴을 식별하면 감정 분석의 정확도를 높일 수 있습니다.
- 비유적 언어 탐지: 비유적 언어를 감지하고 해석하려면 기본 의미와 문화적 맥락에 대한 심층적인 이해가 필요합니다.지식 기반, 단어 임베딩 또는 비유적 언어 데이터세트를 기반으로 학습한 딥 러닝 모델을 사용하는 등의 접근 방식은 이러한 문제를 해결하는 데 도움이 될 수 있습니다.
감성 분석에서 풍자, 아이러니, 비유적 언어를 다루는 것은 활발한 연구 분야이며, 여러 접근 방식을 결합하고 고급 NLP 기술을 활용하면 더 정확하고 미묘한 감정 예측으로 이어질 수 있습니다.
도메인별 감정 표현식 다루기
감정 분석의 또 다른 과제는 도메인별 감정 표현을 다루는 것입니다.특정 단어나 문구와 관련된 감정은 영역이나 상황에 따라 크게 다를 수 있습니다.
예를 들어 영화 리뷰의 맥락에서 “예측 가능”이라는 단어는 독창성이나 놀라움이 부족함을 나타내는 부정적인 감정을 가질 수 있습니다.그러나 상품 리뷰의 경우 “예측 가능”이라는 표현은 긍정적인 감정을 가질 수 있으며, 이는 신뢰성과 일관성을 시사합니다.
도메인별 감정 표현을 다루기 위해 다음과 같은 몇 가지 접근 방식을 사용할 수 있습니다.
- 도메인 적응: 도메인별 레이블이 지정된 데이터 세트를 대상으로 감정 분석 모델을 학습하면 해당 도메인과 관련된 고유한 감정 표현과 양극성을 파악하는 데 도움이 될 수 있습니다.여기에는 대상 도메인에서 텍스트 데이터를 수집하고 레이블을 지정하고 그에 따라 모델을 미세 조정하는 작업이 포함됩니다.
- 도메인별 어휘: 특정 도메인과 관련된 단어와 구문의 감성 극성을 포착하는 도메인별 감성 어휘를 구축하면 감성 분석의 정확도를 높일 수 있습니다.이러한 어휘는 도메인 전문가가 수동으로 만들거나 데이터 기반 접근 방식을 사용하여 자동으로 생성할 수 있습니다.
- 전이 학습: 다양한 도메인의 대규모 센티멘트 레이블 데이터 세트에 대한 사전 학습과 대상 도메인에 대한 미세 조정과 같은 전이 학습 기법을 활용하면 레이블이 지정된 데이터가 제한된 새로운 도메인에 감정 분석 모델을 적용하는 데 도움이 될 수 있습니다.
- 문맥 임베딩: BERT와 같은 사전 학습된 언어 모델에서 생성된 것과 같은 문맥적 단어 임베딩을 사용하면 주변 컨텍스트를 기반으로 단어의 감정을 포착할 수 있습니다.이를 통해 도메인별 감정 표현을 보다 세부적으로 이해할 수 있습니다.
도메인별 감정 표현을 다루려면 정확하고 신뢰할 수 있는 감정 분석 결과를 보장하기 위해 도메인 지식, 레이블이 지정된 데이터 및 고급 NLP 기술을 조합해야 합니다.
텍스트 데이터 라벨링을 위한 능동적 학습
NER 및 감정 분석을 위해 대규모 텍스트 데이터 세트에 레이블을 지정하려면 시간과 리소스가 많이 소요될 수 있습니다.능동적 학습은 수동 주석을 달 때 가장 유용한 예제를 반복적으로 선택하여 레이블링 작업을 최소화하는 것을 목표로 하는 기법입니다.능동적 학습은 모델의 성능을 개선할 가능성이 가장 높은 예제에 초점을 맞추면 높은 정확도를 유지하면서 필요한 레이블링된 데이터의 양을 크게 줄일 수 있습니다.
NER 및 감정 분석 작업에 액티브 러닝 적용
NER과 감정 분석 작업 모두에 액티브 러닝을 적용하여 라벨링 프로세스를 최적화할 수 있습니다.텍스트 데이터 레이블링을 위한 능동적 학습의 일반적인 워크플로우에는 다음 단계가 포함됩니다.
- 초기 라벨링: 무작위로 선택하거나 도메인 전문가가 신중하게 선택한 라벨이 붙은 작은 예제 세트로 시작합니다.
- 모델 교육: 레이블이 지정된 예제를 사용하여 초기 NER 또는 감정 분석 모델을 훈련합니다.
- 불확실성 샘플링: 학습된 모델을 레이블이 지정되지 않은 대규모 예제 풀에 적용하고 수동 주석을 추가할 불확실성 점수가 가장 높은 예제를 선택합니다.불확실성은 최소 신뢰도, 마진 샘플링 또는 엔트로피 기반 샘플링과 같은 기술을 사용하여 측정할 수 있습니다.
- 수동 주석 달기: 선택한 예제를 인간 주석자에게 제시하여 레이블을 지정합니다.주석자는 주석 지침에 따라 적절한 개체 레이블 또는 감성 극성을 할당합니다.
- 모델 업데이트: 새로 레이블이 지정된 예제를 훈련 세트에 추가하고 확장된 레이블이 지정된 데이터 세트를 사용하여 모델을 다시 훈련합니다.
- 반복: 원하는 성능 수준에 도달하거나 라벨 제작 예산이 소진될 때까지 3-5단계를 반복합니다.
라벨링에 대한 가장 유용한 예제를 반복적으로 선택함으로써 능동적 학습을 통해 데이터 라벨링 파이프라인 최적화 정확한 NER 및 감정 분석 모델의 개발을 가속화합니다.
주석에 유용한 예제를 선택하기 위한 전략
능동적 학습의 성공 여부는 주석을 달 수 있는 유익한 예제를 선택하는 데 사용된 전략에 따라 달라집니다.텍스트 데이터 레이블링 작업을 위한 몇 가지 전략이 제안되었습니다.
- 불확실성 샘플링: 현재 모델의 예측 불확실성이 가장 높은 예를 선택합니다.이는 최소 신뢰도 (가장 가능성이 높은 클래스에 대해 예측 확률이 가장 낮은 예제 선택), 마진 샘플링 (가능성이 가장 높은 두 클래스의 예측 확률 차이가 가장 작은 예제 선택) 또는 엔트로피 기반 샘플링 (예측된 클래스 분포에서 엔트로피가 가장 높은 예제 선택) 과 같은 측정값을 기반으로 할 수 있습니다.
- 다양성 샘플링: 다양하고 기본 데이터 분포를 대표하는 예를 선택합니다.이렇게 하려면 레이블이 지정되지 않은 예제를 의미적 유사성을 기반으로 클러스터링하고 다양한 클러스터에서 예제를 선택하여 데이터 공간에 대한 균형 잡힌 포괄적인 적용 범위를 보장할 수 있습니다.
- 위원회별 쿼리: 레이블이 지정된 데이터를 기반으로 모델 앙상블을 훈련하고 모델의 예측에서 가장 동의하지 않는 예를 선택합니다.이러한 의견 불일치는 투표 엔트로피 또는 KL 다이버전스와 같은 기법을 사용하여 측정할 수 있습니다.의견 차이가 큰 예는 정보를 제공하는 것으로 간주되어 수동 주석으로 사용됩니다.
- 예상 모델 변경: 훈련 세트에 추가할 때 모델의 파라미터 또는 예측에 가장 큰 변화를 일으킬 가능성이 있는 예를 선택합니다.이는 예상 기울기 길이 또는 모델 손실 함수의 예상 변화를 계산하여 추정할 수 있습니다.
선택 전략의 선택은 텍스트 데이터 레이블링 작업의 특정 특성, 사용 가능한 계산 리소스, 능동적 학습 프로세스에서의 탐색과 활용 간의 적절한 균형에 따라 달라집니다.
능동적 학습에서의 탐색과 활용의 균형
능동적 학습의 어려움 중 하나는 탐색과 착취의 균형을 맞추는 것입니다.탐색이란 레이블이 지정되지 않은 데이터 풀에서 다양하고 대표적인 예제를 선택하여 데이터 공간을 포괄적으로 포괄하는 것을 말합니다.반면 활용이란 현재 지식 상태를 기반으로 모델의 성능을 개선할 가능성이 가장 높은 예제를 선택하는 것을 말합니다.
탐색과 착취 사이의 적절한 균형을 유지하는 것은 능동적 학습의 효과를 위해 매우 중요합니다.탐색에 너무 중점을 두면 모델이 가장 많은 정보를 제공하는 예제에서 학습하지 못할 수 있으며 수렴하기 위해 더 많은 반복이 필요할 수 있습니다.반대로, 활용을 너무 강조하면 모델이 데이터 공간의 특정 영역으로 편향되어 중요한 패턴이나 드문 경우를 놓칠 수 있습니다.
탐색과 착취의 균형을 맞추기 위해 다음과 같은 몇 가지 전략을 사용할 수 있습니다.
- Epsilon-Greedy 전략: 엡실론이 나올 확률의 경우 레이블이 지정되지 않은 풀에서 무작위로 예제를 선택하여 탐색하고, 확률이 1-엡실론인 경우 선택한 정보성 측정을 기반으로 예제를 선택하여 활용합니다.탐사와 착취 사이의 균형을 조절하기 위해 엡실론의 값을 조정할 수 있습니다.
- 상한선 (UCB) 알고리즘: 라벨이 지정되지 않은 각 예제의 정보성 측정값과 탐색 보너스를 조합하여 자주 선택하지 않는 예제를 선택할 수 있도록 점수를 부여합니다.UCB 알고리즘은 정보성 점수가 높은 예제를 선호하여 탐색과 활용의 균형을 맞추는 동시에 데이터 공간에서 제대로 탐색되지 않은 영역을 선택하도록 촉진합니다.
- Thompson 샘플링: 모델 매개변수와 이 분포의 표본에 대한 사후 분포를 유지하여 주석을 달 예를 선택합니다.Thompson 샘플링은 현재의 사후 분포를 기반으로 정보를 제공할 가능성이 높은 예제를 선호하면서 동시에 매개변수 공간에서 덜 특정한 영역을 탐색할 수 있게 함으로써 탐색과 활용의 균형을 자연스럽게 맞춥니다.
능동적 학습에서 탐색과 활용의 균형을 맞추는 것은 활발한 연구 영역이며 최적의 전략은 텍스트 데이터 레이블링 작업의 특정 특성과 사용 가능한 계산 리소스에 따라 달라질 수 있습니다.
Sapien: 텍스트 데이터 라벨링을 위한 신뢰할 수 있는 파트너
텍스트 데이터 라벨링은 자연어 처리 (NLP) 프로젝트의 중요한 구성 요소이며, Sapien은 라벨링 요구 사항을 지원할 수 있는 전문 지식을 보유하고 있습니다.숙련된 라벨러 팀이 NER (네임드 엔티티 인식), 감정 분석, 텍스트 분류 등 다양한 텍스트 데이터 라벨링 작업을 처리할 수 있습니다.우리는 인간의 지능과 능동적 학습과 같은 고급 기술을 결합하여 텍스트 데이터에 효율적으로 레이블을 지정하여 고품질 결과를 보장합니다.도메인별 감정 표현을 위한 레이블링이 필요하든, 복잡한 NER 작업을 처리해야 하든, Sapien은 텍스트 데이터 라벨링을 위한 신뢰할 수 있는 파트너입니다.
저희 팀에 연락해 주세요 상담 예약 사피엔 플랫폼을 직접 경험해 보세요.