데이터 라벨링 상담 예약

AI 프로젝트를 위한 고품질 데이터를 활용하세요
특정 요구 사항에 맞는 맞춤형 워크플로
도메인 지식을 갖춘 전문가 어노테이터
정확한 결과를 위한 신뢰할 수 있는 QA
AI 데이터 라벨링을 최적화하려면 지금 상담을 예약하세요 >
상담 예약
블로그로 돌아가기
/
Text Link
This is some text inside of a div block.
/
대규모 언어 모델 (LLM) 시대의 자연어 처리 가이드

대규모 언어 모델 (LLM) 시대의 자연어 처리 가이드

3.15.2024

언어 모델 (LM) 은 1980년대에 시작된 이래로 자연어에서 관찰된 속성을 통계적으로 모델링하기 위한 수단으로 40년 이상 사용되어 왔습니다 (Rosenfeld, 2000).텍스트 모음이 입력으로 주어지면 언어 모델은 해당 텍스트로부터 단어의 빈도와 확률, 주변 문맥과 같은 언어의 통계적 속성을 계산하며, 이를 자연어 이해 (NLU), 생성 (NLG), 추론 (NLR), 더 넓게는 처리 (NLP) 등 다양한 목적으로 사용할 수 있습니다.다음은 자연어 처리 및 대규모 언어 모델 (LLM) 에 대한 개요와 Sapien의 LLM용 데이터 레이블링 서비스가 AI 모델을 미세 조정하고 훈련하는 데 어떻게 도움이 되는지에 대한 개요입니다.

자연어 모델링에 대한 이러한 통계적 접근은 패턴의 관찰과 확률적 표현을 통해 언어를 모델링할 수 있다고 주장하는 사람들과 그러한 접근 방식이 초보적이며 언어에 대한 올바른 이해는 언어 이론에 기반을 두어야 한다고 주장하는 사람들 사이에서 수십 년 동안 논쟁을 불러일으켰습니다.

텍스트 컬렉션의 가용성이 증가하고 향상된 계산 리소스에 대한 접근성이 높아짐에 따라 NLP 분야에 혁명을 일으켜 대규모 언어 모델 (LLM) 이 과학계에 도입된 것은 최근의 일입니다 (Min et al., 2023).LLM은 1980년대에 도입된 기존 LM과 동일한 기본 직관에 따라 대규모 텍스트 컬렉션에서 얻은 통계적 언어 속성을 확장합니다.

기존 LM과 마찬가지로 언어의 통계적 속성을 모델링하는 논리에 따라 연구자들은 오늘날의 계산 리소스를 사용하여 경우에 따라 거의 전체 웹을 포함할 수도 있는 방대한 텍스트 모음에서 학습한 훨씬 더 큰 LLM을 훈련할 수 있다는 것을 입증했습니다.그러나 논란이 없는 것은 아닙니다. 특히 이러한 대규모 텍스트 컬렉션을 사용하면 품질보다 양을 우선시하기 때문입니다. 전체 웹이 사용될 때 모델에 어떤 데이터가 입력되는지 제어할 수 없기 때문입니다. 전체 웹이 사용될 때 실제로 모델에 어떤 데이터가 입력되는지 제어할 수 없기 때문입니다.

LLM의 급증은 2010년대 후반부터 점진적으로 증가했으며 파장을 일으켰습니다.단어를 임베딩 형태로 간결하게 표현하기 위해 word2vec 및 GloVe와 같은 단어 임베딩 모델을 도입한 물결에 이어 BERT, Roberta 및 T5를 비롯한 트랜스포머 아키텍처 위에 구축된 LLM이 등장하면서 첫 번째 큰 물결이 일어났습니다.최근에는 챗봇, 구글 바드 (Google Bard) 와 같은 챗봇과 라마, 알파카, 리머 (Lama), 알파카 (Alpaca), 리머 (Lemur) 와 같은 오픈소스 대안을 비롯한 제너레이티브 AI 모델이 급증하고 있습니다.결과적으로 이러한 LLM을 활용할 수 있는 다양한 방법을 개발하게 되었습니다. 여기에는 NLG를 위한 방법뿐만 아니라 몇 개의 텍스트 분류를 위한 패턴 악용 교육 (PET) 과 같은 프롬프트 방법을 사용하는 것도 포함됩니다.LLM은 일반적으로 상당한 계산 능력과 시간을 필요로 하는 기존의 대규모 데이터 세트를 기반으로 사전 학습된 모델이지만, 이러한 모델은 나중에 더 적은 노력으로 특정 영역에 맞게 미세 조정할 수 있습니다.

최근 몇 년 동안 LLM은 많은 NLP 작업에서 최첨단 성능을 달성하는 것으로 입증되었으며, 그 결과 많은 실험 환경에서 사용되는 사실상의 기준 모델이 되었습니다.그러나 LLM의 위력은 악의적인 목적으로도 활용될 수 있다는 증거가 있습니다. 여기에는 LLM을 사용하여 부정 행위로 학교 과제를 완료하도록 지원하거나 불쾌감을 주거나 잘못된 정보를 퍼뜨리는 콘텐츠를 생성하는 등 악의적인 목적으로도 활용될 수 있습니다.

LLM의 뛰어난 성과는 필연적으로 인공 지능 도구가 사회에 미칠 수 있는 윤리적 영향에 의문을 제기하면서 인공 지능 도구가 결국 많은 사람들의 일자리를 빼앗을 수 있다는 두려움을 불러일으켰습니다.이로 인해 연구가 촉발되었습니다. 최근 연구에서는 AI 도구가 인간의 노동을 대체하기보다는 오히려 지원하고 성과를 높일 수 있는 도구를 채택하는 것을 제안하고 있습니다.

한계 및 미해결 과제

LLM의 성공은 논란의 여지가 없는 것이 아니며, 이는 결국 NLP에 대한 지속적인 연구를 형성하고 이러한 LLM을 개선하기 위한 더 많은 연구를 위한 길을 열어줍니다.다음은 LLM의 주요 제한 사항 중 일부이며, 이에 대한 추가 탐구가 필요합니다.

블랙박스 모델

주류 인기를 얻은 최초의 주요 LLM 기반 챗봇 시스템인 OpenAI의 ChatGPT가 출시된 후 시스템의 블랙박스 특성에 대한 우려가 제기되었습니다.실제로 ChatGPT가 어떻게 구현되었는지와 ChatGPT가 모델 학습에 어떤 데이터를 사용했는지에 대한 정보는 공개되어 있지 않습니다.NLP 연구자들의 관점에서 볼 때, 이는 해당 모델의 투명성과 재현성에 대한 심각한 우려를 불러일으키는데, 이는 모델에서 무슨 일이 일어나고 있는지 모를 뿐만 아니라 재현성을 방해하기 때문입니다.특정 날짜에 ChatGPT를 사용하여 몇 가지 실험을 수행하면 다른 사람이 나중에 (또는 틀림없이 같은 날짜에도) 해당 결과를 재현할 수 있다는 보장이 없으며, 이는 ChatGPT 기반 연구의 유효성과 영향 및 일반화 가능성을 감소시킵니다.

ChatGPT와 같은 블랙박스 모델에 대한 영향을 줄이고 이해를 높이기 위해 연구원들은 예를 들어 모델이 학습에 어떤 데이터를 사용했는지 알아내는 등 이러한 모델을 리버스 엔지니어링하는 방법을 조사하기 시작했습니다.

하지만 다행스럽게도 최근 NLP 과학 커뮤니티에서 오픈 소스 모델이 급증하면서 페이스북의 라마 2와 스탠포드의 알파카와 같은 모델과 BLOOM과 같은 다국어 모델도 출시되었습니다.또한 최근 연구에 따르면 이러한 오픈 소스 대안의 성능은 ChatGPT와 같은 폐쇄형 모델과 대등한 경우가 많습니다 (Chen et al., 2023).

데이터 오염 위험

데이터 오염은 “다운스트림 테스트 세트가 프리트레인 코퍼스에 들어갈 때” 발생합니다 (Magar and Schwartz, 2022).대규모 텍스트 컬렉션을 대상으로 학습한 LLM이 테스트 시 평가를 위해 제공한 데이터를 이미 확인한 경우 모델은 인상적이면서도 비현실적인 성능 점수를 보여줍니다.실제로 연구에 따르면 데이터 오염은 빈번하고 중대한 영향을 미칠 수 있습니다 (Deng et al., 2023; Golchin과 Surdeanu, 2023).공정하고 현실적인 평가를 위해서는 연구자가 이전에 LLM이 테스트 데이터를 보지 못했는지 확인하는 것이 매우 중요합니다.하지만 블랙박스 모델로는 이를 알아내기가 거의 불가능하지는 않더라도 어려운 일이며, 이는 다시 한 번 투명한 오픈 소스 LLM의 사용을 장려합니다.

LLM 모델의 편향

LLM 교육에 대규모 데이터 세트를 사용한다는 것은 해당 데이터 세트에 편향되거나 고정관념화된 정보가 포함될 가능성이 매우 높다는 의미이기도 하며, LLM은 이를 증폭시키는 것으로 나타났습니다.연구에 따르면 LLM이 생성한 텍스트에는 참조 서신을 작성할 때 여성에 대한 고정관념이 포함되어 있습니다 (Wan et al., 2023). 이는 LLM이 실제로 교육 데이터에 내재된 젠더 편견을 증폭시켜 성별 그룹과 직업 간의 고정관념적 연결 가능성을 높인다는 것을 시사합니다 (Kotek et al., 2023).또 다른 최근 연구 (Navigli et al., 2023) 에서도 LLM은 성별, 연령, 성적 취향, 외모, 장애 또는 인종을 포함한 수많은 인구 통계학적 특성에 대해 편견을 보이는 것으로 나타났습니다.

불쾌감을 주는 콘텐츠 생성

LLM에 내재된 편견은 때때로 악화되어 불쾌감을 줄 수 있는 콘텐츠를 생성하기도 합니다.이러한 방향의 연구에서는 LLM에 제공되는 교육 데이터를 최적으로 선별하여 불쾌감을 주는 샘플을 학습하지 않도록 하는 동시에 유해한 텍스트의 생성을 유도하여 출처를 파악하는 방법을 모색하고 있습니다.이 연구는 LLM의 편향성과 공정성에 관한 위의 요점과 밀접한 관련이 있으며, 편견과 피해의 감소를 살펴봄으로써 두 연구 모두 공동으로 연구할 수 있습니다.의 발전 자연어 생성 시스템이 더 안전하고 윤리적인 결과물을 생산할 수 있도록 하여 이러한 문제를 완화하는 데 중요한 역할을 합니다.

OpenAI의 ChatGPT와 같은 일부 시스템은 서비스 약관에서 불쾌감을 주는 콘텐츠를 생성할 위험을 인정합니다.

“당사 서비스는 OpenAIS 견해를 나타내지 않는 불완전하거나 부정확하거나 공격적인 출력을 제공할 수 있습니다.Output이 타사 제품 또는 서비스를 참조한다고 해서 해당 제3자가 OpenAI를 보증하거나 제휴하고 있다는 의미는 아닙니다.”

프라이버시

LLM은 또한 교육 데이터에서 검색한 민감한 정보를 캡처할 수 있습니다.이 정보는 사람이 읽을 수 없는 임베딩으로 인코딩되지만, 적대적 사용자가 해당 임베딩을 리버스 엔지니어링하여 민감한 정보를 복구할 수 있으며, 이는 관련 개인에게 피해를 줄 수 있다는 것이 밝혀졌습니다.

불완전한 정확도

LLM이 놀라운 성능을 달성한다는 초기 인상에도 불구하고 모델 출력을 자세히 살펴보고 조사해 보면 개선의 여지가 크다는 것을 알 수 있습니다.LLM 평가는 그 결과 광범위한 연구 분야가 되었습니다.

LLM의 많은 단점과 부정확한 결과를 알고 있기 때문에 주요 LLM의 제작 및 출판을 담당하는 회사는 모두 해당 모델의 한계에 대한 고지 사항을 가지고 있습니다.예를 들어, ChatGPT 소유주인 OpenAI는 웹 사이트의 초기 고지 사항을 통해 다음과 같이 인정합니다.

“출력이 항상 정확하지는 않을 수 있습니다.당사 서비스의 결과를 진실 또는 사실 정보의 유일한 출처로서, 또는 전문가의 조언을 대체하는 용도로 사용해서는 안 됩니다.”

Google은 또한 LLM 기반 챗봇 Bard의 한계에 대해 다음과 같이 경고합니다.

“바드는 실험적인 기술이기 때문에 때로는 부정확하거나 Google의 견해를 반영하지 않는 부적절한 정보를 제공할 수 있습니다.”

“바드의 답변을 의료, 법률, 재정 또는 기타 전문적인 조언으로 의존하지 마십시오.”

페이스북은 플래그십 모델인 라마 2에 대해서도 비슷한 고지 사항을 가지고 있습니다.

“Llama 2의 잠재적 출력은 미리 예측할 수 없으며, 모델은 경우에 따라 사용자 프롬프트에 대해 부정확하거나 편향되거나 기타 불쾌한 응답을 생성할 수 있습니다.Lama 2의 애플리케이션을 배포하기 전에 개발자는 모델의 특정 애플리케이션에 맞게 안전 테스트와 튜닝을 수행해야 합니다.”

모델 환각

LLM에서 생성한 응답과 출력은 상식과는 거리가 있는 경우가 많습니다. 예를 들어 생성된 텍스트가 특정 주제에 대해 논의하기 시작한 후 직관적이지 않은 다른 관련 없는 주제로 옮겨가거나 잘못된 사실을 언급할 수도 있습니다.LLM 환각은 “실제 사실과 다른 콘텐츠를 생성하여 불충실한 결과를 초래하는 것”으로 정의되었습니다 (Maynez et al., 2020; Rawte et al., 2023).모델 환각을 더 잘 이해하기 위한 노력은 탐지, 설명 및 완화를 비롯한 다양한 작업에 초점을 맞추고 있으며, RAG (Retrieval-Augmented Generation) 와 같은 일부 초기 솔루션이 현재까지 제안되었습니다.

설명 가능성의 부족

LLM 모델은 복잡하기 때문에 LLM 모델이 특정 예측을 하거나 특정 출력을 생성하는 이유를 이해하기가 매우 어려운 경우가 많습니다.이는 또한 시스템 사용자에게 모델 출력에 대한 설명을 제공하기가 매우 어렵다는 의미이기도 합니다. 따라서 LLM의 설명 가능성을 심화하려면 더 많은 조사가 필요합니다.

LLM의 도입과 인기 급증은 NLP 연구에 영향을 미치고 변화를 일으켰습니다.10년 전 NLP 연구 및 방법의 대부분은 Bag-of-Words 및 TF-IDF 기반 방법을 사용한 단어 표현과 로지스틱 회귀 또는 서포트 벡터 머신 분류기와 같은 기계 학습 알고리즘의 사용에 중점을 두었습니다.대규모 데이터 세트를 처리하고 더 복잡한 컴퓨팅을 처리할 수 있는 컴퓨팅 용량의 증가는 딥 러닝 모델의 르네상스로 이어졌고, 결과적으로 LLM의 등장으로 이어졌습니다.

데이터 라벨링을 통한 편향 감소

대규모 언어 모델의 주요 문제 중 하나는 학습 데이터에 존재하는 편향에서 물려받은 편향되거나 고정관념적인 내용을 증폭하고 생성하는 경향이 있다는 것입니다.고품질 데이터 레이블링은 연구자가 데이터 전처리 중에 편향된 텍스트와 콘텐츠에 적절하게 레이블을 지정할 수 있도록 하여 이러한 문제를 완화하는 데 도움이 될 수 있습니다.

인종, 성별, 성적 취향 등과 같은 민감한 속성에는 교육 데이터 세트에 주석을 달 수 있습니다.유해한 고정관념과 비유가 포함된 텍스트에도 플래그를 지정할 수 있습니다.다양한 배경과 관점을 가진 데이터 레이블러가 참여하여 다양한 관점에서 편향된 콘텐츠를 식별해야 합니다.편향된 텍스트와 편향되지 않은 텍스트를 구분하는 명시적 레이블을 사용하면 편견이 있는 콘텐츠 생성에 불이익을 주도록 모델을 학습시킬 수 있습니다.

연구에 따르면 특정 텍스트가 편향되거나 편향되지 않은 이유를 설명하는 인간적 근거로 교육을 보완하면 모델 이해가 더욱 향상됩니다.전반적으로 사려 깊은 데이터 레이블링을 통해 모델은 유해한 결과를 인식하고 이를 방지할 수 있습니다.

데이터 주석을 통한 정확도 향상

오늘날 대형 언어 모델은 여전히 일관성 없는 실수를 범하고 사실과 다른 내용을 환각합니다.포괄적인 데이터 주석은 모델 정확도를 높일 수 있습니다.

인간 라벨러는 텍스트의 사실적 정확성을 확인하고 잘못된 정보에 태그를 지정할 수 있습니다.정확도를 나타내는 레이블이 지정된 데이터 세트를 통해 모델은 신뢰할 수 있는 콘텐츠와 신뢰할 수 없는 콘텐츠를 비교하는 방법을 학습합니다.연구에 따르면 정확성에 대한 판단을 정당화하는 인간의 이론적 근거를 모방하도록 모델을 학습시키면 정확도가 향상되는 것으로 나타났습니다.

상식적인 단서, 실제 지식 및 구조화된 데이터로 데이터에 주석을 달 수도 있습니다. 지식 기반 시스템.이를 통해 모델을 논리적 추론에 적용하고 무분별한 환각을 방지할 수 있습니다.모델이 광범위하게 정확해지려면 다양한 영역/주제를 다루는 다양한 교육 세트를 계속 구축해야 합니다.

데이터 스크러빙을 통한 개인정보 보호 강화

대규모 언어 모델은 교육 데이터에 의도치 않게 유출된 사람들의 개인 정보를 노출시킬 위험이 있습니다.데이터 레이블은 개인 정보를 보호하는 데 도움이 될 수 있습니다.

이름, 위치, ID, 연락처 등과 같은 민감한 개인 정보를 데이터세트에서 제거할 수 있습니다.라벨링 중에는 개인을 식별하거나 프로파일링할 수 있는 모든 것을 제거하거나 자리 표시자로 바꿔야 합니다.수정된 정보를 둘러싼 컨텍스트를 모호하게 만들어 모델이 이를 간접적으로 추론하는 것을 방지할 수도 있습니다.

엄격한 데이터 라벨링 프로토콜을 수립하여 개인 정보 데이터 세트를 제거하면 개인 정보 침해를 억제할 수 있습니다.적절하게 스크러빙된 데이터를 기반으로 학습한 모델은 개인 정보를 기억하고 노출할 가능성이 적습니다.

데이터 문서화를 통한 투명성 향상

많은 대형 언어 모델은 불투명하기 때문에 학습에 어떤 데이터가 사용되었는지 감사하기가 어렵습니다.레이블 지정을 통한 광범위한 데이터 문서화는 투명성을 높일 수 있습니다.

소스, 볼륨, 주제 범위, 인구통계학적 분할 등 자세한 메타데이터를 데이터세트에 기록할 수 있습니다. 데이터세트의 강점/약점을 문서화하면 보완해야 할 부분이 드러납니다.또한 데이터 라벨러는 삭제를 위한 증오심 표현과 같은 불쾌한 콘텐츠를 식별할 수 있습니다.

포괄적인 데이터 세트 문서를 통해 연구자는 더 나은 교육 데이터와 적절한 크기의 모델을 선택할 수 있습니다.상세한 데이터 저널은 모델 동작 및 결함을 분석하는 데 도움이 됩니다.전반적으로 세심한 데이터 레이블링 및 감사를 통해 투명한 모델 개발이 가능합니다.

LLM을 위한 고품질 데이터 라벨링에 대한 Sapien의 데모 예약

사피엔의 고품질 데이터 레이블링 서비스는 조직이 특정 요구 사항에 최적화된 최첨단 대형 언어 모델 (LLM) 을 개발하는 데 도움이 될 수 있습니다.당사의 도메인 전문가가 교육 데이터에 꼼꼼하게 주석을 달아 편향 및 정확성과 같은 주요 문제를 해결하는 동시에 완전한 투명성을 제공합니다.

데모 예약 오늘 우리와 함께 LLM 목표에 대해 논의하십시오.우리 팀은 고객과 협력하여 다중 주석자 합의, 이상값 탐지, 능동적 학습과 같은 검증된 기술을 활용하여 맞춤형 데이터 전략을 수립할 것입니다.워크플로우와 원활하게 통합하여 정밀하게 레이블링된 데이터를 빠르게 제공하고 모델 성능을 향상시키는 동시에 비용을 절감합니다.

데이터 라벨링 작동 방식 보기

Sapien의 데이터 라벨링 및 데이터 수집 서비스가 음성-텍스트 AI 모델을 어떻게 발전시킬 수 있는지 알아보려면 당사 팀과 상담을 예약하세요.