
GPT-4 같은 대형 언어 모델 (LLM) 을 기반으로 하는 대화형 에이전트는 수억 명의 사람들이 일반 작업에 사용하고 있습니다.그러나 고객 서비스와 같은 영역에서 목표 지향적인 대화를 위해 이들을 전문화하는 것은 여전히 어려운 일입니다.일반적으로 이를 위해서는 사람의 시연 또는 지침이 담긴 대규모 교육 데이터 세트를 수집해야 합니다.새로운 연구 논문에 따르면 LLM 간의 셀프 토크는 학습을 위한 대화를 자동으로 생성할 수 있는 방법을 제공합니다.셀프 토크를 사용하여 작업 중심의 대화 기술을 향상시킨 이 새로운 연구를 살펴보고 LLM의 데이터 레이블링이 이러한 AI 모델을 미세 조정하는 데 어떻게 도움이 되는지 살펴보겠습니다.
더 문제
특정 목표를 달성할 수 있는 대화형 상담원을 구축하는 것은 어렵습니다.표준 접근 방식은 교육을 위한 인간 대화의 예를 수집하는 것입니다.하지만 이 프로세스는 비용과 시간이 많이 듭니다. 특히 상담원이 특정 대화 워크플로를 따르도록 하려는 경우에는 더욱 그렇습니다.예를 들어 불만 사항을 처리하도록 고객 서비스 봇을 교육하려면 많은 실제 대화를 교육 데이터로 사용해야 합니다.
이상적으로는 더 많은 인적 데이터를 수집하지 않고도 LLM을 새로운 대화 작업에 빠르게 적용할 수 있는 방법이 필요합니다.바로 이런 상황에서 혼잣말이 필요합니다.
대화 트레이닝을 위한 셀프 토크
핵심 아이디어는 간단합니다. 두 LLM이 사전 정의된 워크플로에 따라 지정된 역할을 맡아 서로 대화하도록 하는 것입니다.한 LLM은 클라이언트가 목표를 가지고 있는 역할을 하고, 다른 LLM은 대화를 통해 도움을 주려는 에이전트 역할을 합니다.이들의 대화를 통해 교육 예시를 얻을 수 있습니다.
모델에 적절한 프롬프트를 주면 다양한 대화를 만들 수 있습니다.그러면 수집된 대화를 바탕으로 상담원 모델을 미세 조정하여 대화 기술을 개선할 수 있습니다.
이는 게임 AI의 셀프 플레이와 대화형 참여자를 시뮬레이션하기 위한 LLM 사용의 최근 발전에서 영감을 받았습니다.모델 기능과 프롬프트가 충분하다면 혼잣말은 학습 신호를 제공할 수 있습니다.
셀프 토크를 효과적으로 활용하기
물론 LLM 간의 순진한 혼잣말은 종종 품질이 낮은 대화를 낳습니다.그래서 연구원들은 이 방법이 더 잘 작동할 수 있도록 혁신을 도입했습니다.
- 구조화된 프롬프트: 워크플로를 그래프로 분석하여 단계별 의사 결정을 안내합니다.
- 필터링: 상담원 교육을 위해 성공적인 대화만 진행
- 개별 모델: 에이전트와 클라이언트에 서로 다른 LLM을 사용하여 다양성 증대
- 자동 지표: 대화의 성공, 일관성 및 다양성 평가
이러한 구성 요소는 실험 중에 목표 달성 및 워크플로우에서 측정 가능한 향상을 가져왔습니다.또한 이 메트릭을 통해 교육 관련 대화를 효과적으로 만드는 요소를 분석할 수 있었습니다.
결과
필터링 및 미세 조정 후:
- 셀프 토크 중에 상담원이 워크플로를 완료하는 능력이 향상되었습니다.
- 성공률이 26% 에서 36% 로 증가했습니다.
- 인간의 판단과 밀접한 상관관계가 있는 자동화된 지표
- 상담원이 더 많은 도움을 주고 일관성을 유지하며 인원별 평가를 받을 수 있게 되었습니다.
그러나 몇 가지 일반적인 오류가 남아 있습니다.
- 잘 시작한 후 워크플로우 무시
- 예기치 않게 다시 시작되거나 루프에서 멈춤
따라서 개선의 여지가 있지만 전반적인 혼잣말은 훈련 기법으로서의 가능성을 보여줍니다.
제한 및 윤리
다른 AI 방식과 마찬가지로 셀프 토크에도 한계가 있습니다.
- 작업 중심의 대화와 열린 대화에 집중
- 대형 모델 및 세심한 프롬프트 필요
- 품질과 다양성은 여전히 개선이 필요합니다
윤리적 고려 사항도 있습니다.
- 혼잣말은 LLM의 해로운 편견을 증폭시킬 수 있습니다
- 악의적인 사용은 기만적인 대화 에이전트를 만들 수 있습니다
따라서 이 접근 방식이 완벽하다고 가정할 수는 없습니다.혼잣말을 강력하고 유익하게 만들기 위해서는 연구가 필요합니다.
최근 연구에 따르면 셀프 토크는 인적 데이터 없이도 목표 지향적인 대화 주체를 부트스트랩할 수 있습니다.자동화된 메트릭은 필터링과 미세 조정을 통해 반복적인 개선을 가능하게 했습니다.
LLM을 사용하여 셀프 플레이를 통해 스스로 훈련할 수 있는 잠재력은 무궁무진합니다.하지만 이러한 잠재력을 책임감 있게 실현하는 것은 여전히 미해결 과제입니다.모델의 활용도가 높아짐에 따라 셀프 토크는 적응력이 뛰어나고 유용한 대화형 AI로 향하는 유망한 길을 제공합니다.
셀프 토크 모델 개선을 위한 데이터 라벨링
이 연구는 셀프 토크를 사용하여 작업 중심의 대화 에이전트를 교육할 수 있다는 가능성을 보여주었습니다.하지만 대화의 질이 낮고 워크플로를 무시하는 등의 실패는 여전히 문제로 남아 있었습니다.사람이 데이터에 레이블을 지정하면 다음 두 가지 방법으로 이러한 문제를 해결하는 데 도움이 될 수 있습니다.
더 나은 필터링을 위한 라벨링
현재 대화는 완료된 워크플로 단계와 같은 지표를 기반으로 자동으로 필터링됩니다.하지만 이로 인해 좋거나 나쁜 대화의 미묘한 단서가 누락될 수 있습니다.
레이블러가 셀프 토크 데이터의 하위 집합에 주석을 달도록 하면 더 많은 안목 있는 필터를 트레이닝할 수 있습니다.일관성, 일관성, 목표 달성 등을 위한 레이블은 분류자가 상담원 교육에 가장 적합한 대화를 선택하도록 감독할 수 있습니다.
이 필터링은 에이전트를 미세 조정하기 위한 고품질 데이터 세트를 생성할 수 있습니다.
디버깅 실패에 대한 레이블 지정
필터링 외에도 인간의 통찰력은 혼잣말 중에 발생하는 일반적인 장애 모드를 진단하는 데 도움이 될 수 있습니다.
상담원이 프롬프트를 무시하거나 반복적이거나 혼란스러워하는 경우 주석을 달아 대화에 태그를 지정할 수 있습니다.이러한 실패 사례를 분석하면 일관된 패턴이 문제를 유발하는지 알 수 있습니다.
레이블링을 통한 디버깅은 프롬프트 및 워크플로우 개선을 유도하여 가장 심각한 문제를 완화할 수 있습니다.
타겟 데이터 라벨링은 투명성과 피드백을 제공합니다.여기에는 최고의 인적 감독과 자동화된 자가 학습이 결합되어 있습니다.
Sapien과 함께 데모를 예약하여 LLM을 위한 데이터 라벨링 서비스에 대해 자세히 알아보십시오.
사피엔 고성능 LLM (대형 언어 모델) 교육을 위해 특별히 맞춤화된 전문 데이터 레이블링 서비스를 제공합니다.당사의 도메인 전문가, 글로벌 라벨러 네트워크 및 독점 기술을 통해 편향을 최소화하면서 모델의 성능을 극대화할 수 있습니다.
Sapien과의 파트너십을 통해 LLM의 개발 주기 단축, 성능 향상, 편향 감소, 비용 효율적인 데이터 사용, 미래 경쟁력을 확보할 수 있습니다. 데모 예약 정밀 데이터 라벨링이 LLM의 잠재력을 최대한 발휘하는 방법을 알아보십시오.