소개
SPARCS

커스텀 데이터 학습하기(튜닝)

생성일
2024/07/23 03:10
태그
튜닝 과정은 많은 시간과 큰 크레딧을 소모할 수 있습니다. 반드시 이용요금 계산기를 통해 예상 비용을 확인하고 튜닝을 진행해주세요. 초과로 발생된 비용에 대해서는 운영진이 책임지지 않습니다.

새 작업 생성

새 작업을 생성하여 사전 학습된 모델의 일부를 사용자 데이터셋에 맞게 재학습하여 테스트할 수 있습니다. 튜닝 작업을 생성하려면 업로드 조건에 적합한 데이터셋이 필요하며, 데이터 건수가 많을수록 튜닝 결과물의 성능이 향상됩니다. 데이터셋에 관한 자세한 내용은 데이터셋 준비를 참고해 주십시오.
주의
정상적인 학습 진행 및 성능 보장을 위해 데이터셋 규격을 반드시 준수해 주십시오.
새 작업을 생성하는 방법은 다음과 같습니다.
1.
네이버 클라우드 플랫폼 콘솔에서 Services > AI Services > CLOVA Studio 메뉴를 차례대로 클릭해 주십시오.
2.
My Product 메뉴를 클릭한 후 [CLOVA Studio 바로가기] 버튼을 클릭해 주십시오.
3.
튜닝 메뉴를 클릭해 주십시오.
4.
작업할 종류의 [생성하기] 버튼을 클릭해 주십시오.
튜닝은 총 7개의 작업 종류와 직접 학습할 수 있는 API를 제공합니다.
작업 종류를 선택할 경우, 카드 형태로 작업 종류에 대한 설명과 응용 사례를 확인할 수 있습니다.
API를 선택할 경우, 직접 API를 호출하여 학습을 진행할 수 있습니다.
참고
API로 학습을 진행할 경우 API 가이드를 참고해 주십시오.
학습 생성과 조회는 서비스 페이지에 안내된 API 명세대로 호출이 가능하나, 학습한 모델의 결괏값을 생성하기 위한 Chat Completion API, Completion API를 사용하기 위해서는 기존과 동일하게 테스트 앱을 생성해 주십시오.
5.
팝업 창이 나타나면 모델 엔진을 선택한 후 [생성] 버튼을 클릭해 주십시오.
모델 엔진은 추후 변경할 수 없습니다.
모델 엔진에 관한 자세한 설명은 Engine을 참고해 주십시오.
6.
작업 이름을 입력해 주십시오.
7.
파일 업로드 영역을 클릭하여 개인 정보 및 유해 정보 안내 내용을 확인한 후 데이터셋을 업로드해 주십시오.
.csv 파일의 경우, 포맷 다운로드를 클릭하여 데이터셋 포맷 파일을 다운로드할 수 있습니다.
데이터셋 업로드에 성공한 경우, 파일 업로드 영역에 데이터셋 파일명과 크기가 표시됩니다.
데이터셋 업로드에 성공하더라도, 최적의 성능을 위해 개선이 권장될 경우 주의사항 확인을 클릭하여 주의 사항을 확인할 수 있습니다.
데이터셋 업로드에 실패한 경우, 파일 업로드 영역에 파일명과 실패 사유 메시지가 표시됩니다. 상세보기를 클릭하여 ​구체적인 오류사항을 확인할 수 있습니다.
8.
[다음] 버튼을 클릭해 주십시오.
9.
토큰 산정 팝업 창이 나타나면 예상 사용 토큰을 확인한 후 [학습] 버튼을 클릭해 주십시오.
10.
학습 대기 중 팝업 창의 내용을 확인한 후 [확인] 버튼을 클릭해 주십시오.
사용자명 > 내 작업 > [튜닝] 탭에서 학습 현황을 확인할 수 있습니다.

학습 현황 확인

학습 현황을 확인하는 방법은 다음과 같습니다.
1.
네이버 클라우드 플랫폼 콘솔에서 Services > AI Services > CLOVA Studio 메뉴를 차례대로 클릭해 주십시오.
2.
My Product 메뉴를 클릭한 후 [CLOVA Studio 바로가기] 버튼을 클릭해 주십시오.
3.
화면 우측 상단에 있는 사용자명을 선택한 후 내 작업 메뉴를 클릭해 주십시오.
4.
[튜닝] 탭을 클릭해 주십시오.
새 작업 생성하기: 클릭하면 [새 작업] 탭으로 이동
/ : 클릭하여 정렬 방식 변경
학습 대기중: 학습 대기 중인 상태이며, 클릭하면 학습 대기 중 팝업 창이 나타남
학습 중: 학습을 진행 중인 상태이며, 클릭하여 예상 소요 시간 확인 가능
학습 완료: 학습을 완료한 상태이며, 클릭하여 작업 정보 확인 및 테스트 가능
학습 중단: 학습을 중단한 상태

학습 완료 작업 정보 확인

학습 완료한 작업을 클릭하면 작업 정보를 확인할 수 있습니다.
생성 일시: 새 작업 생성 일시
학습 완료 일시: 학습을 완료한 일시
Workflow ID: 학습 중인 작업을 식별하는 ID
Problem Type: 작업 종류
Model Engine: 학습된 언어 모델의 종류
Dataset: 학습에 사용한 데이터셋 파일명
Train Loss: 모델이 데이터셋에 얼마나 적합한지를 알려주는 수치로, Train Loss가 낮을수록 정답과의 오차가 적음
Tokens Used: 실제 사용된 토큰 수

학습한 모델 활용하기

API 활용하기 부분을 참고하여 테스트 앱을 생성하여 활용하실 수 있습니다.