AI Filter
네이버 AI 윤리 준칙 준수의 관점에서 사용자는 AI Filter 기능을 설정할 수 있습니다. AI Filter는 플레이그라운드에서 생성된 테스트 앱(혹은 서비스 앱을 포함)으로부터 욕설 등 부적절한 결과물이 출력되는 것을 감지하여 사용자에게 알려주는 기능입니다.
현재 AI Filter는 욕설 등 부적절한 표현에 대한 분석 결과를 제공하며, 내용에서 감지된 위험도에 따라 0에서 2 사이의 레이블을 부여합니다. 각 레이블의 설명은 다음과 같습니다.
레이블 | 설명 |
0 | 텍스트 내에 욕설 등 부적절한 표현이 포함될 가능성이 높음 |
1 | 텍스트 내에 욕설 등 부적절한 표현이 포함될 가능성이 있음 |
2 | 텍스트 내에 욕설 등 부적절한 표현이 포함될 가능성이 낮음 |
사용자는 AI Filter 분석 결과를 바탕으로 내용의 위험도를 낮추기 위해 적절한 대응 방안을 마련해야 합니다. 예를 들어, 결과물에 대한 AI Filter 응답이 0이라면 최종 사용자에게 해당 결과물을 반환할 수 없음을 알리고, 새로운 입력을 제안하는 것이 더 안전합니다.
단, AI Filter는 위험을 감지하는 것에 집중된 모델로서 오탐지가 발생할 수 있으며 지속적으로 변화하는 환경 요소(법률, 신조어, 문맥상의 의미, 사회 변화에 따른 단어 및 문장 등의 의미 변화, 특정 단어에 대한 임의적 의미 부여 등)에 따라 위험 감지가 어려울 수도 있기 때문에 완벽한 안전장치가 될 수 없습니다. 욕설 등 부적절한 출력이 우려된다면 AI Filter를 사용하여 적절한 대응 방안을 마련하는 것뿐만 아니라 입력할 프롬프트를 설계하는 단계에서부터 주의를 기울여야 합니다. CLOVA Studio에서 권장하는 안전한 앱 이용 사례는 CLOVA Studio 예제 가이드를 참조해 주십시오.
주의
AI Filter의 제약 사항은 다음과 같습니다.
•
AI Filter는 요청되는 텍스트를 최대 500자로 제한합니다. 500자 이상의 텍스트는 정상적으로 분석할 수 없습니다.
•
요청되는 텍스트 내 비정상적인 형식, 이모티콘 및 특수 문자 등이 많으면 제대로 분석되지 않을 수 있습니다.