소개
SPARCS

AI Filter 활용하기

생성일
2024/07/23 03:10
태그

AI Filter

네이버 AI 윤리 준칙 준수의 관점에서 사용자는 AI Filter 기능을 설정할 수 있습니다. AI Filter는 플레이그라운드에서 생성된 테스트 앱(혹은 서비스 앱을 포함)으로부터 욕설 등 부적절한 결과물이 출력되는 것을 감지하여 사용자에게 알려주는 기능입니다.
현재 AI Filter는 욕설 등 부적절한 표현에 대한 분석 결과를 제공하며, 내용에서 감지된 위험도에 따라 0에서 2 사이의 레이블을 부여합니다. 각 레이블의 설명은 다음과 같습니다.
레이블
설명
0
텍스트 내에 욕설 등 부적절한 표현이 포함될 가능성이 높음
1
텍스트 내에 욕설 등 부적절한 표현이 포함될 가능성이 있음
2
텍스트 내에 욕설 등 부적절한 표현이 포함될 가능성이 낮음
사용자는 AI Filter 분석 결과를 바탕으로 내용의 위험도를 낮추기 위해 적절한 대응 방안을 마련해야 합니다. 예를 들어, 결과물에 대한 AI Filter 응답이 0이라면 최종 사용자에게 해당 결과물을 반환할 수 없음을 알리고, 새로운 입력을 제안하는 것이 더 안전합니다.
단, AI Filter는 위험을 감지하는 것에 집중된 모델로서 오탐지가 발생할 수 있으며 지속적으로 변화하는 환경 요소(법률, 신조어, 문맥상의 의미, 사회 변화에 따른 단어 및 문장 등의 의미 변화, 특정 단어에 대한 임의적 의미 부여 등)에 따라 위험 감지가 어려울 수도 있기 때문에 완벽한 안전장치가 될 수 없습니다. 욕설 등 부적절한 출력이 우려된다면 AI Filter를 사용하여 적절한 대응 방안을 마련하는 것뿐만 아니라 입력할 프롬프트를 설계하는 단계에서부터 주의를 기울여야 합니다. CLOVA Studio에서 권장하는 안전한 앱 이용 사례는 CLOVA Studio 예제 가이드를 참조해 주십시오.
주의
AI Filter의 제약 사항은 다음과 같습니다.
AI Filter는 요청되는 텍스트를 최대 500자로 제한합니다. 500자 이상의 텍스트는 정상적으로 분석할 수 없습니다.
요청되는 텍스트 내 비정상적인 형식, 이모티콘 및 특수 문자 등이 많으면 제대로 분석되지 않을 수 있습니다.