Alpy Safety Evaluation
Last updated
Last updated
LLM Evaluation은 LLM의 성능과 안전성을 평가하는 과정입니다. 이 과정의 목적은 모델이 생성하는 응답의 정확성, 신뢰성, 안전성을 확인하고 잠재적인 오류나 위험 요소를 식별하여 개선하는 것입니다.
LLM은 의도하지 않은 답변을 생성할 수 있기 때문에, 정보 유출이나 거짓 답변 등의 위험을 통제할 수 있는 방안을 마련해 기업의 책임과 리스크를 최소화해야 합니다.
다양한 국내 유관 기관에서는 LLM의 안전성 확보를 위한 기준을 제시하고 있으며, 미국의 경우 모델의 안전성 보장이 필수적입니다. 이에 따라 많은 기업들은 레드팀(Red Team)을 구성하여 자사 모델을 지속적으로 모니터링하고 있습니다.
대중적인 LLM 서비스를 운영하기 위해서는 안전성 보장을 위한 평가 과정이 꼭 필요하며, 이를 위해 전문 레드팀을 구성하고 지속적으로 모니터링하는 것이 중요합니다.
크라우드웍스 Alpy Safety Evaluation은 안전한 LLM 개발 및 운영을 위해 평가 전문 레드팀을 구성하고, 평가 자동화 솔루션, 모델의 안전성 모니터링 및 유지보수 솔루션을 제공합니다.
크라우드웍스의 LLM 안전성 평가는 전문가 Red Team 평가(Human 평가)와 모델 기반 평가가 결합된 하이브리드 평가 방식으로, 고객사의 관리 기준을 따르는 안전성 평가 서비스를 제공합니다.
크라우드웍스는 AI 보안성 검증을 돕는 레드팀 모델을 통해 레드팀 공격을 자동 수행합니다. 보안 취약점을 사전에 탐지하며, AI 모델이 실전 환경에서도 안전하게 운영될 수 있도록 지원합니다.
크라우드웍스 레드팀은 LLM 프롬프트와 데이터 생성 경험을 바탕으로, 모델의 안전성 테스트와 평가가 가능한 인력을 선발해 관리합니다.
크라우드웍스 레드팀은 레드팀 전용 평가 플랫폼과 모델이 학습한 데이터에 대한 깊은 이해를 바탕으로, 더욱 정확하고 정밀한 모델 안전성 평가를 제공합니다.
다양한 평가 경험을 기반으로 확립된 표준 LLM 평가 프로세스에 따라 지속적으로 평가하고 피드백을 제공함으로써, 모델의 정확성 및 신뢰성을 보장합니다.
대시보드를 통해 안전성 상태를 실시간으로 확인할 수 있어, 이슈 발생 시 빠르게 대응할 수 있습니다. 보고서로 평가 결과를 신속하게 제공하여, 수동 작업을 줄이고 평가 과정을 효율적으로 관리할 수 있습니다.
모델의 안전성을 유지하기 위해 레드팀 모델과 휴먼에 의한 평가를 진행합니다.
평가 중 발견된 가드레일(Guardrail) 또는 모델의 취약점이나 개선점은 데이터 생성을 통해 보완합니다.
에임인텔리전스의 자동 안전성 평가 솔루션인 'AIM Supervisor'를 활용합니다.
'AIM Supervisor'는 위험요소에 맞춰 Human이 생성한 Base Prompt를 자동으로 적대적 프롬프트로 증강하고 대상 모델을 공격하여 답변의 유해성을 평가합니다.
5점 척도의 점수화(Scoring) 기능을 제공하여 모델의 성능을 정량적으로 평가할 수 있습니다.
평가 근거를 정성적으로 기록하여 모델의 구체적 개선 방향을 도출할 수 있습니다.
고객사가 원하는 방식으로 평가 기준을 설정할 수 있으며 특정 산업 및 도메인에 맞춰 평가 지표를 Customizing할 수 있습니다.
정확성, 일관성, 유창성 등의 일반적인 성능 평가뿐 아니라 고객사가 요구하는 추가적인 평가 항목을 적용할 수 있습니다.
AI 모델이 제공하는 답변의 유해성 여부를 분석하고 다양한 위험 요소를 라벨링하여 체계적으로 평가할 수 있습니다.
폭력 범죄, 비폭력 범죄, 성범죄, 명예훼손, 프라이버시 침해, 지적 재산권 침해, 무차별 무기, 혐오 발언, 자살 및 자해, 성적 콘텐츠 등 세부적인 유해성 항목을 평가 항목으로 설정 가능합니다.
평가 과정에서 발견된 문제점을 기반으로 보다 자연스럽고 정확한 답변을 생성할 수 있도록 지원합니다.
기존 모델의 답변과 수정된 답변을 비교·분석할 수 있는 기능을 제공합니다.
레드티밍을 통해 대상 모델의 취약점이 나타나면 에임인텔리전스의 'AIM GUARD' 모델을 대상 모델의 취약점 및 도메인에 맞춰 커스터마이즈를 통해 도입해 모델의 안전성을 확보할 수 있습니다.
고객사 모델의 안전성 평가뿐만 아니라 고객 AI 서비스 런칭 후에도 지속적인 모니터링으로 안전성을 확실히 보장하여 언제나 AI 서비스의 안전성 확보가 가능합니다.
모니터링 서비스는 대상 모델이 취약한 위험 요소를 확인 가능한 대시보드 및 그래프 형태를 제공하며, 대상 모델의 로그를 HUMAN 레드팀원이 2차 모니터링하여 새롭게 발견된 유저의 악의적 공격 시도를 파악하여 위험 발견 프로토콜에 맞춰 빠른 대처가 가능합니다.
고객사 모델 API를 활용하여 사용자가 직접 질의를 입력하고 모델 답변 확인
모델 답변의 안전성 여부 평가(안전하다 / 안전하지 않다)
다층적 유해성 항목(폭력 범죄, 비폭력 범죄, 성범죄 등) 라벨링
고객사 요구에 따른평가 항목 및 라벨링 기준 설정 가능
5점 척도의 안전성 점수화 및 정성적 평가 근거 작성
모델의 유해 요소를 제거하거나 수정하여 보다 안전한 응답 생성
기존 답변과 수정된 답변을 비교하여 개선 내역 분석
고객사 요구에 맞춘 수정 기준 설정 가능
평가 데이터, 수정 답변 데이터를 JSON, CSV 등의 형식으로 저장 및 제공
모델 평가 보고서를 통해 유해성 진단, 수정 내역 분석 및 추가 개선 방향 제공
고객사 모델 API를 활용하여 사용자가 직접 질의를 입력하고 모델답변 확인
평가 항목별 점수화(정확성, 일관성, 유창성, 사실성, 편향성 등)
고객사 요구에 따른 평가 지표 추가 및 수정 가능
점수화된 평가 항목에 대한 정성적 평가 근거 작성
기존 답변의 오류를 수정하고 보다 신뢰할 수 있는 응답 작성
평가 기준에 맞춰 답변을 보완하여 모델의 성능을 개선
기존 답변과 수정된 답변을 비교하여 개선 내역 분석
고객사 요구에 맞춘 답변 수정 기준 설정 가능
평가 데이터, 수정 답변 데이터를 JSON, CSV 등의 형식으로 저장 및 제공
모델 평가 보고서를 통해 모델 성능 및 수정 내역 분석, 추가 개선 방향 제공
영업팀에 문의하세요. 궁금한 사항을 남겨주시면 최대한 빠르게 연락드리겠습니다.