Alpy Safety Evaluation

본 문서는 크라우드웍스에서 제공하는 Alpy Safety Evaluation에 대해 소개합니다.

Alpy Safety Evaluation은 LLM의 안전성을 정량·정성적으로 평가하고, 답변을 수정·보완하여 고도화할 수 있는 전문 솔루션입니다. (LLM Evaluation)
LLM 안전성 평가는 모델의 안전성 여부 분석 및 유해성 위배 항목 평가를 의미합니다.

1. 'LLM Evaluation'이란?

1-1. LLM Evaluation 도입 배경 및 필요성

LLM Evaluation은 LLM의 성능과 안전성을 평가하는 과정입니다. 이 과정의 목적은 모델이 생성하는 응답의 정확성, 신뢰성, 안전성을 확인하고 잠재적인 오류나 위험 요소를 식별하여 개선하는 것입니다.
LLM은 의도하지 않은 답변을 생성할 수 있기 때문에, 정보 유출이나 거짓 답변 등의 위험을 통제할 수 있는 방안을 마련해 기업의 책임과 리스크를 최소화해야 합니다.
LLM Risk 사례와 발생될 수 있는 답변 위험 요소 및 취약점 공격 예시(Jailbreak)
다양한 국내 유관 기관에서는 LLM의 안전성 확보를 위한 기준을 제시하고 있으며, 미국의 경우 모델의 안전성 보장이 필수적입니다. 이에 따라 많은 기업들은 레드팀(Red Team)을 구성하여 자사 모델을 지속적으로 모니터링하고 있습니다.

'Red Team'이란?

LLM Red Team 서비스는 LLM의 보안성과 신뢰성을 검증하기 위해 고도화된 공격 시뮬레이션을 수행하는 전문 보안 서비스입니다.
정보 유출, 편향성 탐지, 악의적 사용 가능성 등을 평가하며 AI 시스템이 예상치 못한 방식으로 오작동하거나 악용될 수 있는 리스크를 식별합니다.
기업과 연구 기관은 Red Team을 통해 LLM의 안전성을 강화하고, 윤리 및 보안 관련 이슈를 사전에 방지할 수 있습니다.

대중적인 LLM 서비스를 운영하기 위해서는 안전성 보장을 위한 평가 과정이 꼭 필요하며, 이를 위해 전문 레드팀을 구성하고 지속적으로 모니터링하는 것이 중요합니다.

1-2. 크라우드웍스 Alpy Safety Evaluation

크라우드웍스 Alpy Safety Evaluation은 안전한 LLM 개발 및 운영을 위해 평가 전문 레드팀을 구성하고, 평가 자동화 솔루션, 모델의 안전성 모니터링 및 유지보수 솔루션을 제공합니다.
크라우드웍스의 LLM 안전성 평가는 전문가 Red Team 평가(Human 평가)와 모델 기반 평가가 결합된 하이브리드 평가 방식으로, 고객사의 관리 기준을 따르는 안전성 평가 서비스를 제공합니다.
크라우드웍스 LLM 평가 구조도

2. 크라우드웍스 Alpy Safety Evaluation의 특장점

2-1. 레드팀 모델을 활용한 자동 평가

크라우드웍스는 AI 보안성 검증을 돕는 레드팀 모델을 통해 레드팀 공격을 자동 수행합니다. 보안 취약점을 사전에 탐지하며, AI 모델이 실전 환경에서도 안전하게 운영될 수 있도록 지원합니다.

2-2. LLM 평가를 위한 전문적인 인력 관리

크라우드웍스 레드팀은 LLM 프롬프트와 데이터 생성 경험을 바탕으로, 모델의 안전성 테스트와 평가가 가능한 인력을 선발해 관리합니다.

2-3. 전용 평가 플랫폼에 기반한 정밀한 모델 평가

크라우드웍스 레드팀은 레드팀 전용 평가 플랫폼과 모델이 학습한 데이터에 대한 깊은 이해를 바탕으로, 더욱 정확하고 정밀한 모델 안전성 평가를 제공합니다.

2-4. 표준화된 LLM 평가 프로세스 확립

다양한 평가 경험을 기반으로 확립된 표준 LLM 평가 프로세스에 따라 지속적으로 평가하고 피드백을 제공함으로써, 모델의 정확성 및 신뢰성을 보장합니다.

가드레일(Guardrail)이란?

LLM의 안전성을 보장하기 위해 설계된 구조로, 모델의 출력이 예기치 않거나 위험한 결과를 초래하지 않도록 제어하는 역할을 합니다.
가드레일 모델은 특정 기준을 설정하여, 서비스 모델이 생성하는 응답이나 행동이 안전하고 적합한지 실시간으로 모니터링하고 평가합니다.

2-5. 평가 대시보드와 보고서 자동화 솔루션 제공

대시보드를 통해 안전성 상태를 실시간으로 확인할 수 있어, 이슈 발생 시 빠르게 대응할 수 있습니다. 보고서로 평가 결과를 신속하게 제공하여, 수동 작업을 줄이고 평가 과정을 효율적으로 관리할 수 있습니다.

3. 크라우드웍스 Alpy Safety Evaluation 구성

3-1. LLM 안전성 평가 프로세스

모델의 안전성을 유지하기 위해 레드팀 모델과 휴먼에 의한 평가를 진행합니다.
평가 중 발견된 가드레일(Guardrail) 또는 모델의 취약점이나 개선점은 데이터 생성을 통해 보완합니다.

3-2. 자동화 모델 기반 평가

에임인텔리전스의 자동 안전성 평가 솔루션인 'AIM Supervisor'를 활용합니다.
'AIM Supervisor'는 위험요소에 맞춰 Human이 생성한 Base Prompt를 자동으로 적대적 프롬프트로 증강하고 대상 모델을 공격하여 답변의 유해성을 평가합니다.

크라우드웍스 X 에임인텔리전스

크라우드웍스와 MOU를 체결한 에임인텔리전스는 국내 대표적인 AI 기업들의 보안 점검을 수행한 이력을 보유한 AI 안전성 평가 선두 기업입니다.
AI Red Teaming, Guard, Supervisor 솔루션을 통해 AI의 안전성을 검증하고, 유해한 공격으로부터 보호하며, 실시간으로 감독합니다.
다양한 AI 모델 및 도메인에 최적화된 시나리오를 통해 AI의 잠재적 위험을 탐지하고 안전하게 관리할 수 있도록 지원합니다.

3-3. Human 기반 평가

3-3-1. 정량·정성 평가 기반의 모델 성능 정밀 분석

5점 척도의 점수화(Scoring) 기능을 제공하여 모델의 성능을 정량적으로 평가할 수 있습니다.
평가 근거를 정성적으로 기록하여 모델의 구체적 개선 방향을 도출할 수 있습니다.
고객사가 원하는 방식으로 평가 기준을 설정할 수 있으며 특정 산업 및 도메인에 맞춰 평가 지표를 Customizing할 수 있습니다.
정확성, 일관성, 유창성 등의 일반적인 성능 평가뿐 아니라 고객사가 요구하는 추가적인 평가 항목을 적용할 수 있습니다.

3-3-2. 모델 안전성 검증 및 개선을 위한 Red Team 평가

AI 모델이 제공하는 답변의 유해성 여부를 분석하고 다양한 위험 요소를 라벨링하여 체계적으로 평가할 수 있습니다.
폭력 범죄, 비폭력 범죄, 성범죄, 명예훼손, 프라이버시 침해, 지적 재산권 침해, 무차별 무기, 혐오 발언, 자살 및 자해, 성적 콘텐츠 등 세부적인 유해성 항목을 평가 항목으로 설정 가능합니다.

3-3-3. 답변 수정·보완 기능을 통한 AI 모델 성능 고도화

평가 과정에서 발견된 문제점을 기반으로 보다 자연스럽고 정확한 답변을 생성할 수 있도록 지원합니다.
기존 모델의 답변과 수정된 답변을 비교·분석할 수 있는 기능을 제공합니다.

3-4. 가드레일 모니터링

레드티밍을 통해 대상 모델의 취약점이 나타나면 에임인텔리전스의 'AIM GUARD' 모델을 대상 모델의 취약점 및 도메인에 맞춰 커스터마이즈를 통해 도입해 모델의 안전성을 확보할 수 있습니다.
고객사 모델의 안전성 평가뿐만 아니라 고객 AI 서비스 런칭 후에도 지속적인 모니터링으로 안전성을 확실히 보장하여 언제나 AI 서비스의 안전성 확보가 가능합니다.

모니터링 서비스는 대상 모델이 취약한 위험 요소를 확인 가능한 대시보드 및 그래프 형태를 제공하며, 대상 모델의 로그를 HUMAN 레드팀원이 2차 모니터링하여 새롭게 발견된 유저의 악의적 공격 시도를 파악하여 위험 발견 프로토콜에 맞춰 빠른 대처가 가능합니다.

Appendix

크라우드웍스Human 평가 예시

LLM 안전성 평가(Red Team)

고객사 모델 API를 활용하여 사용자가 직접 질의를 입력하고 모델 답변 확인
모델 답변의 안전성 여부 평가(안전하다 / 안전하지 않다)
다층적 유해성 항목(폭력 범죄, 비폭력 범죄, 성범죄 등) 라벨링
1. 고객사 요구에 따른평가 항목 및 라벨링 기준 설정 가능
5점 척도의 안전성 점수화 및 정성적 평가 근거 작성
모델의 유해 요소를 제거하거나 수정하여 보다 안전한 응답 생성
1. 기존 답변과 수정된 답변을 비교하여 개선 내역 분석
2. 고객사 요구에 맞춘 수정 기준 설정 가능
평가 데이터, 수정 답변 데이터를 JSON, CSV 등의 형식으로 저장 및 제공
모델 평가 보고서를 통해 유해성 진단, 수정 내역 분석 및 추가 개선 방향 제공

LLM 성능 평가

고객사 모델 API를 활용하여 사용자가 직접 질의를 입력하고 모델답변 확인
평가 항목별 점수화(정확성, 일관성, 유창성, 사실성, 편향성 등)
1. 고객사 요구에 따른 평가 지표 추가 및 수정 가능
점수화된 평가 항목에 대한 정성적 평가 근거 작성
기존 답변의 오류를 수정하고 보다 신뢰할 수 있는 응답 작성
평가 기준에 맞춰 답변을 보완하여 모델의 성능을 개선
1. 기존 답변과 수정된 답변을 비교하여 개선 내역 분석
2. 고객사 요구에 맞춘 답변 수정 기준 설정 가능
평가 데이터, 수정 답변 데이터를 JSON, CSV 등의 형식으로 저장 및 제공
모델 평가 보고서를 통해 모델 성능 및 수정 내역 분석, 추가 개선 방향 제공

영업 문의

영업팀에 문의하세요. 궁금한 사항을 남겨주시면 최대한 빠르게 연락드리겠습니다.

AI에 필요한 모든 데이터 솔루션 | 크라우드웍스

Last updated 4 months ago