메타가 12월 7일 생성 인공지능(AI) 모델의 보안과 벤치마킹을 위한 도구 모음인 '퍼플 라마(Purple Llama)'를 출시했다.

이 툴킷은 메타의 오픈소스 모델인 '라마-2(Llama-2)'와 같은 생성 AI 도구를 사용하여 개발자들이 안전하고 보안을 유지하며 구축할 수 있도록 설계되었다.

AI 퍼플 팀 구성

메타의 블로그 포스트에 따르면 '퍼플 라마'의 '퍼플' 부분은 '레드 팀(red teaming)'과 '블루 팀(blue teaming)'의 조합을 의미한다.

레드 팀은 개발자나 내부 테스터가 의도적으로 AI 모델을 공격하여 오류, 결함 또는 원하지 않는 출력과 상호작용을 발생시킬 수 있는지를 확인하는 패러다임이다. 이를 통해 개발자들은 악의적 공격에 대한 복원력 전략을 만들고 보안 및 안전 결함을 방지할 수 있다.

반면, 블루 팀은 정반대 개념이다. 여기서 개발자나 테스터는 레드 팀의 공격에 대응하여 실제 위협에 맞서는데 필요한 완화 전략을 결정한다.

메타에 따르면

"생성 AI가 제시하는 도전을 진정으로 완화하기 위해서는 공격(레드 팀)과 방어(블루 팀) 자세를 모두 취해야 합니다. 퍼플 팀은 레드 팀과 블루 팀의 책임을 모두 포함하는 협력적 접근 방식으로 잠재적 위험을 평가하고 완화합니다."

모델 보호

메타가 주장하는 "업계 최초의 대규모 언어 모델(LLMs)에 대한 사이버 보안 안전 평가 세트"에는 다음이 포함된다:

LLM 사이버 보안 위험을 정량화하는 메트릭스 불안전한 코드 제안의 빈도를 평가하는 도구, 악의적인 코드 생성을 어렵게 하거나 사이버 공격 수행에 도움을 주는 LLM 평가 도구, 이 시스템을 모델 파이프라인에 통합하여 원치 않는 출력과 불안전한 코드를 줄이는 동시에 모델 취약점을 사이버 범죄자와 악의적 행위자에게 유용하게 사용되는 것을 제한하는 것이 주요 목표다.

메타 AI 팀은 "이번 초기 출시를 통해 백악관의 약속에서 개요된 위험을 해결하는 데 도움이 될 도구를 제공하고자 합니다"라고 작성했다.