본문 바로가기

정보보호/기술

인공지능 보안 공격 기법

by Salgoo26 2026. 6. 1.

인공지능(AI) 및 머신러닝(ML) 모델을 대상으로 하는 4대 핵심 인공지능 보안 공격 기법이다.

과거의 해킹이 시스템이나 네트워크의 취약점을 노렸다면, 이 공격들은 머신러닝 알고리즘 자체의 수학적·통계적 허점이나 학습 데이터의 취약성을 파고든다.

1. Poisoning (데이터 오염 공격) : 학습 단계 공격

개념: AI 모델이 학습을 시작하기 전, 훈련 데이터(Training Data)에 조작된 데이터나 악성 데이터를 몰래 끼워 넣는 공격.
공격 원리: AI는 주어지는 데이터를 기반으로 학습한다는 점을 악용한다. 해커가 의도적으로 오염된 데이터를 주입하면, 모델은 이를 정상적인 패턴으로 오인하여 잘못된 예측 모델을 형성하게 된다.
보안 위협:
- 전체 성능 저하: 스팸 메일 필터링 AI에 정상 메일을 스팸으로 계속 학습시켜 필터 기능을 마비시킴.
- 백도어(Backdoor) 유발: 특정 조건(예: 이미지 구석에 작은 점)이 발동될 때만 AI가 해커가 원하는 오답을 내도록 유도함. (자율주행 AI가 '정지' 표지판에 스티커가 붙어 있으면 '직진'으로 오인하게 만드는 공격 등)

2. Adversarial (적대적 예제 공격) : 추론 단계 공격

개념: 이미 학습이 완료되어 서비스 중인 AI 모델에게 사람의 눈에는 전혀 보이지 않는 미세한 노이즈(Perturbation)를 입력값에 섞어 AI를 속이는 공격.
공격 원리: AI 모델의 내부 수학적 결정 경계(Decision Boundary)를 아슬아슬하게 넘어가도록 정밀하게 계산된 노이즈를 주입한다. 사람은 시각적·청각적으로 차이를 전혀 느끼지 못하지만, AI는 완전히 엉뚱한 결론을 내리게 된다.
보안 위협:
- 우회 공격: 악성코드 파일 내부에 미세한 패딩 데이터를 삽입하여, AI 기반 백신(EDR 등)이 이를 정상 파일로 판단하게 만듦.
- 안면인식 우회: 특수 제작된 안경이나 패턴을 착용하여 CCTV 안면인식 AI가 나를 다른 사람으로 인식하도록 조작함.

3. Membership Inference (멤버십 추론 공격) : 프라이버시 공격

개념: 해커가 특정 데이터(예: 특정인의 의료 기록)를 가지고 있을 때, "이 데이터가 해당 AI 모델을 학습시키는 데 사용되었는가?"를 알아내는 공격.
공격 원리: 머신러닝 모델은 태생적으로 학습에 사용된 데이터(훈련 데이터)에 더 높은 확신(Confidence score)을 보이고 손실율이 낮다. 즉, 낯선 데이터보다 '봤던 데이터'에 과적합(Overfitting)되어 예민하게 반응하는 특성을 정밀 분석하여 역추적한다.
보안 위협:
- 민감 정보 노출: 특정 AI 모델이 '특정 희귀 질환 환자들의 데이터'로 학습되었다는 사실을 알고 있을 때, 민감한 개인정보인 특정인의 의료 데이터가 그 모델의 학습에 쓰였는지 확인하여 병명 유출 가능.

4. Model Inversion (모델 역전 공격) : 프라이버시 공격

개념: AI 모델의 출력값(결과)과 아키텍처를 반복적으로 탐색하여, 모델 내부의 학습 데이터 원본이나 특징을 역으로 복원해 내는 공격.
공격 원리: AI 모델에게 지속적으로 다양한 쿼리를 던지고 나오는 예측 확률값을 가로챈다. 이 결괏값들을 수학적으로 역연산하여, 모델이 학습했던 타겟의 이미지나 데이터를 거꾸로 합성하고 재구성해 낸다.
보안 위협:
- 기밀 데이터 탈취: 안면인식 AI 모델을 역전시켜, 학습에 참여했던 특정 인물(예: 사내 임직원)의 실제 얼굴 이미지를 고스란히 복원해 내어 유출함.

저작자표시 (새창열림)

'정보보호 > 기술' 카테고리의 다른 글

네트워크 방화벽 아키텍처 (0)	2026.06.02
BitLocker vs EFS (1)	2026.06.02
DLP와 DRM (0)	2026.06.01
리눅스 모니터링 명령어 (0)	2026.06.01
접근 제어 모델 (Access Control Model) (0)	2026.06.01

댓글

티스토리툴바