티스토리 뷰

사건의 배경

 

이번 기사는 캐나다 개인정보 당국이 오픈AI의 AI 모델 학습 과정이 개인정보보호법을 충분히 준수하지 않았다고 판단한 내용을 다루고 있다. 보도에 따르면 캐나다 개인정보보호위원회와 앨버타, 퀘벡, 브리티시컬럼비아주 당국은 공동 조사를 진행했고, 오픈AI가 AI 모델 학습 과정에서 개인정보를 대규모로 수집하면서도 적절한 보호조치와 동의 절차를 충분히 갖추지 않았다고 결론 내렸다.

이번 사건이 흥미로웠던 이유는 개인정보 문제의 범위가 AI 학습 데이터 자체를 다루고 있다는 점 때문이다. 예전에는 개인정보 유출이나 마케팅 목적 활용이 주로 문제였다면, 지금은 AI 모델을 만들기 위해 인터넷 전체 데이터를 활용하고 학습하는 과정 자체가 규제 대상이 되고 있다. 특히 생성형 AI는 데이터를 많이 가져올수록 성능이 좋아지는 구조라서, 개인정보 보호와 AI 학습 사이 충돌이 점점 더 직접적으로 드러나는 것 같다는 생각이 들었다.

 

개인정보 침해 쟁점

 

이번 사건에서 가장 중요한 쟁점은 AI 학습 데이터에 포함된 개인정보를 이용자가 사실상 통제할 수 없다는 점이었다. 챗GPT 이용자 대화에서 발생하는 문제뿐만 아니라 오픈AI가 웹에서 수집하거나 구매한 제3자 데이터 안에도 개인정보가 포함될 수 있는데, 정보주체는 자신 정보가 학습에 쓰였는지 여부를 쉽게 알 수 없고, 삭제나 정정도 쉽지 않다. 기존 개인정보 보호 체계는 대체로 '누가 내 정보를 수집했는지 알고, 동의하고, 필요하면 삭제 요청할 수 있다'는 구조를 전제로 만들어져 있다. 그런데 생성형 AI 학습의 경우, 인터넷에 공개된 데이터가 한 번 학습에 들어가면 블랙박스 특성상 그 정보가 어디에 반영됐는지 추적하기 어렵고 완전히 제거하는 것도 쉽지 않다. 결국 기존 개인정보 자기결정권 구조가 AI 환경에서는 제대로 작동하지 않는 문제가 생긴다.

또 챗GPT 응답의 부정확성 문제까지 함께 언급되었는데, AI가 잘못된 개인정보를 생성하거나 왜곡된 정보를 출력했을 때, 이용자가 이를 정정하거나 이의를 제기하는 절차가 충분히 마련돼 있지 않았다.

 

관련 규범을 찾아보며

 

이번 조사에는 캐나다의 개인정보보호 및 전자문서법인 PIPEDA가 적용됐다. PIPEDA는 개인정보 수집과 이용 과정에서 당사자의 동의와 목적 제한을 중요하게 보는 법이다. 캐나다 당국은 오픈AI가 개인정보를 대규모로 학습 데이터에 활용하면서도 정보주체에게 충분한 설명과 동의를 제공하지 않았다고 판단했다.

당국은 이러한 사건에서 오픈 AI에 대해 개선 조치를 요구했다. 오픈AI는 로그아웃 상태 사용자에게도 대화 내용이 학습에 활용될 수 있다는 안내를 더 명확히 해야 하고, 민감한 정보 입력 주의 문구도 추가해야 한다. 또 데이터 내보내기 기능 개선, 응답 정확성 이의제기 절차 안내, 사용 중단 데이터셋의 재사용 방지 조치까지 요구받았다.

AI 서비스에서는 데이터 수집, 학습, 생성 결과, 정정 요청, 데이터 삭제 가능성까지 전부 연결돼 있다는 특징이 있다. 특히 AI 모델은 한번 학습되면 정보 흔적이 내부에 남을 가능성이 있어서 기존 개인정보 삭제에 대한 법이나 개념만으로 해결하기 어려운 부분도 많아 보였다.

 

제도적 의미

 

이번 사건은 AI 규제가 데이터 거버넌스 문제로 다뤄지기 시작했음을 알 수 있었다. AI 모델이 아무리 뛰어나도, 그 학습 과정이 개인정보 보호 원칙과 충돌하게 된다면 규제 대상이 되기 때문이다.

또 공인이 아닌 미성년 친족의 이름이나 생년월일 공개 요청을 거부하도록 하는 보호 기능까지 언급된 부분도 눈에 들어왔다. 생성형 AI는 질문 방식에 따라 예상보다 쉽게 개인 정보를 노출하거나 추론할 수 있는데, 이런 위험을 사전에 차단하려는 시도로 보였다. 관련해서 생성형 AI의 가드레일에 대해 배우고 있는데, 이러한 가드레일이 개인정보 보호 기능을 어떻게 수행하는지도 확인해야겠다.

 

내가 배운 점

 

이번 기사를 보면서 생성형 AI의 문제를 다룰 땐 데이터를 어디서 가져왔는지뿐 아니라, AI가 그 데이터를 어떻게 학습하고 어떤 형태로 다시 출력하는지까지 같이 고려해야겠다는 점이다. 

또 인터넷에 공개된 정보라고 해서 AI 학습에 무조건 자유롭게 활용할 수 있는 것도 아니게 된다는 점을 알게 되었다. 예전에는 공개 정보면 어느 정도 활용 가능하다는 인식이 강했는데, 이제는 공개 정보라도 대규모로 수집, 분석, 학습하는 순간 개인정보 보호 문제가 새롭게 생길 수 있다는 흐름으로 바뀌는 것 같다. 관련해서 판례가 인정하는 부분이 어느 정도인지도 확인하고 공부해 보아야겠다. 

 

정리하며

 

이번 캐나다 개인정보 당국의 오픈AI 조사 결과는 생성형 AI 시대 개인정보 보호 문제가 이제 본격적으로 규제 영역에 들어왔다는 걸 보여주는 사례라고 생각했다. AI 학습을 위해 인터넷과 외부 데이터셋에서 정보를 대규모로 가져오는 구조가 개인정보 자기결정권과 충돌할 수 있다고 생각하게 되었다.

특히 이번 사건을 통해 AI 환경에서 개인정보 보호 권리가 실제로 어떻게 보장될 수 있는지에 대해 생각해 보게 되었는데, 데이터가 모델 안에 학습된 이후에는 열람, 정정, 삭제 같은 기존 권리 구조가 제대로 작동하기 어려운 부분도 있기 때문이다. 앞으로 AI 규제는 모델 성능 경쟁만이 아니라, 데이터를 어떻게 수집하고 설명하고 통제할 것인가의 문제와 더 강하게 연결될 것 같다는 생각이 들었다.

 

참고 자료
  • 디지털투데이, 「캐나다 당국, 오픈AI 개인정보보호법 위반…AI 학습 전면 점검」, 2026-05-07.

 

기사 원문

 

https://www.digitaltoday.co.kr/news/articleView.html?idxno=663432

 

캐나다 당국, 오픈AI 개인정보보호법 위반…AI 학습 전면 점검 - 디지털투데이 (DigitalToday)

[디지털투데이 AI리포터] 캐나다 개인정보 당국이 오픈AI의 인공지능(AI) 모델 학습 과정이 연방 및 주 개인정보보호법을 준수하지 않았다고 판단했다.6일(현지시간) IT 매체 엔가젯에 따르면, 캐

www.digitaltoday.co.kr