합성 데이터(synthetic data, 재현데이터)
- 합성데이터(재현데이터)는 원자료의 통계적 특성과 일치하도록 만들어낸 가상 데이터로, 데이터의 잠재된 가치를 이끌어내는 중요한 기술로 평가되고 있습니다.
- 최근 데이터 활용 시 개인정보 침해 문제를 해결하기 위한 방안으로 합성데이터의 활용과 이에 대한 논의 활발
- 가명정보 활용에 대한 제약적 요인을 합성데이터의 활용 및 기술 검증을 통해 해소함으로써 데이터 산업 시장 규모 확대를 지원합니다.
- 합성처리 후 익명성 검증 등의 프로세스를 거쳐 상품성 및 사업화 가능성을 검토함으로써 새로운 데이터 컨텐츠 개발 및 활용 사례 확보합니다.
합성데이터 생성을 위한 쟁점
→ 데이터 전 생명주기에 걸쳐 프로젝트를 리딩하는 주체 필요
- 합성데이터는 현재 개인정보 처리 가이드라인에 익명화 기술로 명시되어 있으나, 산출물의 활용상의 이슈(법적지위 포함)가 지속적으로 발생하고 있습니다.
- 가명/개인정보를 처리할 수 있는 격리된 환경(가명처리 가이드라인) 공간이 필수입니다.
- 합성데이터 생성은 데이터 A를 활용하여 A’를 생성 시 수반되는 모든 작업에 대한 고려가 힐요합니다. (단순 솔루션 활용은 한계가 존재, 내부 로직 추가개선 필요)
- 인전성과 효율성을 특정지표로 정량적 관리하고, 정성적 심사를 통해 활용 근거를 마련하는 것이 필수적입니다.
합성데이터 생성 절차
STEP1 데이터 전처리 : 합성처리 이전 적절한 수준의 가명처리
- 합성데이터 생성 시 활용상 법적 이슈가 존재하여 반드시 가명처리가 필요합니다.
- 가명처리 시 목적에 따른 적절한 컬럼별 처리 수준을 정의하고 그에 맞는 가명처리 기법 적용이 필요합니다.