일기

VADMUD 프로젝트를 마무리하며

JUNFUTURE 2022. 2. 21. 14:08

논문을 게재했습니다.

제목은 Verification of De-Identification Techniques for Personal Information Using Tree-Based Methods with Shapley Values 입니다.

이게 무슨 뜻이지 싶겠지만 개인정보 비식별 방법론을 AI를 이용해 검증하고, 개인정보 형태의 데이터셋에 가장 효과적인 머신러닝 알고리즘이 뭔지 찾아가는 내용입니다.

데이터 3법 개정으로 가명정보가 활발히 사용되고 있는데, 이미 비식별화가 완료된 데이터셋에 대한 검증은? 이라는 생각에 여기까지 오게되었습니다.

캡스톤 시작할때부터 꼭 개발을 하고싶다는 제 고집에 흔쾌히 PM까지 맡아주고 머신러닝 구현에 핵심적인 데이터 레이블링 방법론을 만들어준 성지누나, 머신러닝 학습 / 하이퍼파라미터 튜닝 / 알고리즘 성능 측정까지 전반적인 머신러닝 구현 및 테스팅을 맡아준 진우 형. 누구하나 게으름 없이 맡은 바 120퍼 이상을 해준 덕분에 프로젝트를 성공적으로 마무리 할 수 있었던 것 같습니다. 이렇게나 적극적인 팀원들을 앞으로 또 만날 수 있을까 싶을 정도로 최고의 조합이었던 듯.

교수님께서는 매주 이거 의미있다. 잘해보자. 먼저 이끌어주셔서 확신을 가지고 연구에만 매진할 수 있었고, 박사님은 학술적/형식적으로 세밀하게 모든 부분을 신경써주신 덕분에 완성도 있는 “논문”으로 연구를 마무리할 수 있었던 것 같습니다.

특히 프로젝트 초창기에 하루는 교수님께서 룰셋과 머신러닝의 차이 그래서 이게 학술적으로 의미있는 이유를 토론해보자고 먼저 제안해주시며 연구의 방향을 잡을 수 있었고 XAI(eXplainable AI) 와 shap value 등 최신동향을 반영할 수 있었으며 이외에도 헤아릴 수 없을 정도로 많은 학술적인 도움을 받았습니다. 덕분에 연구를 진행하고, 논문을 작성할때에 절대적으로 부족한 학부생의 안목과 시야를 메꿀 수 있었습니다.

디펜스 기간에 제 1저자인 저에게만 3명의 리뷰어에게 총 9개의 피드백 요청이 왔는데, 전문적인 지식을 요하는 테크니컬 질문과 제일 귀찮을 문법표현 등등 교신저자로서 막아주신 디펜스들이 얼마나 많을지 가늠이 가지않습니다. 추가적으로 테스팅이 필요한 부분들, 알고리즘을 알려주시고 계속되는 질문에 밤낮으로 고생해주신 박사님께 정말 감사합니다. 특히 디펜스 마지막 날 밤을 새가시면서까지 번역 보완해주신 점 등등 감사한 마음을 어찌 다 표현할 수 있을까 싶습니다.

너무나도 부족한게 많음을 느꼈습니다.

논문 작업하며 개인적으로 가장 힘들었던 부분은 개발도, 실험도 아니고 [문장하나하나에 학술적인 근거를 부여하기] 였습니다. 통상적으로 인지하고 있는 내용. 예를들어 ‘특정 알고리즘은 이러이러한 특성을 가지고 있다.’ 라는 문장 하나를 논문에 적고 싶다면, 이를 학술적으로 뒷받침하기 위한 참고문헌을 찾아 인터넷을 휘저어야 한다는게 조금 괴로웠습니다. 요약해보자면, ‘야 그거 원래 그런거지’ 라는 말이 학계에서는 절대 용납될 수 없다는 걸 배웠습니다.

함께하지 않았다면 절대 이런 결과를 얻을 수 없었을 것이라고 확신합니다. 특히 각자 큰 시험과 취업을 준비하며 그것만으로도 정신 없었을 1년인데 함께해준 성지누나, 진우형과 너무나도 좋은 기회와 배움을 주신 노교수님, 전반적인 논문작성에 지대한 도움을 주신 문박사님께 다시한번 감사드립니다.