회고/프로젝트 회고
주제 분류 Topic Classification
iamzieun
2023. 6. 3. 14:40
주제 분류 Topic Classification
2023.05.22 ~ 2023.06.01
Github Repository: https://github.com/iamzieun/Boostcamp-LV2-TC
GitHub - iamzieun/Boostcamp-LV2-TC: [boostcamp Ai Tech] TC (Topic Classification) 대회
[boostcamp Ai Tech] TC (Topic Classification) 대회. Contribute to iamzieun/Boostcamp-LV2-TC development by creating an account on GitHub.
github.com
💪🏻 1. 학습 목표
- 오피스아워나 게시판 등 가이드로 제시된 방법을 무작정 시도하기보다는, 베이스라인에 대한 사후 분석을 통해 문제를 정의하고 그 문제를 해결할 수 있는 방법론들에 도전해보기
- 사실상 본 대회의 주된 task는 ‘데이터의 noise를 해결하는 것’으로 사전 정의가 되어있었기 때문에, 해당 문제를 해결하는 방법론을 찾는 것으로 방향이 좁혀지게 되었다.
- 다만, 베이스라인 사후 분석 결과 데이터에 전처리가 필요한 부분이 있어서 그러한 내용을 반영한 task 또한 진행해보았다.
- git branching 전략, commit message convention, issue와 PR을 기반으로 보다 원활하게 협업해보기
- 프로젝트 시작 전에 convention들을 정해두고, 해당 convention에 맞추어 협업해볼 수 있었다.
- Hugginface Datasets과 관련해서는 모두가 배워가는 단계여서, 다음 프로젝트에서는 branch나 script 등 보다 다양한 기능을 사용해보면 좋을 것 같다.
👩🏻💻 2. 프로젝트 진행 내용
main code refactoring
- 바뀌기 전 baseline code에 대하여, 실험 관리가 용이하도록 코드를 정리하고 config 파일을 통해 설정을 정의하였다.
- 데이터를 불러오는 부분을 Huggingface Datasets과 연결하였다.
- 기존의 다른 대회들과 달리 모델 부분의 수정이 금지된 대회였기 때문에, 크게 refactoring 할 사항 없이 간단하게 마무리할 수 있었다.
post analysis
- baseline으로 validation set에 대하여 inference한 결과에 대한 사후 분석을 진행하였다.
- confusion matrix과 f1 score 관련된 지표를 주로 살펴보았고, 문제가 된 데이터들은 직접 출력해보면서 특징을 파악하는 방향으로 분석해보았다.
- 그 결과, 특정 label에서 한자가 많이 등장하고, 기사 제목이 아닌 불필요한 글자(종합, 종합2보 등)가 포함되어 있고, 특수문자가 종종 사용되었음을 파악할 수 있었다.
data preprocessing
- 사후 분석 과정에서 발견한 insight를 바탕으로 전처리를 수행해보았다.
- 하지만, 대회 규칙 상 test set에 대해서는 전처리를 수행할 수 없었기 때문에, validation set에 대한 성능이 향상되었다 하더라도 leaderboard에서까지 성능 향상을 확인할 수는 없었다.
👨👩👧👦 3. 협업과 커뮤니케이션
- github, huggingface datasets 등의 tool을 사용한 협업에는 많이 익숙해져서 어렵지 않게 수행해볼 수 있었다.
- 하지만 대회 자체의 크고 작은 이슈들이 있었을 때, 그럴 때마다 팀의 분위기를 바람직한 방향으로 이끌어 가지는 못했다.
- 모두가 갈피를 못잡고 헤매고 있을 때 나라도 조금 더 적극적으로 방향성을 제시하고 열심히 실험하는 모습을 보였어야 한다고 생각한다.
- 상황에 대한 불평보다는, 그러한 상황 속에서도 끝까지 해내는 모습을 보였어야 했는데 그러지 못한 점이 아쉽다.
- 또한 그러다보니 아무리 대회가 엉망이어도 끝까지 최선을 다해야 한다는 점을 잊고 마지막 날에는 풀어졌던 것 같다.
- 그래서 리더보드에서 제출할 실험을 선택하는 것을 까먹었다… 레전드
- 이번에 크게 데였던 만큼 앞으로는 같은 실수를 하지 않을 것이다.
🔥 4. 한계와 교훈을 바탕으로 다음 프로젝트에서 시도해볼 점
- 이번 대회는 기술적인 부분에서의 성장보다도 공부를 하는 마음가짐에 대하여 많이 되돌아보는 시간이었던 것 같다.
- 말도 많고 탈도 많았던 대회지만, 그 와중에도 할 수 있는 것을 찾고 끝까지 정진한 캠퍼들도 있었다. 앞으로 현업에서의 나에게 찾아올 상황도 이번 대회같은 상황이 많을 것이라 생각한다. 늘 정제된 깔끔한 틀 속에서 작업을 진행할 수는 없을 것이기 때문이다. 그렇기에 융통성과 탄력적인 마음가짐을 가지고 상황에 상관없이 늘 일관되게 노력하는 연습을 할 것이다.
- 또한, 나는 무언가를 잘 해내지 못한 것보다 스스로 생각했을 때 어떤 이유에서든 최선을 다했다고 생각되지 않을 때 더 큰 자기혐오를 느끼는 사람인 것 같다. 그리고 무엇보다 뭐든 적당히, 대충 하면 별로 재미가 없다. 그러니 나의 재미를 위하여 더 열심히 하는 사람이 되어야겠다 !