[Boostcamp] 3주차 회고
Boostcamp AI Tech 7기 NLP Track - 3주차 회고
Daily Events Summary
2024-08-19 월
- keyword: 밑바닥부터 시작하는 딥러닝
- 강의와 과제는 지난주에 끝냈고, 심화과제를 건드리기보다는 딥러닝 기초를 나름대로 공부하는게 내게는 더 나을 것 같았다. 그래서 이 날은 코딩테스트, CS 기초, 부스트캠프 지난 주차 강의 정리, 딥러닝 기초 등, 내가 공부하고 싶은 것들을 다 시도하며 부족했던 개념을 보완하는데 집중했다. 그리고 화요일에 있을 미래에셋 결선 설명회 발표 준비까지도! 해낸 데에 의미가 있는 하루였기에 뿌듯했다.
- 원래는 부스트캠프 온보딩 강의를 들으며 딥러닝 기초를 잡아보려 했는데, 아무래도 강의 듣는걸 내가 너무 지루해하기도 하고, 딥러닝의 근본 핵심 원리 자체를 이해하고싶다보니, 책으로 공부하는게 맞겠다고 생각해서 ‘밑바닥부터 시작하는 딥러닝’ 책을 보기 시작했다. 본 강의와 온보딩클래스 강의, 책 모두에서 나름의 관점으로 설명을 하고 있어서, 이 다양한 관점들이 엮이면서 딥러닝이 더 잘 이해되기 시작했다. 입체적으로 개념을 이해하기 위해서는 (검증된 출처의) 다양한 자료들을 보는게 중요하다고 생각했다. 강의에서 모호했던 부분들이 책을 보면서 이해되기를 바란다. 우선은 첫 날이고, 내가 계획한 일들을 하루에 소화한다면, 어떤 분량으로 어떤 속도로 배분해야 할 지 테스트하는 날이었기 떄문에 우선은 서문부터 1장까지 봤다.
- 내 인지 능력과 체력에 한계가 있는데, 하고 싶은 것들에 욕심내서 너무 많이 시도한 것 같기도 했다. 에너지가 분산되고 괜히 마음이 조급해지지 않도록, 내 일상을 좀 더 단순하게 만드는 방법을 생각해봐야겠다. 우선순위를 명확하게 정해보자. 그래도 공부하고싶었던 것들 하나하나 확인하다보니 기분 좋긴 했음!
2024-08-20 화
- keyword: 2024 미래에셋증권 AI·Data 페스티벌 결선 설명회
- 올해 미래에셋증권 빅데이터 페스티벌의 결선 참여자를 대상으로 네이버 1784에서 설명회가 진행됐다. 작년 대상 수상자로서의 간단한 소감 및 소소한 팁들을 발표하러 다녀왔다. 작년에 학교에서 공모전과 석사 졸업논문을 병행하며 정신없었던ㅋㅋ 기억이 생생한데 그게 벌써 1년 전이라니.. 시간이 정말 빠르다. 발표 준비하면서 당시 공모전 준비하던 때를 되돌아보는게 재밌기도 했고, 2주만에 다시 간 1784도 정말 반가웠다:)
2024-08-21 수
- keyword: 정형 데이터 시각화, 전처리, ‘나’에 대한 이해
- 기본적인 데이터 시각화 방법 및 기본적인 전처리 방법에 대한 강의를 들었다. 각 이미지 속성 별로 인간이 받아들이는 신호의 강도를 기반으로 한, 다양한 시각화 전략을 배웠다. 학부 인지심리학 수업에서 감각 신호에 대한 처리 프로세스를 정말 재밌게 공부했었는데, 이런 요소들을 고려하면서 시각화를 한다는게 재미있었다.
- 이전에 파이썬으로 시각화를 한다고 하면,
matplotlib의 기본 제공되는 이미지에서 막대그래프나 선 그래프 몇개 그리고, 가끔 다른 색상을 쓰고 싶으면seaborn에서 색상 팔레트나 가져오는 정도였다. 예쁜 시각화를 하려면 당연히 파워포인트에서만 가능하다고 생각했다..ㅎ 해당 강의 들으면서matplotlib에 포함된 다양한 기능을 알 수 있었고, 활용하기에 따라 정말 심미적이면서도 정보가 풍부한, 좋은 시각화가 가능하겠구나는 생각이 들었다. 마치 내가 지금까지 썼던matplotlib는 건 아무 플러그인 없는 깡통 옵시디언과 같은게 아니었을까,, 하는 느낌ㅎㅎ - 다만 강의에서 다루는 내용들은 각 상황에 적용해 볼 수 있는 다양한 전략일 뿐, 결국은 실제로 데이터들을 만져보면서 여기서 보여주고 싶은게 뭔지, 그걸 보여주기 위해서는 어떤 시각화 방법을 적용해야 할 지를 많이 생각해봐야겠다고 느꼈다. 전처리와 시각화.. 경험은 있지만 많지는 않아서 매 번 막막함을 느끼는데, 경험으로 양치기 해보자. 그런 점에서 캐글도 좋을 것 같다.
- 피어세션 시간에 정휘님의 ‘Attention is all you need’ 논문 리뷰 발표가 있었다. Big-$O$와 관련해서, 시간 복잡도 부분이 왜 저렇게 계산되는지 잘 이해되지 않아, 질문했다. 이로써 개인적으로는 attention is all you need에 대한 논문 세미나가 세번째인데, 매 번 이해도가 오르는게 느껴진다. NLP 모델에 대한 이해가 적어 몇몇 용어들은 생소하지만, 그건 앞으로 공부하면서 차차 나아질 것으로 생각한다.
- 변성윤 마스터님의 첫번째 두런두런이 있었다. 일에 대한 열정, 본인에 대한 깊은 고민이 잘 드러나는 강연이었고, 이 경험을 토대로 다른 사람들을 돕고자 하는 그 따뜻한 진정성에 감동받았다. 데이터 분석가의 길을 고민할 때, 변성윤님의 블로그를 보며 많이 배우고 자극받았었는데, 그 몇 년 사이에도 내면 및 커리어 모두에서 많은 발전을 이뤄가신 것 같아 감탄했다. 한동안 주변의 말에 휘둘리며 조급해졌던 시기가 있었는데, 성윤님 강연을 들으면서 다시금 나에 대해 고민하기 시작했다.
- MLOps 스터디의 첫 모임이 있었다. 어쩌다보니 조장이다ㅋㅋ Ops에 대해서는 모르는 점 투성이지만, 그만큼 새로 배울 수 있는게 많아 기대된다.
2024-08-22 목
예전, 친구들과 만들었던 구글닥스의 가이드라인 및 질문답변 일부 
-
keyword: 시계열/이미지/텍스트 데이터,
seaborn, HCI - 통계 분석 떄마다 날 혼란스럽게 하는 시계열 데이터 단어가 다시 등장했다. 시계열 데이터를 제대로 공부해본 적이 없는데, 고객의 행동을 분석하거나 데이터의 시간별 추이 등을 확인할 때 등, 시계열 데이터가 정말 자주 사용돼서, 잘 이해해둬야겠다는 생각이 다시금 들었다. 강의에서는 시계열 데이터의 개념만 가볍게 다뤘지만, ‘아 맞다 다 시계열도 공부하고 싶었지..’의 기억을 되살리는 계기가 됐다. 이것도 내 someday 리스트에 추가다!
- 텍스트 전처리 부분을 보며, 본격적인 모델 학습 전, (지난한..) 텍스트 전처리가 얼마나 중요했는지 다시 생각해봤다. LLM은 이제 충분히 똑똑하니까 필요 없다!라고 하기엔, LLM은 비싸고, 전처리를 했을 떄 결과 품질이 대체로 더 좋아지고…. 여튼 텍스트 전처리는 중요하다고 다시금 생각했다. 그리고 그 과정에서 또 중요한건 정규표현식! 매 번 gpt에게 조건을 주고 이에 맞는 정규표현식을 작성해달라고 했는데, 한동안은 직접 정규표현식을 작성해보는 연습이 필요하지 싶다. latex 처음 쓸 때 생각하면서 기초 문법 사용해보기!!
- 피어세션에서 그동안 궁금했던 ‘어떤 경우, 어떻게 정규화/표준화를 적용해야 하는가?’에 대해 조사해서 발표했다. (관련 글: 데이터 전처리 - 정규화, 표준화) 그동안 막연하게 중요하다고만 알고 있던 정규화 및 표준화에 대해 알아보는 시간이어서 좋았고, 트리 기반 모델에서는 정규화/표준화가 무의미하다는 새로운 사실도 알게 됐다. 다만 스케일링에 대한 정해진 마법의 공식은 없는 것 같아서, 앞으로 구체적인 적용 사례 및 결과들은 경험을 통해 더 보완해보자.
- 수요일 있었던 성윤님의 두런두런 내용을 정리하다가, ‘나’에 대해 고민하는 고정 시간을 만드는 것 뿐만 아니라 다른 사람들과 그 고민을 같이 나누면 좋겠다는 생각이 들어서 우리 팀에게 제안했다. 전에 친구들과 같이 구글닥스에 나에 대한 질문들을 익명으로 서로 답하면서 나에 대해 생각해봤던 시간이 있었는데, 상당히 재미있었던 기억이 있다. 비슷한 걸 해보기로 제안했고, 팀원들이 긍정적으로 생각해줘서, ‘쉼표들의 두런두런’이라는 노션 페이지를 만들었다. 금요일부터 내가 매일 질문 하나씩을 업로드할 예정!
- 안수빈 마스터님의 마스터 클래스가 있었다. 성윤님 강의에서와 마찬가지로, connecting the dots가 잘 느껴졌다. 다양한 경험을 해보는 것도 중요하지만, 결국은 매 순간 최선을 다했기 떄문에, 그 점들이 잘 이어질 수 있었지 않았을까.. 생각했다. 성윤님과 수빈님 강의 모두에서 느낀건, 우선 실행하고, 할 때 제대로 하는게 중요하다는 것. 귀찮아하며 리스크를 따지기보다는, 우선 해보자. Just Do It!
2024-08-23 금
- keyword: 멘토링
- 3시부터 7시까지, 스페셜 피어세션, 피어세션, 마스터클래스, 조별 멘토링 등 계속 미팅 일정이 가득 차 있었다. 새로운 내용을 학습했다기보다는 이 업계 및 공부 방향에 대한 다른 사람들의 생각을 듣는 시간으로 가득찼던 하루. 우물 안 개구리가 되지 않기 위해, 겸손함을 계속 다짐했던 시간이었다.
주간 회고
[+] Positive
- 화요일에 휴가였던 관계로 부캠 일정이 촉박했지만, 결국은 일정들에 맞춰서 다 처리해냈다.
내가 해냄!강의와 과제도 잘 끝냈고, attention is you 논문도 다 읽었고, mlops 첫 모임도 잘 진행했다. - 그동안 궁금해했던 정규화, 표준화 방법들을 자세히 살펴보고, 피어세션에서 공유했다. 언젠가 살펴봐야지,,, 생각만 했는데 이번 기회에 드디어 했다!!
이것도.. 내가 해냄! - 지난 주보다는 매일 공부한 내용을 꾸준히 기록하고 있다. 훨씬 틀이 잡힌 느낌이다. 아직은 옵시디언에 아카이빙이 중심이지만, 하루치 공부한 내용들은 바로바로 블로그에 업데이트 될 수 있도록, 좀 더 힘내보자.
[-] Negative
- 해야 하는 일정들을 쳐내느라, 딥러닝 이론 공부가 부족했다. 주말동안은 딥러닝 이론에 좀 더 집중해보자!
- github 블로그에 글을 올릴때마다 뭔가 충돌이 나고, 제대로 작동을 안한다. 에러 날때마다 왜 났는지, 어떻게 해결했는지 잘 기록하면서 github과 좀 더 친해지기!
[!] To Try
- 다음 피어세션 논문 리뷰에서 BERT 논문 리뷰를 맡기로 했다. 논문 읽기!
- 성윤님이 추천해주신 책 읽기: 함께 자라기 (김창준), 안티프래질 (나심 니콜라스 탈레브)
- MLOps 전반적인 개념 잡기: Machine Learning in Production (Andrew Ng), Full Stack Deep Learning
[?] Question
- 정보의 선별적 수용이라는게, 연령대가 높아질수록 힘든 것 같다. 단순히 개인에게 ‘똑똑한 정보 소비’를 요구하는건 개인에게 모든 책임을 전가해버리는 비겁한 전략이라고 생각한다. 그렇다면 NLP 기술을 바탕으로, 가짜 뉴스를 탐지하고 차단하는 모델을 만들어보면 어떨까? 그리고 만든다면 어떤 형태로 서비스되는게, 중장년층의 건강한 미디어 이용에 도움이 될 수 있을까?
[.] Takeaway
- 여러 마스터님들의 이야기를 들으며, 지금 방향은 잘 잡고 있구나 느꼈다. 단순히 OO회사 취업이 목표라기 보다는, 나와, 내가 생각하는 일과, 세상에 대해 본질에 대한 깊은 고민이 중요하다고 다시금 느꼈다. 중요한건 지치지 않고 꾸준히 하는 일이라는 생각. 피곤하고 눕고 싶은 순간이 없진 않았지만, 자리에 앉으면 또 신나서 집중하는 내 모습을 보며, 신나하는 내 모습을 보는게 재밌었다. 앞으로도 화이팅 화이팅~!
This post is licensed under CC BY 4.0 by the author.

Comments powered by Disqus.