회고/회사 3

트러블 슈팅 *대규모 트레픽 (토스 라방 중계)

배경마케팅팀에서 신규 이벤트로 토스 서비스를 통해 토스에서 라방 중계를 통해 신규 고객이 유입되는 서비스를 진행하였다. 그러나...이떄는 알지 못했다. 이 사건이 나에게? 변화를 주는 장애가 될줄은.... 방송시 모니터링을 부탁한다는 전달을 받고 모니터링을 진행하는데 정각이 되어 토스에 우리 라방이 중계가 열리는 순간.... 서버가 먹통이 됐다... 지연이 아니고 그냥 먹통.. 그래서 첫 토스와의 중계 라방은 말아먹고.... 그 이후 3회의 시도 끝에 성공할 수 있었다. 원인 아래 사진은 APM을 통해 유입된 TPS 이다. 위 사진은 메인 서비스 트레픽 수 이다. 평소 시간당 1,000,000 이하의 트레픽 수이다 그러나 11시 라이브 중계 방송에는 2,000,000까지 튀는 것을 확인 ..

회고/회사 2025.07.24

파트 리더 1년의 회고..

갑자기 맡게 된 작은 파트의 리더, 그리고 성장2024년 7월, 나는 작은 변화의 중심에 서게 됐다.정식으로 나 혼자 특정 서비스 도메인을 전담하게 되면서 자연스럽게 리더의 역할을 맡게 되었다.처음엔 당황스러웠다.나보다 경험이 많거나 더 잘하는 사람이 많다고 느꼈기에, 이 역할이 나에게 맞는 걸까 싶었다.하지만 곧 알게 됐다. "리더십"은 직함이 아니라 책임감에서 비롯된다는 것을.리더를 맡는 순간 나를 환영을 한다는듯?? 새로운 서비스 및 이벤트로 고객 유입이 많이 늘어 크고 작은 변환들이 많이 생겼다. 내가 맡은 서비스 도메인은 크지는 않았지만, 그 안에 들어있는 업무는 결코 가볍지 않았다.그래서 그 문제들을 해결하기 위해서는 평소 내가 그저 코딩만하던 부사수로서의 역할만이 아닌 서비스 간 연계, 여러..

회고/회사 2025.05.26

2025년 4월 10일 회고록 레디스 서버 이관 중 생긴 이슈

Redis 이관 작업 중 발생한 이슈 회고최근 진행한 Redis 이관(eos) 작업 중 예상치 못한 큰 이슈를 겪었다. 인프라 구조 변경과 관련된 중요한 경험이었기에 회고를 통해 공유하고자 한다.🧩 상황 배경우리 시스템에서 Redis 클러스터를 새 서버로 이관하는 작업을 진행했다. 이관 작업 전, 인프라 관리자와의 의사소통 오류로 기존 데이터를 복제하지 않고 새로운 Redis 서버로 전환하는 치명적인 실수가 발생했다.즉, 단순히 Redis 클러스터의 IP만 변경하고 시스템을 실행한 것이다. 그 결과, 기존에 Redis에 저장되어 있던 데이터들은 새 클러스터에는 없었고, 정상적으로 조회되어야 할 값들이 모두 null로 반환되는 심각한 장애가 발생했다.🔥 문제의 전개데이터 복제가 안 된 상태에서 이관Re..

회고/회사 2025.04.10