본문 바로가기 메뉴 바로가기

ProblemOverFlow

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

ProblemOverFlow

검색하기 폼
  • 분류 전체보기 (2)
    • 개인 (1)
    • 개발 (1)
  • 방명록

Spring (1)
120만 건의 TMDB Movies Dataset 데이터 전처리 및 삽입, 6시간에서 9초로 최적화 여정

해당 포스트는 2025.3.24일 저의 Github Wiki에 작성된 포스트입니다. 포스트 마이그레이션 :D현재 저의 시점이었으면 데이터 전처리에는 pandas를 사용했을것 같네요.하지만 코스 및 수강생 분들 스택이 스프링인걸 고려하면 나름 괜찮은 인사이트였다고 생각됩니다.23,887초에서 9초로: 120만건 데이터 삽입 최적화항해 스킬업 코스를 코칭하면서, 수강생 분들이 의미있는 데이터셋을 가지고 프로젝트를 진행하면 좋겠다고 생각이 들었습니다. 여러가지 데이터셋을 찾아본 결과 Kaggle의 Full TMDB Movies Dataset 2024를 선택했습니다.해당 데이터셋을 선택한 이유대용량 데이터(100만건 이상) → Index와 Caching의 효과를 테스트하기 적합코스 프로젝트와 유사한 구조 → 장..

개발 2026. 1. 31. 09:01
이전 1 다음
이전 다음
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
  • Spring
  • Batch
  • 근황
more
«   2026/03   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
글 보관함

Blog is powered by Tistory / Designed by Tistory

티스토리툴바