이번 EDA 프로젝트에서 우리팀이 선정한 데이터 셋은 kaggle의 'eCommerce Events History in Cosmetics Shop' 데이터이다. 테이블 및 컬럼은 간단하게 구성되어있지만, 유저의 이벤트 데이터셋이므로 용량이 꽤 크다. 약 100만 행/월, 5개월치 데이터 이므로 약 500만행 (2.3gb) 정도 되는 것 같다. (excel로 샘플 보려고 했으나, 필터 조차 걸 수 없었음)
이번 프로젝트는 `DBeaver` 에서 SQL로 EDA를 진행하는 프로젝트로 바로 import를 시도했는데, 몇 가지 오류사항으로 import 자체가 안되는 어려움이 있어서 해당 내용을 정리하고 공유 하고자 한다.
eCommerce Events History in Cosmetics Shop
This dataset contains 20M users' events from eCommerce website
www.kaggle.com
1. INTERNAL ERROR
- localhost 서버 생성 후 파일 import 하는 과정에서 뜬 에러 팝업 창이다.
- 내부 오류
- 메모리 부족, 프로그램 충동, DB연결 오류, 쿼리 실행 오류 등 다양한 종류의 원인이 있을 수 있음.
- `해결 방법`
- 나의 경우, data import 할때마다 localhost (=서버) 를 생성해주어야 하는줄 알고, 매번 생성하니까 localhost 4까지 생성을 해 놓은 상황 → 서버가 많으니 내부적으로 에러가 생겼던 것 같음 → localhost 1개로 압축 하니까 해당 문제는 바로 해결 됐다.
- localhost 서버가 과도하게 많이 생성되진 않았는지 확인 후 서버 (localhost) 를 정리
2. Public Key Retrieval is not allowed
- 업로드 하다가 갑자기 프로그램이 다운 되고, 재부팅 했더니 이번엔 Public Key Retrieval is not allowed 에러를 만났다.
- MySQL의 8.* 버전 이후부터 발생하는 문제라고 한다.
- `해결 방법`
- 연결 URL을 수정 해주면 해결 된다.
- 서버(localhost) 에서 `edit connection` → `driver properies` 탭에서 `allowPublicKeyRetrieval` 의 값을 'TRUE' 로 변경 해주면 해결 된다.
3. Data too long for column 'value' at -
- 컬럼내 값 오류
- 위의 캐글 데이터에서 product_id, user_id, category_id 등 숫자로 이루어진 컬럼이 import 시 자동으로 값이 int 형으로 불러오면서 생긴 오류다 (category_id 의 경우 int 로 변환하면 조 단위로 변환된다)
- `해결 방법`
- 컬럼 자료형 변경 : import data → `Configure` → 자료형을 int → Bigint or varchar or text 로 변환 (자료형 클릭시 드롭다운 됨)
- trucate 설정 & commit row 단위 변경 : 1번에서 next 클릭 후 → `data load` 에서 trasfer~ & truncate ~ 체크 → `performance` 에서 do commit after row insert 를 5000만 정도로 분할해서 커밋 할수있도록 값 변경 해줌 → truncate attention 팝업 `yes` 선택 → next → 완료 (아래 이미지 참고)
4. 스키마 이름 변경시 하단에 저장(save) 를 꼭 눌러주자!
- 테이블 명(스키마 이름) 변경 후 save 눌러야 쿼리 짤때 바로 반영 됨
'SQL' 카테고리의 다른 글
프로젝트1 | eCommerce Events History in Cosmetics Shop (kaggle) 데이터 EDA (1) | 2024.12.05 |
---|---|
SQL 실습 | Kaggle 데이터 샘플로 분석하기 1 (Brazilian E-Commerce Public Dataset by Olist) (0) | 2024.12.03 |
코테 준비 | 해커 랭크 BINARY TREE NODES (0) | 2024.11.29 |
코테 준비 | 프로그래머스 재 구매 회원 구하기 / 조건 별 사용자 조회 (0) | 2024.11.28 |
실습 | 다중 컬럼 서브쿼리/ Correlated 서브쿼리/ DBeaver 에서 with문 사용 안될 때 해결 법 (0) | 2024.11.21 |