select count(*), count(cust_id), count(distinct cust_id), sum(sales_qty*goods_price) from cust_sales; 쿼리문의 base 필수 구조다. select 컬럼명 from 테이블명 select에는 위의 예시처럼 count()라는 함수를 사용할 수 있다. 행의 개수를 세어주는 함수다. *은 모든 행을 뜻한다. distinct는 중복된 값을 제외한다. sum()도 이름과 같이 해당 열의 모든 행 값의 합을 구한다. select cust_id, count(distinct sales_dt) as sales_count, min(str_to_date(sales_dt, "%Y%m%d")) as first_sale, max(str_to_date(s..
Programming/Python
workbench 첫 화면이다. 현재 내 로컬에서 연결되어 있는 DB 목록이 뜬다. + 버튼을 누르면 새로운 DB를 연결할 수 있다. Hostname에는 DB 주소를 작성한다. 따로 작성하지 않으면 로컬에서만 사용할 수 있는 IP 주소가 지정되고, 새로운 DB가 생성된다. 외부 DB를 사용한다면 Port도 별도로 지정해야 한다. 이미 생성된 DB를 연결하는 것이라면 생성 시 작성한 이름을 Username에 적고, 새로운 DB를 생성하는 것이라면 원하는 이름을 작성한다. Store in Vault... 를 눌러 비밀번호를 입력하고, 새로 만든다면 비밀번호를 설정하며, 비밀번호를 저장하여 다음 접속 시 비밀번호를 작성하지 않아도 된다. Default Schema에는 DB 이름을 작성한다. DB를 처음 연결하..
데이터 불러오기 csv 불러오기 : read_csv() import pandas as pd df = pd.read_csv('고객데이터셋2.csv') df 데이터 파악하기 데이터 크기 확인 df.shape 데이터 컬럼 명 확인 df.columns 데이터 인덱스 확인 df.index 데이터 정보 확인 df.info() 데이터 통계 확인 df.describe() 데이터 일부 확인하기 df.head() // df.tail() 데이터 조작하기 고객명, 성별, 나이만 10개의 데이터 출력 df[['고객명', '성별', '나이']].head(10) 고객명 순 정렬 df.sort_values('고객명')[['고객명', '성별', '나이']].head(10) 고객명, 나이 순 정렬 df.sort_values(['고객명'..
기본 개념 정의 판다스 정의 데이터를 조작하고 분석하는 데 사용한느 파이썬 라이브러리다. 데이터를 표 형태로 분석 가능하다. 시리즈와 데이터프레임이란느 두 가지 데이터 형을 사용한다. 데이터프레임 판다스의 기본 구조인 자료구조 객체다. 시리즈 여러 개를 묶어 데이터 프레임을 만들고, 2차원 배열의 형태다. 행 인덱스, 열 이름, 값 으로 구성된다. 판다스 특징 대용량 데이터 처리 : 판다스를 활용하면 시리즈와 데이터프레임 자료구조로 대용량 데이터를 빠르게 처리한다. 시각성과 편리성 : 데이터 구조가 표 이므로 사용자가 데이터를 알아보기 편리하다. 데이터 분석 도구 : 판다스에서 제공하는 기능 중 데이터 분석에 사용하는 기능은 결측치 처리, 관계 연산, 시계열이 있다. 시리즈와 데이터프레임 생성 시리즈 생..