Hyunn

(사전교육)[KT AIVLE School] 데이터 선택 본문

Study/KT AIVLE School

(사전교육)[KT AIVLE School] 데이터 선택

Ravié 2024. 2. 4. 22:48
728x90
반응형

[1] Numpy

그림 하찮다

  1D array 2D array(행렬) 3D array
shape(차원 유추 가능) (4,) (4, 4) (행, 열) (2, 4, 4) (면, 행, 열)
ndim(차원) 1 2 3
size(array의 총 원소 개수) 4 16 32

 

[2] Pandas

- 장점: 강력한 스프레드시트 처리, 데이터 통계 분석

 

(1) DataFrame: Record와 Series로 이루어진 2차원 데이터

  나이 성별 직업
사람1      
사람2   ... ...

 

(2) Record

사람1 33 교사 ...

 

(3) Series: 같은 형태의 데이터만 저장

나이
33
41
26

 

[3] 데이터 선택

1) Numpy 데이터 선택

  1. Slicing
    arr = [[1,2,3,4],[5,6,7,8]]일 때, arr[1, :]를 하게 되면 [5,6,7,8]을 선택할 수 있다.
  2. Indexing: 원하는 위치의 데이터를 선택(리스트와 다르게 [x, y] 표기법 가능
    arr[1, 0] = 5 # 1행 0열
  3. Boolean Indexing: 참인 데이터만 출력
    arr[arr > 3]  = [4 5 6 7 8]
  4. Fancy indexing: 리스트에 인덱싱 값을 주어 변환
    arr[[0, 0]] = [[1 2 3 4],[1 2 3 4]]

2) Pandas 데이터 선택

  a b c
0 0 2 5
1 22 27 19
2 7 24 14

 

 

1. Slicing
df[0: 2]

  a b c
0 0 2 5
1 22 27 19

 

2. Indexing: Series데이터 자료로 나타남

df['a']

0  0

1  22

2  7

name: a

 

3. Boolean Indexing

df[ df['a'] > 20]

  a b c
1 22 27 19

 

4. Fancy Indexing

df[['a', 'b']]

  a b
0 0 2
1 22 27
2 7 24

 

5. loc 인덱서: df.loc[행, 원하는 열의 이름]

df.loc[0, 'a'] 또는 df.loc[0,['a','b']]

 

6. iloc 인덱서: df.loc[행, 열의 순서]

df.iloc[1, 0] 또는 df.loc[1, [0, 1]]

 

 

* 개인적으로 실습한 ipynb파일 필요하신분은 이메일 남겨주세요*

728x90
반응형