df = pd.DataFrame(
    {"id": [1,2,3,4,5,6], "raw_grade": ["a", "b", "b", "a", "a", "e"]}
)
df

df["grade"] = df["raw_grade"].astype("category") # 타입을 category로 변경하여 새로운 컬럼으로써 추가
df["grade"]

0    a
1    b
2    b
3    a
4    a
5    e
Name: grade, dtype: category
Categories (3, object): ['a', 'b', 'e']

new_categorics = ["very good", "good", "very bad"] # 변경해줄 새로운 카테고리들
df["grade"] = df["grade"].cat.rename_categories(new_categorics) # 기존 카테고리를 새로운 카테고리로 변경

df

df["grade"] = df["grade"].cat.set_categories(
    ["very bad", "bad", "medium", "good", "very good"]
)
df["grade"]

0    very good
1         good
2         good
3    very good
4    very good
5     very bad
Name: grade, dtype: category
Categories (5, object): ['very bad', 'bad', 'medium', 'good', 'very good']

df.sort_values(by="grade") # 대신 정렬의 기준은 어휘적 순서가 아닌 범주에서 매겨진 값의 순서대로 순서가 매겨짐

display(df.groupby("grade", observed=False).size()) 
# size로 크기를 구할 수 있기 때문에 이 방식을 통해 각 범주에 해당되는 값의 빈도수도 확인할 수 있다
# observed=False하면 카테고리에 대해 0인 것도 표시가 된다

grade
very bad     1
bad          0
medium       0
good         2
very good    3
dtype: int64

Pandas와 친해지기(10분 Pandas) (2024-02-04)

Categoricals (2024-02-04)¶

	id	raw_grade	grade
0	1	a	very good
1	2	b	good
2	3	b	good
3	4	a	very good
4	5	a	very good
5	6	e	very bad