코딩 공부/Pandas
-
Pandas와 친해지기(10분 Pandas) (2024-02-10)코딩 공부/Pandas 2024. 2. 10. 21:42
Selection 부분 추가로 (2024-02-10)¶어제 내용 미리 조금 작석해두고 날짜나눠서 친척집 가기 전에 올려두고 갈려했는데 뭔가 꼬였는지 2월 8일 날짜로 두번 올라가서 덮어쓰기 되었다 Selection by position¶위치로 하는 것으로 index를 사용하게 되어 이전 label로 하던 것에서 i가 추가로 붙은 형태의 메소드를 사용한다 In [ ]: df A B C D 2013-01-01 1.502471 0.594288 2.118684 0.760508 2013-01-02 -0.819508 0.625336 0.437477 -0.566756 2013-01-03 1.338780 0.066758 0.931451 -0.750420 2013-01-04 -1.518039 -1.663265 0.738..
-
Pandas와 친해지기(10분 Pandas) (2024-02-09)코딩 공부/Pandas 2024. 2. 9. 13:00
Selection 부분 (2024-02-09)¶ In [ ]: df A B C D 2013-01-01 -2.136993 0.078948 -0.701306 0.715640 2013-01-02 0.036191 -0.312787 -1.213996 -0.499502 2013-01-03 -1.163258 0.746266 -2.155175 0.689680 2013-01-04 -0.270996 0.901398 0.330045 0.811605 2013-01-05 -0.560772 0.529117 1.118020 -0.268348 2013-01-06 0.929646 0.378252 0.950864 -0.297048 Getitem([])¶ In [ ]: display(df.A) # 메소드?방식? 속성방식? 안정적이지 않음..
-
Pandas와 친해지기(10분 Pandas) (2024-02-08)코딩 공부/Pandas 2024. 2. 8. 23:40
View부분 (2024-02-08)¶ In [ ]: dates = pd.date_range("20130101", periods=6) dates DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04', '2013-01-05', '2013-01-06'], dtype='datetime64[ns]', freq='D') In [ ]: df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD")) df A B C D 2013-01-01 0.084276 -0.990418 0.766975 -0.105054 2013-01-02 -0.060532 -1.116166 -0.190412..
-
Pandas와 친해지기(10분 Pandas) (2024-02-07)코딩 공부/Pandas 2024. 2. 7. 16:49
Gotchas (2024-02-07)¶ In [ ]: # if pd.Series([False, True, False]): # print("I was true") --------------------------------------------------------------------------- ValueError Traceback (most recent call last) Cell In[117], line 1 ----> 1 if pd.Series([False, True, False]): 2 print("I was true") File c:\Users\kssg1\AppData\Local\Programs\Python\Python38\lib\site-packages\pandas\core\generic.py:..
-
Pandas와 친해지기(10분 Pandas) (2024-02-06)코딩 공부/Pandas 2024. 2. 6. 23:48
Importing and exporting data (2024-02-06)¶ CSV¶ In [ ]: df = pd.DataFrame(np.random.randint(0,5,(10,5))) df.to_csv("foo.csv") In [ ]: pd.read_csv("foo.csv") Unnamed: 0 0 1 2 3 4 0 0 2 3 0 2 2 1 1 1 3 4 3 1 2 2 0 4 1 0 2 3 3 2 2 3 3 1 4 4 1 4 0 3 2 5 5 0 4 0 2 2 6 6 3 4 1 3 3 7 7 2 2 4 2 0 8 8 1 0 3 1 0 9 9 2 3 1 2 2 주의 할점: CSV 형식으로 부터 읽어올 때 주의할 점은 기존 행 인덱스를 인식하지 못하고 행 인덱스를 가지는 새로운 열이 추가로 잡힌다는 것입..
-
Pandas와 친해지기(10분 Pandas) (2024-02-05)코딩 공부/Pandas 2024. 2. 5. 15:11
Plotting (2024-02-05)¶ In [ ]: import matplotlib.pyplot as plt plt.close("all") # 왜 이것부터 시작한지는 모르겠지만 열려있는 모든 figure창을 닫아주는 메소드인듯하다 In [ ]: ts = pd.Series(np.random.randn(1000), index=pd.date_range("1/1/2000", periods=1000)) ts = ts.cumsum() ts.plot() cumsum은 누적합계를 해주는 메소드인듯하다 https://pandas.pydata.org/docs/reference/api/pandas.Series.cumsum.html In [ ]: df = pd.DataFrame( np.random.randn(1000,4)..
-
Pandas와 친해지기(10분 Pandas) (2024-02-04)코딩 공부/Pandas 2024. 2. 4. 13:03
Categoricals (2024-02-04)¶ In [ ]: df = pd.DataFrame( {"id": [1,2,3,4,5,6], "raw_grade": ["a", "b", "b", "a", "a", "e"]} ) df id raw_grade 0 1 a 1 2 b 2 3 b 3 4 a 4 5 a 5 6 e In [ ]: df["grade"] = df["raw_grade"].astype("category") # 타입을 category로 변경하여 새로운 컬럼으로써 추가 df["grade"] 0 a 1 b 2 b 3 a 4 a 5 e Name: grade, dtype: category Categories (3, object): ['a', 'b', 'e'] In [ ]: new_categorics = ["..
-
Pandas와 친해지기(10분 Pandas) (2024-02-03)코딩 공부/Pandas 2024. 2. 3. 14:04
Time series (2024-02-03)¶ 시계열 데이터에서 1초 마다 측정된 데이터를 5분 마다 측정된 데이터의 형태로 바꾸고 싶을 때 어떻게 해야하는지 그리고 그 시계열 단위인 주기(frequency)를 다시 샘플링 할 수 있음 In [ ]: rng = pd.date_range("1/1/2012", periods=100, freq ="s") #대강 시작기준날짜, 몇개, (데이터간 차이나는)단위 느낌인듯하다 ts = pd.Series(np.random.randint(0,500,len(rng)), index=rng) ts.resample("5Min").sum() 2012-01-01 24590 Freq: 5T, dtype: int32 resample에 대하여¶ In [ ]: idx = pd.date_r..