전체 글
-
Pandas와 친해지기(10분 Pandas) (2024-02-06)코딩 공부/Pandas 2024. 2. 6. 23:48
Importing and exporting data (2024-02-06)¶ CSV¶ In [ ]: df = pd.DataFrame(np.random.randint(0,5,(10,5))) df.to_csv("foo.csv") In [ ]: pd.read_csv("foo.csv") Unnamed: 0 0 1 2 3 4 0 0 2 3 0 2 2 1 1 1 3 4 3 1 2 2 0 4 1 0 2 3 3 2 2 3 3 1 4 4 1 4 0 3 2 5 5 0 4 0 2 2 6 6 3 4 1 3 3 7 7 2 2 4 2 0 8 8 1 0 3 1 0 9 9 2 3 1 2 2 주의 할점: CSV 형식으로 부터 읽어올 때 주의할 점은 기존 행 인덱스를 인식하지 못하고 행 인덱스를 가지는 새로운 열이 추가로 잡힌다는 것입..
-
2024-02-05스파르타/TIL(Today I Learned) 2024. 2. 5. 23:37
더보기 SQL코드카타 New Companies(SQL)(모르겠음 일단 대강 패스하고 질문해서 확인해야 할 듯)(어려웠음(분명하게 테이블 준 의도 등을 모르겠어서)) New Companies | HackerRank 각 회사별로 각 직위에 있는 사람이 몇명씩인지 출력하는 문제이다. SELECT c.company_code, c.founder, COUNT(lm.lead_manager_code), COUNT(sm.senior_manager_code), COUNT(m.manager_code), COUNT(e.employee_code) FROM Company c, Lead_Manager lm, Senior_Manager sm, Manager m, Employee e GROUP BY company_code #ERROR..
-
2024-02-03~2024-02-04스파르타/TIL(Today I Learned) 2024. 2. 5. 23:22
더보기 SQL 코드카타 Weather Observation Station 18(SQL)(round, max, min, manhattan distance멘허튼 거리?)(간단) Weather Observation Station 18 | HackerRank 가장 작은값과 큰 값의 lat_n과 long_w의 절대값 차를 구한 뒤 합(Manhattan Distance라고 하는 듯하다 좌표 형식으로 각 각 lat_n중 가장 작은 값과 long_w중 가장 작은 값을 좌표로 가지는 지점과 각각 둘 다에 대해 가장 큰 값을 가지는 지점에 대해 거리를 구하는데 그 거리 구하는 방식을 각각 x좌표, y좌표의 차를 절대값으로 구한 뒤 합하는 방식으로 구함)을 구하는 문제이다 SELECT ROUND(ABS(MAX(s.lat_n..
-
Pandas와 친해지기(10분 Pandas) (2024-02-05)코딩 공부/Pandas 2024. 2. 5. 15:11
Plotting (2024-02-05)¶ In [ ]: import matplotlib.pyplot as plt plt.close("all") # 왜 이것부터 시작한지는 모르겠지만 열려있는 모든 figure창을 닫아주는 메소드인듯하다 In [ ]: ts = pd.Series(np.random.randn(1000), index=pd.date_range("1/1/2000", periods=1000)) ts = ts.cumsum() ts.plot() cumsum은 누적합계를 해주는 메소드인듯하다 https://pandas.pydata.org/docs/reference/api/pandas.Series.cumsum.html In [ ]: df = pd.DataFrame( np.random.randn(1000,4)..
-
2024-02-04스파르타/WIL(Weekly I Learned) 2024. 2. 4. 14:32
**FACTS(사실, 객관)** : 이번 일주일 동안 있었던 일, 내가 한 일 SQL코드카타 38문제, 데이터분석 입문(데이터 전처리 주에 통계 살짝 첨가) 개인과제해설특강, 머신러닝 기초,심화 강의, 그외 SQL과 머신러닝, pandas 등 파이썬 코딩관련 질문, 머신러닝 개인과제(현재 진행형) **FEELINGS(느낌, 주관)** : 나의 감정적인 반응, 느낌 우선 SQL코드카타는 주말 중 하루에 문제를 20문제정도 푼 날이 있어서 평소보다 총 푼 문제수가 많은데 이는 TIL에도 적었던 것으로 기억하는데 살짝 의미없는 살짝 살짝 바꿔서 푸는 단순한 문제들만 잔뜩 연속적으로 있길래 의미없는 것을 미리 풀어서 해치워놔야 평일에 최대한 좀 더 의미있는 문제에대해 풀 것 같아서 많이 풀어두었는데, 그외 전체..
-
Pandas와 친해지기(10분 Pandas) (2024-02-04)코딩 공부/Pandas 2024. 2. 4. 13:03
Categoricals (2024-02-04)¶ In [ ]: df = pd.DataFrame( {"id": [1,2,3,4,5,6], "raw_grade": ["a", "b", "b", "a", "a", "e"]} ) df id raw_grade 0 1 a 1 2 b 2 3 b 3 4 a 4 5 a 5 6 e In [ ]: df["grade"] = df["raw_grade"].astype("category") # 타입을 category로 변경하여 새로운 컬럼으로써 추가 df["grade"] 0 a 1 b 2 b 3 a 4 a 5 e Name: grade, dtype: category Categories (3, object): ['a', 'b', 'e'] In [ ]: new_categorics = ["..
-
Pandas와 친해지기(10분 Pandas) (2024-02-03)코딩 공부/Pandas 2024. 2. 3. 14:04
Time series (2024-02-03)¶ 시계열 데이터에서 1초 마다 측정된 데이터를 5분 마다 측정된 데이터의 형태로 바꾸고 싶을 때 어떻게 해야하는지 그리고 그 시계열 단위인 주기(frequency)를 다시 샘플링 할 수 있음 In [ ]: rng = pd.date_range("1/1/2012", periods=100, freq ="s") #대강 시작기준날짜, 몇개, (데이터간 차이나는)단위 느낌인듯하다 ts = pd.Series(np.random.randint(0,500,len(rng)), index=rng) ts.resample("5Min").sum() 2012-01-01 24590 Freq: 5T, dtype: int32 resample에 대하여¶ In [ ]: idx = pd.date_r..
-
Pandas와 친해지기(10분 Pandas) (2024-01-26~2024-02-02)코딩 공부/Pandas 2024. 2. 3. 13:24
Object creation (2024-01-26)¶ In [ ]: import numpy as np import pandas as pd In [ ]: s = pd.Series([1, 3, 5, np.nan, 6, 8]) s Out[ ]: 0 1.0 1 3.0 2 5.0 3 NaN 4 6.0 5 8.0 dtype: float64 In [ ]: dates = pd.date_range("20130101", periods=6) dates Out[ ]: DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04', '2013-01-05', '2013-01-06'], dtype='datetime64[ns]', freq='D') In [ ]: df =..