Tech15 dplyr - Change Data Type for Column R에서는 데이터프레임을 다루는 주요 패키지 중 하나로 'dplyr' 패키지를 사용할 수 있습니다. 아래 코드는 'dplyr' 패키지를 사용하여 데이터프레임의 열 데이터 유형을 변환합니다. 결과는 데이터프레임의 열 데이터 유형이 각각 integer, numeric, logical로 변환된 것을 보여줍니다. # 필요한 라이브러리 불러오기 library(dplyr) # 샘플 데이터프레임 생성 data 2023. 9. 7. Pandas - Change Data Type for Column Pandas를 사용하여 데이터프레임의 열 데이터 유형 변환 여기에는 Pandas를 사용하여 데이터프레임의 열 데이터 유형을 변환하는 Python 코드가 포함되어 있으며, 결과는 해당 데이터프레임의 열 데이터 유형이 변환된 것을 보여줍니다. import pandas as pd # 샘플 데이터프레임 생성 data = {'A': ['1', '2', '3'], 'B': [4.1, 5.2, 6.3], 'C': [True, False, True]} df = pd.DataFrame(data) # 데이터 타입이 있는 원본 데이터프레임 출력 print("원본 데이터프레임:") print(df.dtypes) # 'A' 열을 정수로 변환 df['A'] = df['A'].astype(int) # 'B' 열을 부동 소수점으로 .. 2023. 9. 7. Data Handling - Numerical Data Handling Numeric Data (숫자형 데이터 처리)란? 숫자형 데이터를 처리하는 방법은 데이터 전처리 과정 중에서도 중요한 부분입니다. 본문에서는 숫자형 데이터를 다루는 주요 기술과 개념을 설명하겠습니다. 1. 결측값 처리: 결측값은 데이터셋에서 값이 비어 있는 경우를 의미합니다. 이러한 결측값은 분석 및 모델링 작업에서 문제를 일으킬 수 있으므로 적절한 처리가 필요합니다. 주요 결측값 처리 방법에는 평균값, 중앙값, 최빈값으로 채우기, KNN을 이용한 예측 값 채우기, 결측값을 가지고 있는 행 제거 등이 있습니다. 2. 특성 스케일링: 다양한 특성들의 범위 및 단위가 다를 경우, 일부 특성이 모델링에 불리한 영향을 줄 수 있습니다. 따라서 특성을 스케일링하여 같은 범위로 조정하거나 표준화/정.. 2023. 8. 18. pandas - Joining Datasets 테이블 합병의 종류 데이터 전처리를 하다보면 여러개의 테이블들을 합병해야할 경우가 많습니다. 오늘은 테이블 합병의 종류과 자주 쓰이는 코드들을 하나하나 살펴보도록 하겠습니다. 다음은 관계형 데이터베이스에서 자주 사용되는 테이블 조인의 목록입니다. 모든 종류의 조인을 리스트에 포함시켰으나 자주 쓰이고 꼭 알아두어야 할 것은 노란색으로 강조를 했습니다. 나머지는 몰라도 일하는데 거의 지장이 없습니다. 내부 조인 (Inner Join): 공통 열이나 키를 기반으로 두 개 이상의 테이블의 행을 결합합니다. 일치하는 행만 결과에 포함됩니다. 왼쪽 외부 조인 (Left Outer Join): 왼쪽 (첫 번째) 테이블의 모든 행과 오른쪽 (두 번째) 테이블의 일치하는 행을 포함합니다. 오른쪽 테이블에서 일치하는 값이.. 2023. 8. 16. Data Handling - Dates and Times 문자열 데이터를 시계열 데이터로 전환 주어진 문자열 벡터는 날짜와 시간을 나타내고 있으며, 이를 시계열 데이터로 변환하고 싶은 경우 다음과 같은 절차를 따를 수 있습니다: 문자열을 시간 데이터로 변환: 문자열로 표현된 날짜와 시간을 Python의 datetime 객체로 변환합니다. 시간 데이터를 인덱스로 설정: 변환된 시간 데이터를 시계열 데이터의 인덱스로 설정합니다. 이를 통해 시간에 따른 데이터를 쉽게 분석할 수 있습니다. 시계열 데이터로 변환: 변환된 시간 데이터와 관련된 데이터를 시계열 데이터로 구성합니다. 예를 들어, 다음과 같은 문자열 벡터가 주어졌다고 가정해봅시다: dates_strings = ['2023-08-01 10:00', '2023-08-01 11:00', '2023-08-01 12.. 2023. 8. 4. Data Handling - fit, transform, and fit_transform Difference between fit, transform, and fit_transform 데이터 전처리를 하다 보면 fit, transform, 그리고 fit_transform 함수들을 자주 보게 됩니다. 각각의 함수들이 어떤 동작을 하는지 그리고 그들 간에 차이점은 무엇인지 알아보겠습니다. fit 함수: fit 함수는 기계 학습 모델을 훈련하는 데 사용됩니다. 모델이 학습 데이터에 적합하도록 매개변수를 조정하고 모델 내부에서 필요한 정보를 학습합니다. 훈련된 모델은 훈련 데이터에서 보지 못한 새로운 데이터에 대해 예측을 수행할 수 있습니다. transform 함수: transform 함수는 데이터 변환에 사용됩니다. 특히, 데이터 전처리 단계에서 사용되며, 훈련된 변환을 새로운 데이터에 적용합니다.. 2023. 8. 3. Data Handling - Data Type Data Type 기계학습에 사용되는 데이터는 크게 다음과 같은 데이터 타입으로 구분할 수 있습니다. 다만 각각의 데이터값들은 기계학습에 그대로 쓰일 수 없으므로 적합한 데이터 전처리를 통해서 인공지능 알고리즘이 이해할 수 있는 값으로 변환을 시켜줘야 합니다. Numerical 데이터 (수치형 데이터): 숫자로 표현되는 데이터로, 연속적인 값 또는 이산적인 값일 수 있습니다. 예시: 주택 가격, 온도, 나이, 시간 등 대부분의 기계학습 알고리즘은 수치형 데이터를 처리하는 데 적합하며, 이러한 데이터는 숫자로 표현된 특성들의 값으로 구성됩니다. Numerical 데이터 (수치형 데이터) 예제: import numpy as np from sklearn import preprocessing # Numerica.. 2023. 8. 3. pandas - Adding New Columns and Rows to DataFrame Adding New Columns with pandas Since the Boston Housing Prices dataset does not contain a meaningful categorical variable, we can create a new column for feature engineering using the existing numerical features. Let's create a new column named "Age_Category" based on the "AGE" feature. We'll group the data into three age categories: "Young", "Middle-aged", and "Old". The age category ranges are.. 2023. 7. 30. pandas - Subsetting Rows with Categorical Variables Data Import Since there is no categorical variables in Boston dataset, I will just show you the example using dummy dataset. Let's consider a hypothetical dataset called "employee_data" with a categorical variable "Department" and other numerical features. We will use this dataset to subset rows based on the "Department" category. # Sample employee data with a categorical variable "Department" d.. 2023. 7. 30. 이전 1 2 다음