전체 글34 업무 효율의 최적화와 극대화를 이루는 법 비효율적인 프로세스란? 이미 존재하는 프로세스는 그게 효율적이든 비효율적이든 아무리 잘해봐야 큰 성과로 인정받지 못한다. 이십 년 가까이 회사 생활을 하면서 무수히 많은 비지니스 프로세스들을 접하고 수행을 했었다. 그중에 어떤 프로세스들은 전임자로부터 인수인계를 받는 그 순간부터 온갖 두통이 밀려오며 망했다는 느낌을 강하게 주는 것들이 있었다. 그런 프로세스들의 특징 중 하나는 전임자들도 비효율성 때문에 그 프로세스를 완벽하게 파악하고 있지 못할 확률이 크기 때문에 인수인계 자체도 제대로 이뤄지지 않을 가능성이 크다. 최악의 상황은 전임자가 회사를 떠나기 때문에 단기간에 비효율적인 프로세스의 불완전한 인수인계가 이뤄지고 홀로 남겨진 상황인데 나도 이런 최악의 순간을 겪은 적이 몇 번 있다. 개중에 하나는.. 2023. 8. 13. Data Handling - Dates and Times 문자열 데이터를 시계열 데이터로 전환 주어진 문자열 벡터는 날짜와 시간을 나타내고 있으며, 이를 시계열 데이터로 변환하고 싶은 경우 다음과 같은 절차를 따를 수 있습니다: 문자열을 시간 데이터로 변환: 문자열로 표현된 날짜와 시간을 Python의 datetime 객체로 변환합니다. 시간 데이터를 인덱스로 설정: 변환된 시간 데이터를 시계열 데이터의 인덱스로 설정합니다. 이를 통해 시간에 따른 데이터를 쉽게 분석할 수 있습니다. 시계열 데이터로 변환: 변환된 시간 데이터와 관련된 데이터를 시계열 데이터로 구성합니다. 예를 들어, 다음과 같은 문자열 벡터가 주어졌다고 가정해봅시다: dates_strings = ['2023-08-01 10:00', '2023-08-01 11:00', '2023-08-01 12.. 2023. 8. 4. Data Handling - fit, transform, and fit_transform Difference between fit, transform, and fit_transform 데이터 전처리를 하다 보면 fit, transform, 그리고 fit_transform 함수들을 자주 보게 됩니다. 각각의 함수들이 어떤 동작을 하는지 그리고 그들 간에 차이점은 무엇인지 알아보겠습니다. fit 함수: fit 함수는 기계 학습 모델을 훈련하는 데 사용됩니다. 모델이 학습 데이터에 적합하도록 매개변수를 조정하고 모델 내부에서 필요한 정보를 학습합니다. 훈련된 모델은 훈련 데이터에서 보지 못한 새로운 데이터에 대해 예측을 수행할 수 있습니다. transform 함수: transform 함수는 데이터 변환에 사용됩니다. 특히, 데이터 전처리 단계에서 사용되며, 훈련된 변환을 새로운 데이터에 적용합니다.. 2023. 8. 3. Data Handling - Data Type Data Type 기계학습에 사용되는 데이터는 크게 다음과 같은 데이터 타입으로 구분할 수 있습니다. 다만 각각의 데이터값들은 기계학습에 그대로 쓰일 수 없으므로 적합한 데이터 전처리를 통해서 인공지능 알고리즘이 이해할 수 있는 값으로 변환을 시켜줘야 합니다. Numerical 데이터 (수치형 데이터): 숫자로 표현되는 데이터로, 연속적인 값 또는 이산적인 값일 수 있습니다. 예시: 주택 가격, 온도, 나이, 시간 등 대부분의 기계학습 알고리즘은 수치형 데이터를 처리하는 데 적합하며, 이러한 데이터는 숫자로 표현된 특성들의 값으로 구성됩니다. Numerical 데이터 (수치형 데이터) 예제: import numpy as np from sklearn import preprocessing # Numerica.. 2023. 8. 3. pandas - Adding New Columns and Rows to DataFrame Adding New Columns with pandas Since the Boston Housing Prices dataset does not contain a meaningful categorical variable, we can create a new column for feature engineering using the existing numerical features. Let's create a new column named "Age_Category" based on the "AGE" feature. We'll group the data into three age categories: "Young", "Middle-aged", and "Old". The age category ranges are.. 2023. 7. 30. pandas - Subsetting Rows with Categorical Variables Data Import Since there is no categorical variables in Boston dataset, I will just show you the example using dummy dataset. Let's consider a hypothetical dataset called "employee_data" with a categorical variable "Department" and other numerical features. We will use this dataset to subset rows based on the "Department" category. # Sample employee data with a categorical variable "Department" d.. 2023. 7. 30. pandas - Complete Usage of loc and iloc Data Import import pandas as pd from sklearn.datasets import load_boston # Load the Boston Housing Prices dataset boston = load_boston() boston_df = pd.DataFrame(boston.data, columns=boston.feature_names) boston_df['PRICE'] = boston.target A complete usage of loc The .loc[] function in Pandas is a powerful tool for data indexing and selection. With the Boston Housing Prices dataset, you can use .. 2023. 7. 30. pandas - Subsetting Columns and Rows Data Import import pandas as pd from sklearn.datasets import load_boston # Load the Boston Housing Prices dataset boston = load_boston() boston_df = pd.DataFrame(boston.data, columns=boston.feature_names) boston_df['PRICE'] = boston.target Subsetting a single column using the column name as an attribute To subset a single column from the Boston Housing Prices dataset, you can use the DataFrame's.. 2023. 7. 30. pandas - Sorting DataFrame Data Import import pandas as pd from sklearn.datasets import load_boston # Load the Boston Housing Prices dataset boston = load_boston() boston_df = pd.DataFrame(boston.data, columns=boston.feature_names) boston_df['PRICE'] = boston.target Sorting DataFrame Sorting can be done using .sort_values(). We need to sepcify the columns in a list and also specify if we want to sort in ascending or desce.. 2023. 7. 30. 이전 1 2 3 4 다음