본문 바로가기

분류 전체보기

(19)
자연어 처리 프로세스 효과적인 데이터 전처리: 깨끗한 데이터로 시작하는 분석의 첫걸음안녕하세요, 데이터 분석가 여러분! 오늘은 데이터 분석의 핵심이라고 할 수 있는 데이터 전처리 과정에 대해 알아보겠습니다. 깨끗하고 정제된 데이터는 정확한 분석 결과의 기반이 됩니다. 그럼 지금부터 효과적인 데이터 전처리 5단계를 살펴볼까요?1. 데이터 확인첫 번째 단계는 데이터를 꼼꼼히 살펴보는 것입니다. 데이터의 구조, 각 열의 의미, 데이터 타입 등을 파악합니다. Python에서는df.info(),df.describe(),df.head()등의 함수를 활용하면 좋죠.2. 중복 데이터 제거중복된 데이터는 분석 결과를 왜곡시킬 수 있습니다. pandas의drop_duplicates()함수를 사용하여 쉽게 중복을 제거할 수 있습니다.python..
언어 처리 학습 - 감정분석 언어 처리모델 프로세스프로세스 순서데이터 확인중복 데이터 제거Null 제거빈공간 제거특수문자 제거import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport urllib.request# 데이터 확인하기input_data = 데이터 입력# 중복 데이터 제거input_data.drop_duplicates(subset=['document'], inplace=True)# null 데이터 삭제input_data.dropna(inplace=True)# 양끝의 빈공간 삭제input_data['document'] = input_data['document'].str.strip()input_data['document'] = input_data['do..
딥러닝 폴더로 이미지 학습하기 이미지 처리이미지 세팅이미지 디렉터리 기준으로 이미지 셋 만들기image_dataset_from_directoryimport osimport zipfileimport numpy as npimport tensorflow as tfimport matplotlib.pyplot as pltfrom glob import globfrom PIL import Image# 하이터 파라미터 정의num_epochs = 10learning_rate = 0.001dropout_rate = 0.5input_shape = (128, 128, 3)batch_size = 32num_classes = 클래스 수 # 이미지 패스 지정train_img_path ='이미지 경로'valid_img_path ='이미지 경로'# Train Da..
딥러닝 AI 학습 (이미지) # 이미지 처리### 이미지 세팅- 이미지 디렉터리 기준으로 이미지 셋 만들기    - image_dataset_from_directory```bashimport osimport zipfileimport numpy as npimport tensorflow as tfimport matplotlib.pyplot as pltfrom glob import globfrom PIL import Image# 하이터 파라미터 정의num_epochs = 10learning_rate = 0.001dropout_rate = 0.5input_shape = (128, 128, 3)batch_size = 32num_classes = 클래스 수 # 이미지 패스 지정train_img_path ='이미지 경로'valid_img_pat..
파이썬 _다이나믹 프로그래밍 # you can write to stdout for debugging purposes, e.g. # print("this is a debug message") import sys sys.setrecursionlimit(6000000) #재귀 늘리기 위한 부분 arr=[] def dp(index,A): global arr if index==len(A)-1:#첫번째 리턴 return A[-1] if arr[index]!=-math.inf:#가지치기 이미 계산한거 리턴 return arr[index] temp=arr[index] for i in range( 1,7):#6가지 경우중 가장 큰값으로 if index+i < len(A): temp=max(dp(index+i,A)+A[index],temp) arr[..
파이썬 나눠지는 값 찾기 문제 용해도 (A,B,K) 즉, 세 개의 정수 A, B, K가 주어졌을 때 [A..] 범위 내의 정수 수를 반환합니다.B] 이 값은 K로 나뉩니다. 즉, {i: A ∆ i ≤ B, imod K = 0} 예를 들어, A = 6, B = 11 및 K = 2의 경우 [6..11] 범위 내에서 2로 나누어진 세 개의 숫자, 즉 6, 8, 10이 있으므로 함수는 3을 반환해야 합니다. 다음 가정에 대해 효율적인 알고리즘을 작성합니다. A와 B는 [0..2,000,000,000] 범위의 정수입니다; K는 [1..2,000,000,000] 범위의 정수입니다; A b B. 코드 import math def solution(A, B, K): box=[] #최대 몫과 최소 몫 찾음 #올림과, 내림을 통해 가능 범위 축소 ..
파이썬 _코들리티 _ 최대수세기 문제 처음에는 0으로 설정된 N개의 카운터가 주어지며 두 가지 작업을 수행할 수 있습니다. 증가(X) - 카운터 X가 1 증가한다. max counter - 모든 카운터가 카운터의 최대값으로 설정됩니다. 비어 있지 않은 M 정수 배열 A가 주어집니다. 이 어레이는 연속 작업을 나타냅니다. A[K] = 1 µ X µ N인 경우, 연산 K가 증가(X), A[K] = N + 1이면 작동 K는 최대 카운터입니다. 예를 들어, 정수 N = 5 및 어레이 A가 지정되면 다음과 같습니다. A[0] = 3 A[1] = 4 A[2] = 4 A[3] = 6 A[4] = 1 A[5] = 4 A[6] = 4 각 연속 작업 후 카운터의 값은 다음과 같습니다. (0, 0, 1, 0, 0) (0, 0, 1, 1, 0) (0, 0,..
파이썬 _ 이동 최대 시간 찾기 문제 작은 개구리는 강 반대편으로 가고 싶어한다. 개구리는 처음에 강의 한 뱅크(위치 0)에 위치하며 반대편 뱅크(위치 X+1)로 이동하려고 합니다. 나뭇잎이 나무에서 강의 수면으로 떨어진다. 낙엽을 나타내는 N개의 정수로 구성된 배열 A가 주어집니다. A[K]는 K 시간에 한 잎이 떨어지는 위치를 나타내며, 초 단위로 측정됩니다. 목표는 개구리가 강 반대편으로 점프할 수 있는 가장 빠른 시기를 찾는 것이다. 개구리는 1에서 X까지 강을 가로지르는 모든 위치에 나뭇잎이 나타날 때만 건널 수 있습니다. 여러분은 강의 물살이 아주 작다고 생각할 수 있습니다. 즉, 나뭇잎이 강에 떨어졌을 때 위치가 바뀌지 않습니다. 예를 들어 정수 X = 5 및 어레이 A가 주어지면 다음과 같습니다. A[0] = 1 A[1]..