STUDY (10) 썸네일형 리스트형 자연어 처리 프로세스 효과적인 데이터 전처리: 깨끗한 데이터로 시작하는 분석의 첫걸음안녕하세요, 데이터 분석가 여러분! 오늘은 데이터 분석의 핵심이라고 할 수 있는 데이터 전처리 과정에 대해 알아보겠습니다. 깨끗하고 정제된 데이터는 정확한 분석 결과의 기반이 됩니다. 그럼 지금부터 효과적인 데이터 전처리 5단계를 살펴볼까요?1. 데이터 확인첫 번째 단계는 데이터를 꼼꼼히 살펴보는 것입니다. 데이터의 구조, 각 열의 의미, 데이터 타입 등을 파악합니다. Python에서는df.info(),df.describe(),df.head()등의 함수를 활용하면 좋죠.2. 중복 데이터 제거중복된 데이터는 분석 결과를 왜곡시킬 수 있습니다. pandas의drop_duplicates()함수를 사용하여 쉽게 중복을 제거할 수 있습니다.python.. 언어 처리 학습 - 감정분석 언어 처리모델 프로세스프로세스 순서데이터 확인중복 데이터 제거Null 제거빈공간 제거특수문자 제거import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport urllib.request# 데이터 확인하기input_data = 데이터 입력# 중복 데이터 제거input_data.drop_duplicates(subset=['document'], inplace=True)# null 데이터 삭제input_data.dropna(inplace=True)# 양끝의 빈공간 삭제input_data['document'] = input_data['document'].str.strip()input_data['document'] = input_data['do.. 딥러닝 AI 학습 (이미지) # 이미지 처리### 이미지 세팅- 이미지 디렉터리 기준으로 이미지 셋 만들기 - image_dataset_from_directory```bashimport osimport zipfileimport numpy as npimport tensorflow as tfimport matplotlib.pyplot as pltfrom glob import globfrom PIL import Image# 하이터 파라미터 정의num_epochs = 10learning_rate = 0.001dropout_rate = 0.5input_shape = (128, 128, 3)batch_size = 32num_classes = 클래스 수 # 이미지 패스 지정train_img_path ='이미지 경로'valid_img_pat.. RPA: 파이썬을 활용한 오타보정(2) from hanspell import spell_checker import openpyxl def read_excel(file_name,x,y): #엑셀을 읽는 함수 (파일명, x좌표, y좌표) dataExcel=openpyxl.load_workbook(file_name) #파일 오픈 ws1 = dataExcel.active word=ws1.cell(row=y,column=x).value #워드 읽기 return word #읽은 워드 리턴 def write_excel(file_name,x,y,output_word): #엑셀에 파일에 입력 dataExcel=openpyxl.load_workbook(file_name) ws1 = dataExcel.active ws1.cell(row=y,column=x).va.. RPA 만들기 : 오타 검증 프로그램 만들기 (파이썬 활용) 이번 시간에는 파이썬에서 hanspell 이라는 오타를 찾는 라이브러리를 활용하여 오타를 수정하는 프로그램을 만들어 봅시다. 첫번째 할일은 라이브러리를 받기! github.com/ssut/py-hanspell ssut/py-hanspell 파이썬 한글 맞춤법 검사 라이브러리. (네이버 맞춤법 검사기 사용). Contribute to ssut/py-hanspell development by creating an account on GitHub. github.com 위의 github에서 ZIP 파일을 받고, hanspell이라는 폴더에 작성한 파이썬 파일을 넣고 import 하시면 라이브러리를 사용 할 수 있네요~ 기타 자세한 설명은 pro-jy.tistory.com/22 참고 하세요~! 2. hanspel.. 웹스크롤링- 구글 이미지 다운로드받기 안녕하세요!! 오늘은 구글 이미지를 스크롤링 해보도록 합시다. 오늘도 간편하게 이미 만들어져 있는 라이브러리를 사용하도록 할거에요 그 방식이 아니라면 직접 웹 html를 분석하여 하나하나 다운로드를 받아야겠죠 ~? 오늘 참고할 라이브러리는 google_images_download라는 겁니다. 참고 사이트는 여기고여 https://pypi.org/project/google_images_download/ google_images_download Python Script to download hundreds of images from 'Google Images'. It is a ready-to-run code! pypi.org 터미널창에서 pip install google_images_download 넣으면 .. 파이썬 - 웹스크롤링 하기 오늘은 웹스크롤링을 통해 자동화하여 사진등을 스크랩 해봅시다!! 오늘도 구름 IDE를 사용해서 해보도록 할게요!! 파이썬 라이브러리중 - beautiful soup를 이용하면 간편하게 할수 있어요!! 구름 IDE에서 우선 beautiful soup를 활용하기 위해 다운을 받아야겠죠? 리눅스 계열에서 다운로드를 할때 명령어는 pip install (패키지명) 입니다!! 이번에 패키지를 다운받기 위해 pip install bs4를 쳐서 다운을 받아요!! 명령어는 구름 IDE에서 터미널 창에 치면 됩니다! 이제 예제를 시작해봅시다. https://en.wikipedia.org/wiki/Beautiful_Soup_(HTML_parser) Beautiful Soup (HTML parser) - Wikipedia .. 구름IDE 사용하기 오늘은 구름 IDE라는 클라우드 서비스를 이용해볼 겁니다. 직접 파이썬이나 c++ , JAVA 등등 다운받아서 코딩할 수도 있지만 직접 다운받지 않고 클라우드 내에서 코딩하고, 직접 컴파일까지 가능한 서비스를 해보려고 해요 먼저 구름 IDC 홈페이지를 들어가봅시다. https://ide.goorm.io/?plan=ZnJlZQ== 구름IDE - 설치가 필요없는 통합개발환경 서비스 구름IDE는 언제 어디서나 사용 가능한 클라우드 통합개발환경(Integrated Development Environment IDE)을 제공합니다. 웹브라우저만 있으면 코딩, 디버그, 컴파일, 배포 등 개발에 관련된 모든 작업을 클라� ide.goorm.io 들어가서 가입 및 로그인을 먼저 해주도록 합시다. 구글이나 페이스북등으로 .. 이전 1 2 다음