본문 바로가기

데이터분석12

[Python] 테스트빈도 분석1 - 영어단어분석 프로젝트(불용어(stopword),표제어 추출(Lemmatization) 1. 영어 단어 분석에 필요한 패키지 준비 - 자바 설치 - Jpype , KoNLPy, Tweepy, wordcloud 라이브러리 설치 import pandas as pd import glob import re from functools import reduce from nltk.tokenize import word_tokenize from nltk.corpus import stopwords from nltk.stem import WordNetLemmatizer from collections import Counter import matplotlib.pyplot as plt from wordcloud import WordCloud, STOPWORDS 2. 데이터 준비 2.1)엑셀 파일 여러개를 병합하기.. 2021. 12. 11.
[Python] MatPlotlib 기본 사용 방법 1. MatPlotlib 라이브러리 matplotlib.pyplot 모듈은 그래프를 그릴 수 있는 파이썬 라이브러리 import matplotlib.pyplot as plt plt.plot([1,2,3,4]) # 리스트의 값들이 y 값이라고 가정, [0,1,2,3] 을 자동으로 만들어냄 plt.show() # 그래프를 화면에 나타냄 import matplotlib.pyplot as plt import numpy as np x = np.arange(-15,10) y1 = x **2 y2 = -x *20 plt.plot(x,y1,linestyle = "-.",marker = "*",color = "red",label = "y = x*x") plt.plot(x,y2,linestyle = ":", marker .. 2021. 11. 28.
[Python] Pandas의 기본 사용법 0. Pandas 란? 데이터를 효과적으로 처리하고, 보여줄 수 있도록 도와주는 라이브러리 Numpy와 함께 사용되어 연계쩍인 기능 제공 인덱스에 따라 데이터를 나열하기때문에 사전 자료형에 가까움 Series를 기본적인 자료형으로 사용합니다. 1. Series 사용해보기 # 시리즈 사용해보기 import pandas as pd array = pd.Series(['사과','바나나','당근'], index = ['a','b','c']) print(array) print(array['a']) a 사과 b 바나나 c 당근 dtype: object 사과 # dict 자료형을 시리즈로 바꾸기 data = { 'a':'사과', 'b':'바나나', 'c':'당근' } array = pd.Series(data) prin.. 2021. 11. 28.
[데이터분석](Project3) 자동차 리콜 데이터 분석 프로젝트 2 프로젝트 목차 데이터 읽기: 자동차 리콜 데이터를 불러오고 Dataframe 구조를 확인 1.1. 데이터 불러오기 데이터 정제: 결측치 확인 및 기초적인 데이터 변형 2.1. 결측치 확인 2.2. 중복값 확인 2.3. 기초적인 데이터 변형 데이터 시각화: 각 변수 별로 추가적인 정제 또는 feature engineering 과정을 거치고 시각화를 통하여 데이터의 특성 파악 3.1. 제조사별 리콜 현황 출력 3.2. 모델별 리콜 현황 출력 3.3. 월별 리콜 현황 출력 3.4. 생산연도별 리콜 현황 출력 3.5. 4분기 제조사별 리콜 현황 출력 3.6. 하반기 생산연도별 리콜 현황 출력 3.7. 워드 클라우드를 이용한 리콜 사유 시각화 3. 데이터 시각화 각 column의 변수별로 어떠한 데이터 분포를 하.. 2021. 10. 3.
[데이터분석](Project2) 지하철 승하차 인원 분석 프로젝트2 프로젝트 목차 데이터 읽기: 승하차 인원 정보 데이터를 불러오고 DataFrame 구조를 확인 1.1. 데이터 불러오기 1.2. 데이터 확인하기 데이터 정제: 데이터 확인 후 형 변환 및 이상치 데이터 처리 2.1. 2021년 6월 승하차 인원만 추출 데이터 시각화: 각 변수별로 추가적인 정제 또는 feature engineering 과정을 거치고 시각화를 총해 데이터 특성 파악 3.1. 호선 별 이용객 수 출력 3.2. 특정 호선에서 역별 평균 승하차 인원 데이터 추출 3.3. 평균 승하차 인원 수 내림차순으로 막대그래프 출력 3.4. 특정 호선의 혼잡 정도와 위치좌표 데이터 병합 3.5. 특정 호선의 혼잡 정도를 지도에 출력 3.2. 특정 호선에서 역별 평균 승하차 인원 데이터 추출 다양한 호선에서 .. 2021. 9. 30.
[데이터분석](Project2) 지하철 승하차 인원 분석하기 프로젝트 목표¶ 승차 또는 하차 시 해당 시간, 해당 역의 승객 수를 확인하기 위해 개찰구 통과 승객 수 데이터와 지하철 위치좌표 데이터를 활용 탐색적 데이터 분석을 수행하기 위한 데이터 정제, 특성 엔지니어링, 시각화 방법 학습 프로젝트 목차¶ 데이터 읽기: 승하차 인원 정보 데이터를 불러오고 DataFrame 구조를 확인 1.1. 데이터 불러오기 1.2. 데이터 확인하기 데이터 정제: 데이터 확인 후 형 변환 및 이상치 데이터 처리 2.1. 2021년 6월 승하차 인원만 추출 데이터 시각화: 각 변수별로 추가적인 정제 또는 feature engineering 과정을 거치고 시각화를 총해 데이터 특성 파악 3.1. 호선 별 이용객 수 출력 3.2. 특정 호선에서 역별 평균 승하차 인원 데이터 추출 3... 2021. 9. 29.