데이터 및 AI(3)
-
연관규칙 분석(apriori)/ 장바구니 분석
연관분석의 이해 필요한 모듈을 설치해줍니다. pip install mlxtend import pandas as pd from mlxtend.preprocessing import TransactionEncoder from mlxtend.frequent_patterns import apriori, association_rules # mlxtend : 일상적인 데이터 사이언스 작업에 유용한 도구들로 구성된 파이썬 라이브러리 # fit() # dataset에 있는 모든단어를 중복제거한뒤(unique) # a~z까지 sort한뒤 인덱스 번호를 부여 # 컬럼이 첫번째 단어, 두번째단어, 세번째단어, 네번째단어 # transform # dataset에 있는 각 단어에 fit에 있는 번호에 해당하는지를 작업 # 예) ..
2024.02.08 -
[02.08] 법원 판례 데이터 자연어처리
원본 데이터 930MB라 올리진 못하겠다.. import pandas as pd # plt.style.use('seaborn') # plt.rcParams['figure.figsize'] = [14,14] # 데이터 불러오기 path = (r'C:\Users\bluecom011\Desktop\Sesac_AI\7주차\02.07\judicial_precedent_All_encoding.csv') df = pd.read_csv(path)[:3000] df.head() # df.tail() df,info()로 정보보기 object인 컬럼만 골라보기 #df. info의 type이 object인 자료만 걸러냄 object_columns = df.select_dtypes(include=['object']).colum..
2024.02.08 -
2024-02-07 넷플릭스 tf-idf 유사도 분석
넷플릭스 csv를 보고 실습을 해봄 1. 필요 라이브러리 import networkx as nx import matplotlib.pyplot as plt import pandas as pd import numpy as np import math as math import time import os from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.metrics.pairwise import linear_kernel from sklearn.cluster import MiniBatchKMeans python 가상 환경 버전은 3.9.18을 사용했다. 2. 데이터 로드 및 정제 import pandas as pd plt.style...
2024.02.07