목록전체 글 (125)
끄적끄적
LLM에 대해 알아보자.1️⃣ LLMLLM은 LM(Language Model)로 기계가 언어를 학습하는 방식인데, 주어진 문장에서 간어의 등장 확률을 계산해 가장 자연스러운 문장을 생성한다. 발전 단계는 아래와 같다.통계적 언어 모델(SLM, Statistical Language Model)단어 빈도 기반, n-gram (짧은 문맥만 반영)신경 언어 모델(NLM, Neural Language Model)단어를 벡터로 표현, 신경망 기반으로 더 긴 문맥 이해 가능사전 학습된 언어 모델(PLM, Pre-trained Language Model)대규모 데이터로 일반 언어 지식 학습 → 이후 특정 과제에 Fine-Tuning대형 언어 모델(LLM, Large Language Model)PLM에서 모델 규모와 데..
사용자와 아이템의 상호작용 데이터를 사용하는 협업 필터링에 대해 알아보자.행렬 연산과 추천 시스템 평가 지표에 대해서 알아보자💻️ 실습 코드실습 코드1️⃣ 협업 필터링협업 필터링이란 비슷한 취향(상호작용 기록)을 가진 사람은 비슷한 것을 좋아할 가능성이 높다는 가정에 기반한 추천방식이다.아이템의 콘텐츠를 보지 않고, 사용자-아이템 상호작용 데이터만으로 추천하는 방식으로 상호작용 데이터가 많을수록 추천의 정확도가 향상될 수 있다. 협업 필터링과 콘첸트 기반 필터링의 차이점은 아래와 같다. 협업 필터링콘텐츠 기반 필터링추천 방식유사한 사용자 또는 아이템 기반 추천사용자가 선호하는 아이템의 특징에 기반한 추천주요 데이터사용자-아이템 간의 상호작용 데이터(평점, 클릭, 구매 이력 등)아이템 메타데이터(장르,..
📊 온라인 강의 플랫폼 데이터 분석 및 인사이트 도출이번 프로젝트에서는 온라인 강의 플랫폼 학습 데이터를 바탕으로 수강생들의 이탈률, 학습 활동, 학력별 성과 차이를 분석하였습니다.분석 결과를 토대로 회원 유지율과 고객 충성도를 높이기 위한 전략을 제안하고, 이를 시각화할 수 있는 대시보드 설계안도 마련했습니다.1️⃣ 주요 분석 결과1) 영어권 vs 비영어권 이탈률간 차이가 클 것이다.영어권과 비영어권 수강생 간 전체적인 이탈률 차이는 크지 않음.다만, Viewed 단계 → Explored 단계 전환 시점에서 이탈률이 급격히 증가하는 패턴이 발견됨.👉 따라서 초기 몰입도 강화 전략이 필요함을 확인. 2) 수강 중 활동이 활발할수록 성적과 수료율이 높을 것이다.활동 지표(nevents, ndays_a..
📊 온라인 강의 플랫폼 데이터 전처리 과정이번 포스트에서는 온라인 강의 플랫폼 데이터를 불러와, 분석이 가능한 형태로 전처리 및 파생변수 생성까지 진행한 과정을 정리했습니다.데이터 출처: Kaggle – Online Course Student Engagement Metrics1️⃣ 데이터 로드 및 기본 확인import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsplt.rcParams['font.family'] ='Malgun Gothic'plt.rcParams['axes.unicode_minus'] =Falsepd.set_option('display.max_columns', None)df = pd.r..
🔥 과제지금까지 콘텐츠 기반 필터링 프로세스에 대해 코드를 배웠습니다.아래 스켈레톤 코드를 바탕으로 user_id를 입력 받았을 때 추천 웹툰을 반환하는 함수를 만들어봅시다. 조건TF-IDF로 'keyword' 컬럼 기준 웹툰을 벡터화한다.사용자가 읽은 웹툰들의 평균 벡터를 계산해서 사용자 벡터를 만든다.사용자 벡터와 전체 웹툰 벡터 간의 유사도를 계산한다.아직 읽지 않은 웹툰 중에서 상위 5개를 추천한다.1. TF-IDF로 keyword 컬럼 벡터화를 진행할 것이기에 필요한 라이브러리를 import하고, 사용할 데이터를 불러온다.from sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.metrics.pairwise import c..
추천 시스템 개요와 장바구니 분석, 콘텐츠 기반 추천에 대해 알아보자.💻️ 실습 코드실습 코드1️⃣ 추천 시스템추천 시스템이란 수많은 선택지 중에 어떤 것을 선택하면 좋을지 의사결정을 도와주는 기술로 넷플릿스, 쿠팡 등 다양한 기업에서 관심을 가지고 있는 분야다. 추천 시스템의 3요소는1. 입력(데이터 입력): 추천 알고리즘이 무엇을 바탕으로 추천할지 판단 가능하게 데이터를 입력하는 단계명시적 데이터 vs 암시적 데이터명시적 데이터: 사용자가 직접 선호도를 표현한 데이터 (ex. 평점, 좋아요, 리뷰 등)암시적 데이터: 사용자의 행동을 통해 선호도를 유추할 수 있는 데이터 (ex. 조회기록, 시청/청취 시간 등)콜드스타트 문제: 추천 시스템에서 데이터가 부족해 정확한 추천을 하기 어려운 상황사..