선형 회귀- x: 다른 변수의 값을 변하게 하는 변수 - 독립 변수- y: x에 의해 값이 종속적으로 변하는 변수 - 종속 변수 선형 회귀는 한 개 이상의 독립 변수 x와 종속 변수 y의 선형 관계를 모델링한다. 단순 선형 회귀 분석y = wx + b위 수식은 단순 선형 회귀의 수식이다.독립 변수 x와 곱해지는 값 w를 머신 러닝에서는 가중치, 별도로 더해지는 값 b를 편향이라고 한다.각각 직선의 기울기와 절편을 의미한다. 다중 선형 회귀 분석y = w1x1 + w2x2 + w3x3 + ... + wnxn + b부동산 가격, 주가 예측은 한가지 요소에만 영향을 받지 않는다.이런 다수의 요소를 가지고 예측을 하고 싶은 경우 y는 하나이지만 x는 여러 개가 된다. 비용 함수선형 회귀에서 궁극적으로 해애하는 ..
AI
분류와 회귀분류분류의 대표적인 방법은 로지스틱 회귀가 있다.이진 분류이진 분류는 입력에 대해 두 개의 선택지 중 하나의 답을 선택해야 하는 경우다. ex) 성적의 합격, 불합격 / 메일의 스팸 유무 등 다중 클래스 분류다중 클래스 분류는 입력에 대해 세 개 이상의 선택지 중 하나의 답을 선택해야 하는 경우다.ex) 서점의 카테고리가 과학, 영어, IT, 만화 등이 있고, 이 때 새로운 책의 카테고리를 선택하는 경우 회귀회귀의 대표적인 방법은 선형 회귀가 있다. 회귀는 연속적인 값의 범위 내에서 예측값이 나오는 경우다.ex) 부동산 가격 예측, 주가 예측 등 지도 학습과 비지도 학습지도 학습지도 학습은 레이블이라는 정답과 함께 학습을 하는 것이다.자연어 처리는 대부분 지도 학습에 속한다.예측값과 실제값의 ..
코사인 유사도코사인 유사도는 두 벡터 간의 코사인 각도를 이용해 구한다. - 두 벡터의 방향이 완전 동일하면 1- 90도의 각을 이루면 0- 180도의 반대 방향을 가지면 -1 코사인 유사도를 구하는 식은 아래와 같다. 문서 단어 행렬이나 TF-IDF 행렬을 통해 문서의 유사도를 구하는 경우 행렬이 각각의 특징 벡터가 된다. 문서1 : 저는 사과 좋아요문서2 : 저는 바나나 좋아요문서3 : 저는 바나나 좋아요 저는 바나나 좋아요 위 예제로 띄어쓰기 기준 토큰화를 한 문서 단어 행렬은 아래와 같다.이 표를 토대로 코사인 유사도를 구할 수 있다.A와 B의 코사인 유사도를 구하면 (1+1) / (루트3)(루트3) = 2/3이 된다.A와 C의 코사인 유사도를 구하면 (2+2) / (루트3)(루트12) = 2/..
BoW(Bag of Words)단어의 순서는 고려하지 않고 출현 빈도에만 집중하는 텍스트 데이터의 수치화 표현 방법이다. - 정수 인덱싱 (단어 집합 생성)- 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터 생성 from konlpy.tag import Oktokt = Okt()def build_bag_of_words(document): document = document.replace('.', '') tokenized_document = okt.morphs(document) word_to_index = {} bow = [] for word in tokenized_document: if word not in word_to_index.keys(): word_to_inde..
언어 모델언어 모델은 언어라는 현상을 모델링하고자 단어 시퀀스에 확률을 할당하는 모델이다.쉽게 말하면 가장 자연스러운 단어 시퀀스를 찾는 모델이다.단어 시퀀스에 확률을 할당하기 위해서는 이전 단어들이 주어졌을 때 다음 단어를 예측하도록 한다. 주어진 양쪽 단얻르로부터 가운데 비어있는 단어를 예측하는 모델도 있다. - 통계를 이용한 방법- 인공 신경망을 이용한 방법 언어 모델링주어진 단어들로부터 아직 모르는 단어를 예측하는 작업이다. 단어 시퀀스 확률 할당기계 번역 (Machine Translation)P(나는 버스를 탔다) > P(나는 버스를 태운다) 오타 교정 (Spell Correction)선생님이 교실로 부리나케 P(달려갔다) > P(잘려갔다) 음성 인식 (Speech Recognition..
KoNLPy한국어의 자연어 처리를 위해서 사용하는 패키지다.Okt, Mecab, Komoran, Kkma 등 형태소 분석기를 제공한다. KSS한국어의 문장 토큰화를 위한 도구를 제공하는 패키지다. PyKoSpacing띄어쓰기가 되어 있지 않는 문장을 띄어쓰기 한 문장으로 변환하는 패키지다. from pykospacing import Spacingsent = '김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.'spacing = Spacing()kospacing_sent = spacing(sent) print(kospacing_sent)'''김철수는 극중 두 인..