homebody's blog

[Python][ML] Artificial Intelligence(AI) & Machine Learning(ML) 설명 본문

Python

[Python][ML] Artificial Intelligence(AI) & Machine Learning(ML) 설명

homebody 2019. 6. 24. 17:17

AI/ML 설명

  1. 머신러닝 vs 빅데이터

    • 빅데이터

      • 빅데이터는 말그대로 데이터가 많다는 의미
    • 머신러닝

      • 빅데이터들을 어떻게 하면 분석, 이해, 예측을 할 수 있을까에 대한 방법론 중 하나
  2. 머신러닝 vs Data Mining

    • 대부분이 정형 데이터를 쓰고 그 정형 데이터라는 것은 데이터 정보가 테이블로 나타나 있다는 것이다.

    • 머신러닝의 주된 목표은 비정형 데이터를 분석이하는 것에 있다. 대표적인 비정형 데이터는 이미지, 텍스트(뉴스, 블로그등)등이 있다.

  3. 머신러닝 vs AI(Artificial Intelligence)

    • 머신러닝은 AI의 일부분이며, AI는 인공지능이며 사람의 지능을 어떻게하면 컴퓨터도 가지게 하는지가 AI이다. 인공지능을 만드는 방법은 여러가지가 있을 수 있다. 그 중에서 많은 데이터들을 베이스로 하여 지능을 가지게 하는 것이 머신 러닝이라고 한다.
  4. 머신러닝 vs 통계학(Statistics)

    • 머신러닝과 통계학은 매우 밀접한 관계가 있으며, 머신러닝은 통계학을 기반으로 수집한 데이터를 분석하는 것이라고 보면 된다. 머신러닝에서 다루는 데이터는 통계학에서 다루는 데이터 보다 훨씬 더 양이 많고 노이즈도 많고 데이터가 부분적으로 없거나 훼손된 경우가 많다. 이럴 경우에는 머신러닝의 한 기법이 들어가서 실제 통계학의 한계를 극복할 수 있다.
  5. 머신 러닝에서 기본적으로 다루는 문제들

    1. Supervised Learning(지도 학습)

      • Training Data(학습데이터)에는 데이터가 있고 해당 데이터에 대한 라벨이 붙어 있다. 라벨이 붙어 있는 학습데이터를 가지고 컴퓨터가 학습을 한 다음에 테스트 데이터를 입력으로 넣어 주었을 때 분류를 할 수 있게 만드는 것이 Supervised Learning(지도 학습)이라고 한다.

      • 지도 학습에서 분류를 하는 모델들은 선형 모델과 비선형 모델로 나타낼 수 있다.

      • 어떤 데이터에 대해서 예측을 할 때는 Decision Tree(결정 트리)를 이용한다.

    2. Unsupervised Learning(비지도 학습)

      • 지도 학습을 많이 쓰기도 하지만, 지도 학습을 하기 위해서는 정답(라벨)을 가진 데이터를 가지고 있어야 한다. 하지만, 이런 데이터를 가지고 있는 경우는 실제로 많이 없기 때문에 비지도 학습을 하는 것이다.

      • 비지도 학습에서는 컴퓨터가 입력 데이터가 들어오면 해당 데이터를 보고 어떤 그룹에 있는 데이터와 비슷한 지를 구분을 한다.

      • K-means clustering은 어떤 기준이 되는 중간점을 찾고 그 중간점들에서 가장 가까운 것을 찾아서 그룹을 만든다.

      • DB Scan은 임의의 데이터포인트 하나에서 시작을 해서 자신에게 가까이에 있는 데이터들을 찾고 세력을 형성하는 방식으로 간다고 생각하면 된다. 하나의 그룹을 만들고 나서 나머지 세력을 형성하지 못한 데이터들 중 하나를 선택해서 같은 작업을 반복하여 여러 그룹을 만든다.

    3. Representation Learning(딥러닝)

      • Neural Network(신경망)에 대한 기법

      • 2000년대 초반에 들어서 데이터 사이즈가 매우 커짐에 따라 주목을 받기 시작을 하였다. 데이터 사이즈가 커짐에 따라 해당 데이터에서 의미가 있는 데이터를 남기고 필요가 없는 데이터는 사용하지 않기 위해서 사용한다.

      • Facial Recognition - 흑백 사진을 예를 들면 컴퓨터가 처음에는 이미지 픽셀 각각을 보며 정보를 받아 들이고 그 다음에는 픽셀 값들을 연결 시켜 얼굴의 경계선들을 찾아낸다. 이때 픽셀 값의 대조를 통해서 선들을 찾아낸다. 예를 들어서 흰색과 검은색이 나란히 나오면 해당 값들은 경계를 나타내고 이것을 계속해서 연결하면 선이 된다. 이렇게 해서 이목구비와 얼굴선을 찾아내고 조합을 해서 얼굴이 나오게 된다.

    4. Reinforcement Learning(강화 학습)

  6. AI 응용 분야

    1. Visual Intelligence

      • 사용되는 데이터 셋들로 여러 가지가 있지만, 그 중에서 가장 쉬운 것이 MNIST이다.

      • 숫자 필기 인식으로 요즘에는 굉장히 높은 정확도를 가지고 있다.

      • ImageNet은 이미지를 가지고 이미지의 내용을 분류하는 것으로 아직도 정확도를 올리는 작업들을 진행중이다. 현재는 원샷 러닝, 제로샷 러닝과 같은 것들이 어려운 부분이 있으며, 다른 사진을 가지고 유추를 하는 트랜스퍼 러닝도 연구되고 있다.

    2. Language Intelligence

      • 사용되는 데이터 셋 : SQUAD Dataset

      • Q&A : 지문을 보고 질문을 받았을 때 해당 지문에서 내용을 찾는 것, 지문과 전혀 관계가 없는 질문이 들어 왔을 경우 관계가 없는 질문이라고 대답을 할 수 있어야한다.

      • Machine Translation

        • Europarl Corpus

        • UN Parallel Corpus

      • GLUE Benchmark은 최근에 많이 사용되는 데이터 셋으로 2019년에 만들어 졌다. 이 데이터 셋은 기존에 있는 데이터 셋보다 구체적인 작업을 수행하는 것이 가능하다.

Comments