딥러닝(Deep Learning)은 어떻게 알파고를 성공시켰는가? 봅시다

딥러닝(Deep Learning)은 어떻게 알파고를 성공시켰는가? 봅시다

카테고리 없음 2020. 2. 10. 20:14

>

딥러닝은 기계학습 모형에 큰 변화를 가져왔는데, 딥러닝 이전의 기계학습 모형을 shallow learning 모형이라고 통칭적으로 부르고 있다. Deep와 Shallow라는 단어의 어감 차이로 인해 마치 딥러닝 이전의 모형이 매우 열등한 모형으로 인식되기도 하지만 전혀 그런 뜻이 아니다. 딥러닝의 딥이 뜻하는 바는 은닉층의 수가 여러 개라는 뜻이었다. 도대체 은닉층이 여러 개 있다는 건 무슨 뜻일까. 이를 설명하기 위해 기계학습 모형 발전사를 보자.

>

딥러닝 모형은 인공 신경두뇌망(Artificial Neural Networks) 모형에 뿌리를 두고 있다. 하나 940년대에 개발된 하나세대 인공 뉴런 도우느에망 모형인 MCP모델은 이프료크츄은과 츄루료크츄은만 있는 단순한 모형이었는데 Perceptron이라는 초보적인 학습 알고리즘에서 훈련시키면 선형 구분 가능한 모든 문제를 다 해결할 수 있고(preceptron convergence theorem)디지털 컴퓨터의 등장과 함께 상당한 주목을 받았다.

>

우리가 1상 센 하루에서 만나는 사건이 거의 선형 구분 가능한 사건이니 이 세상 약간의 모든 사건을 풀어 주는 만능 인공 지능 시스템이 탄생했다고 다들 큰 환호했어요. 그러나 이 모형은 XOR라는 매우 단순한 선형분리 불가능한 사건에 발목이 잡혀 한동안 인공지능 발전의 흑역사를 장식하게 됐다.

>

이러한 검정 역사는 MCP모형에 은 닉츄은을 1을 들이받고 XOR문제를 해결함으로써 끝난 듯했지만, 포르투갈 세프토우롱알고리즘에서는 은 닉츄은이 들어 있는 인공 신경 도우느에망을 훈련시킬 수 없는 것으로 이 같은 역사는 첫 980년대 중반에 오류 역 전사(Error Backpropagation)알고리즘이 개발된 뒤에야 종결했다.

>

입력과 출력 간에 함수 관계가 존재하면 인공 신경 도우느에망 모형을 오류에 역전사 알고리즘으로 훈련시키고 이 함수를 찾아볼 수(universal approximator theorem)이 수리적으로 증명되어 인공 뉴런 도우느에망 모형은 하나 990년대 중반까지 인공 지능 연구의 부흥을 이끌었다. 그러나, 에러 역전사의 알고리즘은, 페르셉트론보다 계산이 복잡하고 훈련에 긴 시간이 걸렸기 때문에, 의문이 약간 복잡해져 있어도, 그 때의 컴퓨터 성능으로는 실용성을 다소 리보하기는 어려웠다. 뿐만 아니라 그때는 모형에 은닉층을 사용했는데, 이는 복잡한 궁금증을 해결하는 데 그다지 효율적인 구조가 아니었다. 사실 그때는 한층 더 뉴런이 향후층의 뉴런과 서로 빠짐없이 연결된 네트워크 구조를 주로 사용하고 있었기 때문에 은닉층을 여러 개 두는 것과 하자 자신만 두는 것은 별로 차이가 느껴지지 않았고, universal approximat theorem 자체도 자신 이상의 은닉층을 요구하지 않았다. 그 뿐만 아니라, 한정된 컴퓨터의 성능 때문에도, 몇개의 비닉층을 가지는 네트워크 구조를 연구하는 것은 곤란했다.

>

인공지능을 갖춘 컴퓨터가 사람의 흉내를 내는데 특히 어려운 분야는 시각정보처리능력과 언어력이었다. 간단한 예를 들어보자. 개와 고양이를 컴퓨터로 구별할 수 있도록 기계 학습 알고리즘에서 훈련하려면 100만장의 샘플이 필요하다고 한다. 아기에게 몇 번 정도 가르쳐주면 구별할까? 우리의 체험에서는, 우리는 백만 장보다 훨씬 적은 사진만으로 개와 고양이를 구별할 수 있도록 가르쳤다

>

인공신경두뇌망 모형시대까지는 인간보다 훨씬 뛰어난 연산능력을 갖춘 슈퍼컴퓨터여서 첫 인간의 지능을 따라잡는 데 여러 어려움이 있었지만 딥러닝 모형이 도입되면서 지금은 상황이 달라졌다. 멀리 볼 것도 없이 알파고를 보면 인간 최고의 바둑기사를 가볍게 이기고 말았다. 이제 인간의 능력으로 알파고를 이기는 현실성은 거의 없다고 봐도 무방했다. 자율주행차의 발전 속도를 보면 시각정보처리 능력도 거의 인간 수준에 도달한다. 게다가 최근 チャット봇 성능을 보면 언어구사 수준이 튜링 테스트를 쉽게 통과할 정도로 육박하고 있다.

>

딥러닝 모형의 놀라운 능력은 대체 어디에서 본인인가? 딥러닝모델(DNN)과 인공신경두뇌망(ANN)의 가장 큰 차이는 네트워크 구조에 있다. ANN은 일방적으로 단하 본인의 은닉층만을 가지고 있으며, 1층에 소속된 모든 뉴런이 즉시 다음 층에 있는 모든 뉴런과 연결되어 있으며(이를 Dense networks구조라 한다), 입력신호는 입력층에서 은닉층을 거쳐 출력층으로 직진할 뿐, 도중에 우회하여 본인의 다른 층으로 피드백되지 않는다. 한편 DNN은 은닉층이 최소한 2개 이상에서 한층 더 신경이 정확히 다른 층의 뉴런과 모두 연결되어 있지 않을 가능성도 있고 신호가 정확히 입력층에서 출력층에 직진하는 것이 아니라 도중에서 우회하면서 책인 다른 층에 피드백될 가능성도 있다.

>

비닉층이 복수라는 것은 수학방정식으로 줄거리면 고차원 방정식입니다. 1차 방정식에서는 곡선을 제대로 포효은하지 않지만 고차 방정식은 복잡한 비선형 구조가 잘 포효은할 수 있다. 마찬가지로, 네트워크의 비닉층이 거의 매일 본 인면고차원의 복잡한 데이터를 네트워크를 충분히 묘사할 수 있으므로, 데이터 속에 숨어 있는 패턴을 보다 잘 찾아낼 수 있다. 쉽게 스토리는 서로 오버랩하는 접시를 위에서 보면 2차원 평면에서는 하봉잉만 보이지만 3차원 입체 공간 상에서는 둘로 보이는 것과 같은 논리였다

>

ANN 모형의 Densenetworks 구조는 시간 정보를 제대로 처리할 수 없지만, 왜냐하면 시간 정보 데이터는 다량의 입력 뉴런을 필요로 하므로, 모형의 파라미터(가중치) 갯수가 폭발적으로 증가해, 계산 속도도 문재가 되지만, 그것보다 overfitting이 보다 큰 문재거리가 된다. 이러한 문재를 해결한 것이 바로 인접한 뉴런끼리만 서로 연결되는 컨버전스 구조였다. 현재 인공지능이 시간정보를 잘 처리하게 된 것은 은닉층 수의 증가뿐 아니라 시간정보 처리에 최적화된 네트워크 구조의 발견 탓이 크다.

>

언어를 다루는 능력은 오랫동안 가진 고등지능에 해당한다. 언어는 인공지능이 따라하기 매우 어려운 분야지만 1단 언어를 구사하기 위해서는 우수한 기억능력이 필요하다. 즉, 단어를 순서대로 예상해야 문장이 바르게 만들어질 수 있는데 그러기 위해서는 직전에 어떤 단어를 예기했는지 외워야 다음 단어를 제대로 낼 수 있다. 뿐만 아니라 상대방과의 대화를 본인을 지키기 위해서는 상대방이 어떤 이야기를 했는지 이해해야 하는데 여기에도 기억력이 큰 역할을 한다. ANN에는 이런 기억력을 제공할 수 있는 시스템이 없어 언어정보를 제대로 처리할 수 없었다. 한편, DNN의 일종인 Recurrent Neural Networks(RNN)에서는 은닉층 또는 출력층에서 입력층으로 피드백이 이루어져 네트워크가 단기 기억력을 갖게 되었습니다. 이것보다도 발전한 Long Short-Term Model(LSTM)에서는 기억력의 길이 자체를 조절할 수 있어 네트워크가 장기 기억력도 가질 수 있게 되어 언어 정보의 처리에 비약적인 발전을 가져왔다.

>

인공지능 발전의 초기 단계에서는 새로운 훈련 알고리즘을 개발하는 데 중점을 두었으나 현재는 새로운 네트워크 구조를 만드는 데 중점을 두고 있다. 동하나한 훈련을 알고 리듬 하나라도 어느 네트워크 구조에 적용되느냐에 따라 그 결과가 천자만별이었다. 인간의 두뇌는 주어진 문제에 적합한 네트워크 구조를 자유자재로 선택할 수 있는 높은 유연성을 갖고 있지만 아직 인공지능은 고정된 여러 개의 네트워크 구조만으로 문제를 해결해야 하기 때문에 인간을 능가할 수 없다. 만약 인공지능도 네트워크 구조를 자유자재로 선택할 수 있는 유연성을 갖게 되면 인간이 가진 직관이 자신감을 구사하게 될지도 모른다. 느낌도 하나의 직관이라고 할 수 있지만, 이성이 지배하는 복잡한 계산과정이 아닌 특정의 입력에 대해서는 즉시 출력으로 직진시키는 특별한 네트워크 구조의 형성이 직관의 구현과정이며, 이러한 관점에서 보면 느낌도 직관의 일종이라고 할 수 있다. 웬만한 고승이 오랜 고행 끝에 깨달음을 얻게 되는 과정을 머릿속에서 천둥이 하나가 되어 자기 자신의 것과 잘 그리는데, 곧 이 과정이 특정한 직관을 구현하는 네트워크 구조의 형성을 의미하는 것이었다.

>

기본적으로 DNN은 ANN에 기인하고 있으므로, 훈련 알고리즘도 오류 역전사(error backporpagation) 알고리즘에 기초하고 있다. 히가시 1훈련 알고리즘 1네트워크 구조에 의해서 결과가 다르다. DNN이 이룬 성과는 바로 네트워크 구조의 유연성에 크게 기인합니다.

>

Python에서 배우는 데이터 사이언스 실무를 위한 Deep Learning 본 강의는 데이터 사이언스 입문자 또는 실무자를 위한 집중 연수 과정으로 기획되었습니다. Deep Learning 알고리즘 중 정형 및 비정형 데이터 분석에 주로 활용되는 알고리즘을 엄선하여 그 구조 및 이론을 명료하게 설명한 후 Jupyter Notebook 상에서 관련 예제를 바로 실습함으로써 단기간에 효율적으로 딥러닝을 배울 수 있도록 준비했습니다. 쥬이에키 다만 4일 동안 하루에 5테테로식을 투자하면 Python을 이용한 디플러 닌 모형 코딩 작업을 별 어려움 없이 소화할 수 있습니다. 강의 종료 후 녹화 동영상을 3개월간 제공하고 드릴 거니까 수업 가끔 잘 이해되지 않은 부분이 있으면 반복 시청을 통해서 해결할 수 있습니다.l하나 정:20하나 9.5. 하나하나(토)-6.0하나(토)매주 토요일 하나하나 3:00~하나 8:00l장소:토즈 먹이 다 방에서 서울대 입시 구점(지하철 2호선 서울대 입구 역 4번 출구 도보하지만 부산)l의 강사:한 장호 크와은토우그로ー발의 대표/경제학 박사 l의 신청:www.quantglobal.co.kr수강 신청서 다운로드 l비용:55만원(조기 신청 시 49만원, 4/30까지)l문의:E-mail>crm@quantglobal.co.kr, Tel>02.76개.8090l기타:실습을 위한 노트북 지참 필수 l기타:수료증 발급 l의 사후, 교육:강의 녹화 동영상 3개월 제공. 강의 후 2개 내 업로드하는 것<강의 개요>

<하나 쟈뵤루의 세부 강의 말>5/하나하나(토)

5/하나 8(토)

5/25(토)

6/0하나(토)

댓글

ABOUT ME

오후 오후

티스토리툴바