본문 바로가기
IT KNOWLEDGE

LLM

by BTC_박현영 2023. 6. 9.

베하~ 안녕하세요! BTC_현상수배범 입니다.

오늘은 LLM(Large Language Model)에 대해서 알아보도록 하겠습니다.

 

LLM이란?

LLM의 사전적 의미를 살펴보면, 다음과 같이 설명합니다.

 

"대형 언어 모델(Large language model, LLM) 또는 거대 언어 모델은 수많은 파라미터(보통 수십억 웨이트 이상)를 보유한 인공 신경망으로 구성되는 언어 모델이다." - 위키백과

 

설명만 봐서는 어떤 내용인지 잘 이해하기가 어렵습니다. 하지만, 여러분들도 잘 알고 계시는 아주 유명한 예시가 하나 있습니다. 가장 잘 알려진 LLM 중 하나는, OpenAI에서 개발한 GPT-3입니다. GPT-3는 약 1,750억 개의 매개변수*가 존재하는 가장 크고 강력한 LLM 중의 하나이며, 번역과 요약, 쓰기를 포함한 광범위한 자연어 처리를 할 수 있습니다.

*매개변수: 모델을 구성하는 가중치(weight), 편향(bias) 등의 파라미터를 의미함

 

ChatGPT와 같은 고성능의 모델들은, 인간 언어의 뉘앙스를 학습할 수 있도록 일반적으로 최소 수십억 단어에 달하는 방대한 텍스트 코퍼스에서 LLM을 교육합니다. 2021년 6월 기준, GPT-3 모델의 매개변수는 약 1,750억 개로 이전 모델인 GPT-2에 비해 약 100배 이상의 크기를 가지고 있습니다. 이처럼 매개변수가 많은 모델은 매우 복잡한 언어 처리 작업을 수행할 수 있습니다. 1,750억 개의 매개변수의 개수는 인간의 뉴런의 수와 비슷하기도 합니다. 인간 뇌의 뉴런 수는 약 1000억 개에서 100조 개 사이로 추정되고 있습니다.

 

LLM에서 주로 사용되는 알고리즘

LLM은 AI 모델이 가능한 인간 언어에 가깝게 처리, 이해 및 출력할 수 있도록 하는 다양한 알고리즘에 의해 구동됩니다. 어텐션 메커니즘 및 변환기, 단어 임베딩을 포함하여 위에서 언급한 LLM에서 사용되는 몇 가지 주요 알고리즘을 좀 더 자세히 간략하게 살펴보겠습니다.

 

1. 단어 임베딩(Word embedding)

자연어 처리 분야에서 단어를 벡터로 표현하는 기법입니다. 이를 통해 컴퓨터가 단어를 이해하고 처리할 수 있게 됩니다. 유사한 의미를 가진 단어일수록, 서로 더 가깝게 위치하는 고차원 공간에서 단어를 벡터에 매핑하여 달성됩니다.

기존에는 단어를 One-hot Encoding 방식(단어의 등장 여부를 나타내는 0과 1로 이루어진 벡터를 만드는 것)으로 벡터화했습니다. 그러나 이 방식은 단어의 의미나 문맥을 고려하지 않기 때문에 한계가 있었고, 이를 해결하기 위해 나타난 기법이 바로 단어 임베딩입니다. 대표적인 학습 방법으로는 CBOW(Continuous Bag-of-Words)와 Skip-gram 등이 있으며, 이러한 방법들은 대표적인 Word Embedding 알고리즘인 Word2Vec에 적용됩니다.

 

2. 어텐션 메커니즘(Attention mechanisms)

Attention mechanisms는 딥 러닝 모델에서 입력 시퀀스의 특정 부분에 더 집중하여 처리하는 메커니즘입니다. 기존의 모델에서는 입력 시퀀스의 모든 부분을 동등하게 취급했지만, attention mechanisms를 통해 모델은 입력의 다른 부분에 서로 다른 가중치를 부여할 수 있습니다. 이는 모델이 중요한 정보에 집중하고 노이즈를 무시할 수 있도록 도와줍니다. 즉, 입력 데이터에서 더 중요한 부분에 큰 가중치를 부여하여 결과적으로 더 정확한 예측을 할 수 있도록 합니다. 대표적인 구현 방법으로는 Bahdanau Attention과 Dot Product Attention 등이 있습니다.

 

3. 트랜스포머(Transformers)

Transformers는 딥러닝 모델 중 하나로, 주로 자연어 처리 분야에서 사용되는 모델입니다. 기존의 RNN, LSTM 등의 모델에서 발생하는 장기 의존성 문제를 해결하고, 대규모 데이터를 다루는 데에 효과적입니다. Transformers는 Attention Mechanism을 기반으로 하며, 입력 시퀀스와 출력 시퀀스 간의 관계를 모델링하는 데에 사용됩니다. 이를 위해 Self-Attention이라는 메커니즘을 사용하여 입력 시퀀스의 모든 단어 간의 관계를 파악합니다. 이후, Encoder와 Decoder라는 두 개의 모듈을 사용하여 입력 시퀀스와 출력 시퀀스 간의 관계를 모델링합니다. 대표적인 Transformer 모델로는 BERT, GPT 등이 있습니다

'IT KNOWLEDGE' 카테고리의 다른 글

메모리 구조  (0) 2023.06.22
Kubeflow 개요 및 특징  (0) 2023.06.19
구글 Bard의 차세대 모델 PaLM2  (0) 2023.06.05
CentOS7에 OpenJDK 설치  (0) 2023.01.10
클라우드 보안에 대한 것들  (0) 2023.01.04

댓글