1950년대, 진공관(진공 튜브로 구성된 전자부품)에서 트랜지스터(반도체로 만들어진 전자부품)로의 전환은 컴퓨터와 전자기기 역사의 대사건이었다.
방 하나를 가득 채우던 컴퓨터가 손바닥 위로 들어오면서, 인류는 정보화 혁명이라는 새로운 시대를 맞이했다. 그리고 2017년, AI 세계에도 그에 버금가는 '트랜지스터 혁명'이 찾아왔다. 바로 구글 연구팀이 발표한 '트랜스포머(Transformer)'의 탄생이다.
트랜스포머는 AI의 진공관 시대를 끝내고, 완전히 새로운 패러다임을 열었다. 요즘 누구나 한번쯤은 ChatGPT를 써본 경험이 있을 것이다. 하지만 GPT의 마지막 글자인 'T'가 바로 '트랜스포머'라는 사실을 아는 사람은 많지 않다. GPT는 'Generative Pre-trained Transformer'의 약자다. 즉, 트랜스포머 없이는 GPT도, ChatGPT도, 우리가 누리는 AI 혁명도 존재할 수 없다는 뜻이다.
트랜스포머는 원래 기계 번역의 정확도를 높이기 위해 개발됐다. 이전의 번역 시스템들은 한 단어씩 순서대로 처리해 긴 문장이나 복잡한 문맥을 잘 이해하지 못했다. 구글 연구팀은 "문장 안의 단어들은 서로에 대해 갖는 연관성이 저마다 다르다"는 점을 바탕으로, 연관성이 높은 단어에 더 집중(attention, 어텐션)해서 단어의 의미를 파악하는 메커니즘을 개발했고, 2017년 'Attention Is All You Need'라는 논문을 통해 트랜스포머를 세상에 내놓았다. 트랜스포머는 모든 단어의 관계를 한 번에 계산하고, 어텐션 메커니즘으로 중요한 정보를 뽑아내 번역 품질을 비약적으로 높였다.
트랜스포머가 세상에 나오기까지는 흥미로운 에피소드도 있다. 논문의 제목 'Attention Is All You Need'는 영국 비틀즈의 명곡 'All You Need Is Love'에서 영감을 받아 단 5초 만에 정해졌다고 한다. 원래 이 모델의 이름은 '어텐션 넷(Attention Net)'이 될 뻔했지만, 팀의 수석 엔지니어 야코프 우스츠코라이트가 "우리가 만드는 모델은 데이터를 변환(transform)하는 모델이니, 트랜스포머가 어울린다"고 제안해 지금의 이름이 탄생했다. 논문 마감 직전, 연구팀은 8개의 GPU로 3.5일 만에 실험을 마치고, 밤낮없이 결과를 정리해 제출했다. 창의적인 네이밍과 밤샘 작업, 그리고 음악적 영감이 어우러져 트랜스포머는 세상에 나오게 된 것이다.
트랜스포머의 핵심은 '인코더'와 '디코더'라는 두 부분이다. 인코더는 입력 문장을 분석하고, 디코더는 분석 결과를 바탕으로 번역된 문장을 생성한다. 이를 쉽게 설명하기 위해, 외국 친구가 영어로 쓴 편지를 한글로 번역하는 상황을 떠올려보자.
인코더는 이 편지를 꼼꼼히 읽는 '분석가'다. 예를 들어, "I put the book on the table because it was heavy."라는 문장에서 'it'이 무엇을 가리키는지 헷갈릴 수 있다. 분석가는 문장 전체를 살피면서 'it'이 'book'임을 파악한다. 이때 모든 단어를 똑같이 보는 게 아니라, 어떤 단어가 더 중요한지 스포트라이트를 비추듯 집중(어텐션)한다. "I eat an apple in the morning"에서 동사 'eat'을 해석할 때는 'I'(누가?)와 'apple'(무엇을?)에 더 집중해 의미를 파악한다. 디코더는 분석가의 결과를 참고해 한글로 문장을 한 단어씩 써 내려가는 '작가'다. 예를 들어, 분석가가 "I love you"의 의미를 정리해주면, 작가는 "나는", "너를", "사랑해" 순서로 자연스럽게 한글 문장을 완성한다.
트랜스포머는 문장 속 각 단어가 다른 단어에 얼마나 주목(어텐션)해야 하는지를 학습한다. 한 문장 안의 여러 단어는 서로를 바라보며 "내가 지금 이 단어를 이해하려면, 어떤 단어를 더 신경 써야 할까?"를 고민한다. 트랜스포머는 문장 내 모든 단어 쌍을 비교해서 서로 얼마나 중요한 관련이 있는지 점수를 매긴다. 이 점수(어텐션 가중치)는 각 단어가 문장 전체에서 어떤 단어를 더 참조해야 할지 결정하는데 쓰인다. 트랜스포머는 수많은 예시 문장을 보며, "어떤 단어가 다른 단어와 자주 연결되는지", "어떤 상황에서 어떤 단어에 더 주목해야 문맥을 잘 이해할 수 있는지"를 반복적으로 학습한다.
결국 트랜스포머는 각 단어가 문장 속에서 어디에 더 집중해야 자연스러운 의미가 되는지 스스로 익히게 된다. 이 덕분에 문장 내 단어들 사이의 복잡한 관계와 맥락을 사람처럼 똑똑하게 파악할 수 있게 된다.
트랜스포머가 등장하기 전 AI 번역기(순환신경망 RNN, 또는 장단기 기억 LSTM을 이용한 번역기)는 마치 편지를 한 단어씩 차례로 읽으며 처리하는 방식이었다. 긴 문장이나 복잡한 맥락에서는 자주 헷갈리고 속도도 느렸다. 트랜스포머는 여기서 한 단계 더 나아가, 편지 전체를 한눈에 펼쳐보고 중요한 부분을 동시에 파악하는 분석가처럼 작동한다. 어텐션 메커니즘을 사용해 문장 속 중요한 단어와 멀리 떨어진 단어까지도 잘 연결해 의미를 파악한다. 또한 트랜스포머는 병열 연산이 가능해 엄청난 양의 데이터를 빠르게 처리할 수 있으며, 언어뿐 아니라 이미지, 음성 등 다양한 데이터에도 적용할 수 있다.
OpenAI 연구진은 트랜스포머의 강력한 구조가 단순히 번역에만 머물지 않는다는 믿음을 갖고 GPT 프로젝트를 수행했다. 트랜스포머의 잠재력은 확장되었으며, 대량의 언어 데이터를 빠르게 학습하고 문맥과 의미를 깊이 이해하는 능력이 확인되었다. 그 결과, 트랜스포머는 대형 언어 모델(GPT, BERT 등)의 기초로 자리 잡았고, 이제는 검색, 요약, 질의응답, 심지어 이미지, 음성, 비디오 등 다양한 데이터까지 처리하는 범용 AI의 표준이 되었다. 오늘날 ChatGPT, Gemini, LLaMA 등 거대 언어 모델(Large Language Model, LLM)들이 모두 트랜스포머 구조를 기반으로 한다.
거대 언어 모델이 트랜스포머의 디코더를 이용하여 문장을 생성하는 과정은 마치 AI 작가가 한 문장씩 글을 써 내려간 것과 비슷하다. 처음에 디코더는 "시작" 신호(예: <sos>) 만 입력 받는다. 그러면 모델은 지금까지의 맥락을 바탕으로 가장 자연스러운 첫 단어를 예측해서 내놓는다. 생성된 첫 단어는 다시 입력에 추가된다. 이제 디코더는 "시작" 신호와 첫 단어를 함께 참고해, 다음에 올 단어로 무엇이 가장 어울릴지 생각한다. 이 과정을 반복하면서, 디코더는 매 순간 지금까지 쓴 모든 단어를 참고해 다음에 올 단어를 하나씩 이어 붙인다. 이때 중요한 것은, 디코더가 단순히 앞에 나온 단어만 보는 것이 아니라, 어텐션이라는 기술을 활용해 지금까지의 모든 단어 중 어떤 부분이 다음 단어를 결정하는 데 더 중요한지 스포트라이트를 비추듯 집중한다는 점이다.
진공관에서 트랜지스터로 바뀌듯, AI 혁명의 엔진은 이미 트랜스포머로 바뀌었다. 트랜스포머는 병렬 연산, 어텐션 등 혁신적인 설계를 통해 AI가 '인간의 언어'를 넘어 '지식'과 '창의성'까지 품을 수 있게 만든 결정적 기술이다. 특히 트랜스포머는 단순히 데이터를 처리하는 데 그치지 않고, 복잡한 문맥을 이해하고, 스스로 중요한 정보를 골라내는 능력을 갖췄다. 최근 AI 연구자들은 트랜스포머의 구조를 더 깊고 넓게 확장하거나, 효율성을 높이기 위한 다양한 최적화와 변형, 그리고 새로운 아키텍처와의 결합 등을 시도하고 있다. 또한, 장기 문맥 이해, 멀티모달 처리, 추론과 계획 등을 수행하는 새로운 방법들도 모색되고 있다. AI가 인간처럼 사고하고, 추론하며, 스스로 학습하는, 더 넓은 수준의 자율성과 기능을 갖는 '인공일반지능(Artificial General Intelligence, AGI)'으로 진화하는 방법들을 연구하고 있다. AGI가 현실화되면, 의료, 과학, 교육, 산업 등 전 분야에서 혁신이 일어나며, 인간의 삶은 근본적으로 바뀔 것이다. 트랜스포머가 그 길목에서 징검다리 역할을 하며 AGI 가능성을 확인하고 있다.
비틀즈의 노래, 밤샘의 열정, 그리고 문장 분석가와 작가의 협업이 만들어낸 트랜스포머, 우리는 그 힘을 일상에서 만나고 있으며, 그 힘이 AGI의 미래를 앞당기고 있다.
<약력>
최형일 숭실대학교 명예교수
(전) 숭실대 IT대학 학장
(전) 숭실대 정보과학 대학원 원장
(전) 컴퓨터사용자협회 고문
0
0
기사 공유
댓글
댓글 쓰기