사람처럼 사고하는 멀티모달 AI


인류는 지구상의 생명체들 중 유일하게 문명을 이루고 살아가는 존재예요. 여기에는 여러 가지 비결이 존재하는데요. 대표적으로는 '언어'를 사용한다는 점이에요. 인간은 언어를 사용함으로써 다른 존재와 소통하고 기록을 할 수 있기 때문에 지식을 축척할 수 있었어요. 또, 시각적 정보를 받아들이고 이해하는 뇌의 처리능력이 뛰어나요. 그리고 시각적 정보와 함께 후각, 미각, 통각을 비롯한 여러 감각들을 통해 입력된 정보들과 기억들을 융합해서 사물을 받아들이는 지식 통합 능력을 가지고 있죠.


이렇게 사람처럼 사고하는 AI를 만들기 위해, AI의 학습 방법에 사람의 학습 과정을 적용한 것이 바로 멀티모달이에요. 사람처럼 텍스트, 이미지, 음성, 비디오 등의 다양한 유형의 데이터를 통해 인지하고 학습하는 AI를 '멀티모달 AI'라고 하는 것이죠.


기존의 AI의 경우 텍스트를 이해하는 데 초점을 맞췄어요. 가장 많이 남겨진 인류의 기록은 텍스트였고, 그러한 언어를 분석하고 이해하는 능력이 전제되어야 명제를 만들고 추론을 할 수 있다고 본 거예요. 사람이 어떤 질문을 할 때, 그 질문을 이해해야 답을 할 수 있기 때문이죠. 하지만 AI는 텍스트로만 그 내용을 이해하고 있을 뿐, 실제로는 대상이 어떤 형태로 세상에 존재하는지 이해하지 못하는 문제가 생겨요. 예를 들어, '사과를 먹는 아기'라는 문장에서 사과는 어떤 크기인지, 먹는다는 것은 어떤 모습인지 AI는 이해하지 못해요. 데이터 처리나 통계, 검색을 통해 보여주는 것은 가능하지만 인간과 유사한 방식의 사고를 할 수 없는 것이죠. 


그래서 사람과 같은 방식으로 배우고 인지하는 멀티모달 AI가 등장하고, 비로소 AI는 우리가 사는 세상을 제대로 인지할 수 있게 됐어요. 이젠 모두가 잘 아는 Chat GPT 또한 처음에는 언어 기반으로 시작했지만, 현재는 이미지, 글, 영상까지 이해하는 멀티모달로 확장되었죠.


'반 고흐가 그린 고양이 초상화'라는 프롬프트를 통해 탄생한 이미지(출처: AI Greem)


위 이미지는 AI가 만들어 준 사진인데요. '반 고흐가 그린 고양이 초상화'라는 프롬프트로 만들어 낸 이미지예요. AI는 '반 고흐'의 그림 스타일, '고양이', '초상화'라는 개념을 이해하고 위와 같은 이미지를 만들어 낸 것이죠. 

AI 큐레터 큐트키