[IT동아 남시현 기자] 2024년 인공지능(이하 AI) 기술의 쟁점은 멀티모달(Multi modal)이다. 멀티모달은 다중을 뜻하는 멀티(Multi)와 인체의 감각적 양상을 뜻하는 모달리티(Modality)의 합성어로, 자연어, 청각, 시각 등 여러 종류의 데이터를 동시에 처리해 다각적으로 결과를 도출하는 방식을 뜻한다. AI의 멀티 모달은 그림을 보고 자연어로 설명한다거나, 이미지를 보고 노래를 작곡하는 형태로 동작하며, 향후 AI의 성능과 활용도, 완성도를 결정짓는 핵심 요소가 된다.
그리고 지난 5월 13일(현지시각), 오픈AI는 기존 GPT-4에 더 빨라진 속도와 이해 성능, 최초의 멀티모달까지 복합적으로 적용한 GPT-4o 모델을 공개했다. GPT-4o의 o는 모든 것의, 모든 방식으로 라는 뜻을 가진 영어단어 옴니(Omni)의 약자로, 훨씬 더 자연스럽고 빠르며, 공감각적으로 데이터를 인식한다.
오픈AI가 지난 13일, GPT-4에 멀티모달을 접목한 GPT-4o를 공개했다 / 출처=오픈AI
출시 1주일이 지난 지금, GPT-4o는 GPT-4의 한계로 지목됐던 느린 속도나 이해 능력 등을 해결했다는 평가를 받으며 생성형 AI 업계의 새로운 기준으로 떠오르고 있다. 지난 한 두 달 새 가공할만한 문장 적응력을 가진 앤스로픽 클로드 3, 무료임에도 최고 수준의 성능을 갖춘 메타 라마3, 기억력을 지닌 구글 아스트라까지 다양한 AI가 출시되었음에도, 유독 GPT-4o만이 시장의 중심이 되는 이유는 무엇일까.
기계의 시각과 해답을 다양화한 ‘GPT-4o’
멀티모달을 풀어서 이해해 보자. 우리가 ‘사과’라는 단어를 보고 반짝이는 빨간색 껍질에 노란색 속살이 있는 동그란 과일이라는 걸 떠올릴 수 있는 이유는 사과를 물리적으로 접해보고, 맛보고, 경험했고, 이것이 ‘사과’라는 단어로 언어적 합의가 되어있음을 알기 때문이다. 그런데 경험과 학습 없이는 단어와 사물의 인과관계를 알 수 없다. 당장 ‘캄부카’나 ‘자탁’라는 단어를 듣고 이게 뭔지 설명하라고 하면, 이것을 학습하고 경험하지 않은 사람은 이를 설명할 수 없다.
GPT에게 ‘사과’를 어떻게 이해하는지에 대한 식별 방법을 설명하라고 했다. 우리는 사과를 보고 사과를 떠올리지만, AI는 대량의 데이터와 학습 알고리즘을 통해 패턴을 인식하고 이를 학습한 결과로 사과를 도출한다 / 출처=IT동아
AI 역시 마찬가지다. 인간은 사고를 통해 자연어를 물건으로 인식하는 멀티모달을 수행하지만, AI에게 있어 ‘사과’는 사과로 규정된 데이터를 식별하고 연결하는데 쓰이는 코드일 뿐이다. 여기에 멀티모달을 적용하면 텍스트 정리를 넘어서 시각적 데이터를 통해 형태나 질감, 사과를 먹는 동영상 등을 통한 자료 등의 데이터를 서로 연결하고 상호작용해 설명하게 된다.
즉 GPT-4o가 강조하는 멀티모달은 인식 방법의 변화다. GPT-4o는 자연어와 오디오 및 이미지, 비디오를 모든 조합으로 입력해 인식하고, 다시 조합해 데이터를 산출한다. 즉 어떤 이미지에 대해 물으면 텍스트로 답하고, 소리를 들으면 어떤 소리인지 말로 설명하는 방식으로 데이터에 접근한다. 단순히 설명에 그치지 않고, 각각의 데이터를 세세하게 유기적으로 연결하고 관리해 결과의 품질을 끌어올린다.
오픈AI가 GPT-4o의 예시를 보여주는 여러 영상 중 ‘Andy와 함께한 GPT-4o’가 가장 좋은 예시다. 영상에서 시각장애인인 앤디는 영국 버킹엄 궁전 근처에서 본인이 보고 있는 방향의 사진을 GPT-4o에 넣고 실시간으로 설명을 부탁한다. 그러자 GPT는 “버킹엄 궁전 위에 로열 스탠더드 깃발이 있는데, 이는 군주가 궁전에 있다는 신호입니다”라면서, “왕이 집에 있다는 게 얼마나 신나는 일인가요?”라고 덧붙인다.
다음 장면에서 앤디는 “주황색 불을 켜고 오는 택시가 있는지를 알려달라”라고 하니, GPT가 “방금 한 대를 발견했습니다. 도로 왼쪽에서 당신 방향으로 오고 있는데요, 손을 흔들 준비를 하세요”라면서, “택시를 잘 잡으셨네요, 이제 갈 준비가 되셨어요. 강아지가 안전하게 여행할 수 있도록 잘 이끌 거예요”라고 답한다. 이 영상에서 GPT-4o는 시각 정보를 실시간으로 문자로 변환하는 건 물론, 인간의 여러 동작이나 상호작용까지 추측하고 시각장애인 안내견의 역할까지 설명한다.
또 한 가지 돋보이는 점은 실시간 반응성이다. 음성 모드를 사용했을 때 GPT-3.5의 평균 응답 속도는 2.8초, GPT-4는 5.4초로 시간차가 있었다. 하지만 GPT-4o의 오디오 입력은 232밀리 초 이내며, 실제 사람이 내놓는 것과 비슷한 속도로 내놓는다. 또한 목소리에 담기는 부차적인 정보인 음색이나 추임새, 톤과 배경까지 출력해 호소력을 높였다. 멀티모달을 넘어 감정에서 나오는 말투나 습관 같은 인간 고유의 영역까지 답습하려 한다.
GPT-4o, 얼마나 나아졌을까?
JPG 형식의 파일을 그래프로 변환하라고 주문했다. 매개변수에 큰 차이가 없는지 산출 결과는 거의 다르지 않았다 / 출처=IT동아
GPT-4o와 GPT-4를 활용해 다양한 문제를 해결했다. 우선 2023년 4분기 전 세계 서버시장 수익 및 시장 점유율 자료를 그래프로 전환했다. 해당 파일은 기업 명과 점유율, 퍼센트가 있지만 문서가 아닌 JPG 형태여서 이 자체로 그래프 화할 수 없다. GPT-4와 GPT-4o 둘 다 이미지에서 텍스트를 광학 문자 인식한 뒤 데이터를 산출하고, 이를 토대로 점유율 그래프를 생성했다. 그래프 자체는 점유율 자료와 동일하며, 점유율 순은 아니지만 시인성은 좋다.
GPT-4는 각 회사의 수익과 점유율 곡선만 설명하고, 델 테크놀로지스와 HPE의 점유율 우위를 간단히 설명한 게 전부다. GPT-4o는 델과 HPE, 슈퍼마이크로, 카사 시스템즈 등 다른 주요 기업의 점유율과 수익률도 함께 설명한다. 그래프 생성 자체는 동일하나, 데이터 산출 속도와 분량, 텍스트 품질 면에서는 GPT-4o가 좀 더 상세하고 좋다.
그렇다면 데이터를 만들어내는 성능은 어떨까. ‘일회용으로 동작하면서, 두 번 사용하면 자동으로 꺼지고, 앱을 다시 사용했을 때 이전에 사용했던 계산 기록이 남아있도록 하는 앱을 러스트 코드로 리눅스에서 동작하도록 만들라’는 주문을 GPT-4와 GPT-4o에 각각 지시했다. 내용 자체는 쉽지만 주문이 복잡한데, GPT-4는 관련 코드를 내놓는 데 약 60초의 시간이 걸렸다. 이때 GPT-4o는 두 배가량 길고 복잡한 코드를 생성했으나, 30초 만에 생성을 끝냈다.
앞서 두 테스트에서 GPT-4와 GPT-4o의 속도가 다른 이유는 GPT-4o는 텍스트, 비전인식, 오디오 전반에 걸쳐 모든 입력과 출력이 동일한 신경망에서 처리되기 때문이다. GPT-4는 텍스트와 비전인식, 오디오 등 각각의 채널이 따로 처리된 뒤 병합되는 방식이어서 느렸다. 오픈AI는 GPT-4o가 동일 신경망에서 동작하는 첫 모델인 만큼, 이번에 보여준 기능들은 아직 표면적이며 탐색하는 단계에 불과하다고 말한다.
GPT-4o의 핵심 기능인 음성과 반응 속도를 복합적으로 테스트했다. 테스트에 쓰인 사진은 우리나라의 사계절 은하수를 여섯 단계로 나눈 데이터로, GPT-4o가 이를 처리하기 위해서는 이미지 파일을 광학 문자 인식한 다음, 관련 자료를 정리하고 음성으로 읽어야 한다. 다만 오픈AI가 GPT-4o의 실시간 이미지-음성 출력 기능은 아직 출시하지 않아 이미지 결과를 낸 다음, 문장을 재생하는 방식으로 테스트했다.
테스트에서 GPT-4o는 약 15초 만에 모든 이미지 및 결과에 대한 해답을 냈고, GPT-4로는 동일 분량이 약 30초 정도 걸렸다. 음성 재생은 엠버, 스카이, 코브, 브리즈, 주니퍼 다섯 모델을 고를 수 있으며, 영어와 한국어 모두 쓸 수 있다. 예시에서는 주니퍼로 영문을 읽었는데, 마치 영어 듣기 평가를 하는 듯만큼 정확하게 문장을 읽는다. 게다가 같은 단어도 문장에 따라 음역대를 다르게 하는 등 기계가 아닌 사람이 발음하는 것에 가까운 음색을 낸다.
오픈AI의 GPT-4o 소개 페이지에서 멀티모달이 적용된 다양한 사례들을 확인할 수 있다 / 출처=IT동아
GPT-4o는 몇 주 내로 알파 버전의 새 음성 모드가 출시되며, 반복적으로 새 기능들이 추가된다. API는 이미 제공되어 가격은 절반에, 속도 제한은 다섯 배로 더 높아졌다. 조만간 카메라로 사물을 보여주면, 실시간으로 응답을 받는 것도 가능해진다. 앞서 시각장애인의 활동을 돕는 것부터, 음식을 찍는 것만으로 레시피를 알 수 있고, 강연이나 교육 등을 보여주면 즉석에서 해답과 자료 검색을 제공한다.
또 멀티모달 측면에서 동요를 듣고 동화를 만들고, 엑셀 파일의 내용을 음성 메시지로 만들고, 손짓으로 물건을 가리키면 원하는 외국어로 알려주는 등으로 활용하게 된다. GPT-4가 언어로 소통했다면, GPT-4o부터는 시각, 청각, 그리고 이를 텍스트나 그림으로 그려내는 방식으로 얘기하게 된다.
여전히 빠지지 않는 논쟁, 위험성
GPT-4o의 텍스트 평가 성능 테스트, 학부생 수준의 지식(MMLU)과 대학원 수준의 추론(GPAQ), 수학, 함수 생성 능력(HumanEval) 등 다양한 테스트에서 최고 점수를 얻었다 / 출처=오픈AI
GPT-4o로 멀티모달의 새로운 가능성이 열렸지만, 그만큼 더 AI의 위험성은 가중된다. 지난 2월, 가트너는 2026년에는 얼굴 생체 인식 솔루션을 겨냥한 AI 딥페이크(Deepfake) 공격으로 인해 기업의 30%가 신원 확인 및 인증 솔루션을 더 이상 단독으로 신뢰할 수 없게 될 것이라는 자료를 냈다. 즉 GPT의 멀티모달 기능을 통해 누구나 손쉽게 실시간으로 딥페이크를 만든다던가, 코딩 기능을 통해 피싱 자동화나 무차별 공격 등도 해낼 수 있게 된다.
이를 방지하기 위해 오픈AI는 지난해부터 70여 명의 외부 전문가로 구성된 ‘레드팀’을 구성해 AI의 사전안전 및 위험 교육 등을 실시하고 있으나, 반대로 지난 주 AI 윤리를 다루는 ‘수퍼얼라인먼트’ 팀을 해체하는 등 우려의 목소리가 나오고 있다. 안전과 지침은 마련하나, 수익성을 저해하는 윤리 문제는 고려하지 않겠다는 의미로 해석된다.
구글 역시 지난 2018년, GPT-4o처럼 사실적인 목소리를 내는 AI를 공개했다가 철회한 사례가 있다 / 출처=구글
한편 오픈 AI는 인간 서비스와 AI 서비스와의 경계를 무너뜨릴 예정이다. 2018년 구글 I/O 당시 구글은 구글어시스턴트가 목소리 주인을 대신하는 ‘듀플렉스’ 기능을 선보였다. 이때 듀플렉스가 사람의 추임새 등을 흉내 내고, 목소리가 지나치게 사실적이어서 AI와 사람을 구분하기 어렵다는 비난이 나왔고, 구글은 즉시 서비스를 포기했다. 하지만 GPT-4o로 동일한 접근을 하는 것에 대해서는 별 반응이 없다. 장기적으로는 여러 문제를 낳을 수 있는 만큼 철저한 안전 관리가 필요하다.
이미 전 세계적으로 GPT-4o에 대한 반응이 뜨겁다. 멀티모달을 통해 AI가 인간의 명령을 더 정확하게 이해하고, 다양하게 표현한다. AI는 더 많은 활용도를 부여받고, 우리의 곳곳에서 일상을 바꿔나갈 것이다. 이번에 공개된 GPT-4o가 ‘멀티모달 측면에서 탐색, 표면적인 수준’이라면 앞으로 몇 세대 뒤의 GPT는 확실히 인간의 영역을 대체하고 나설 것이다.
댓글 영역
획득법
① NFT 발행
작성한 게시물을 NFT로 발행하면 일주일 동안 사용할 수 있습니다. (최초 1회)
② NFT 구매
다른 이용자의 NFT를 구매하면 한 달 동안 사용할 수 있습니다. (구매 시마다 갱신)
사용법
디시콘에서지갑연결시 바로 사용 가능합니다.