GPT4o와 GPT4 비교해 보니··· '사람 대 AI의 근본적인 접근 방식 바꿔'

IT동아

2024.05.21 16:50:11

조회 1544 추천 3 댓글 6

[IT동아 남시현 기자] 2024년 인공지능(이하 AI) 기술의 쟁점은 멀티모달(Multi modal)이다. 멀티모달은 다중을 뜻하는 멀티(Multi)와 인체의 감각적 양상을 뜻하는 모달리티(Modality)의 합성어로, 자연어, 청각, 시각 등 여러 종류의 데이터를 동시에 처리해 다각적으로 결과를 도출하는 방식을 뜻한다. AI의 멀티 모달은 그림을 보고 자연어로 설명한다거나, 이미지를 보고 노래를 작곡하는 형태로 동작하며, 향후 AI의 성능과 활용도, 완성도를 결정짓는 핵심 요소가 된다.

그리고 지난 5월 13일(현지시각), 오픈AI는 기존 GPT-4에 더 빨라진 속도와 이해 성능, 최초의 멀티모달까지 복합적으로 적용한 GPT-4o 모델을 공개했다. GPT-4o의 o는 모든 것의, 모든 방식으로 라는 뜻을 가진 영어단어 옴니(Omni)의 약자로, 훨씬 더 자연스럽고 빠르며, 공감각적으로 데이터를 인식한다.

오픈AI가 지난 13일, GPT-4에 멀티모달을 접목한 GPT-4o를 공개했다 / 출처=오픈AI

출시 1주일이 지난 지금, GPT-4o는 GPT-4의 한계로 지목됐던 느린 속도나 이해 능력 등을 해결했다는 평가를 받으며 생성형 AI 업계의 새로운 기준으로 떠오르고 있다. 지난 한 두 달 새 가공할만한 문장 적응력을 가진 앤스로픽 클로드 3, 무료임에도 최고 수준의 성능을 갖춘 메타 라마3, 기억력을 지닌 구글 아스트라까지 다양한 AI가 출시되었음에도, 유독 GPT-4o만이 시장의 중심이 되는 이유는 무엇일까.

기계의 시각과 해답을 다양화한 ‘GPT-4o’

멀티모달을 풀어서 이해해 보자. 우리가 ‘사과’라는 단어를 보고 반짝이는 빨간색 껍질에 노란색 속살이 있는 동그란 과일이라는 걸 떠올릴 수 있는 이유는 사과를 물리적으로 접해보고, 맛보고, 경험했고, 이것이 ‘사과’라는 단어로 언어적 합의가 되어있음을 알기 때문이다. 그런데 경험과 학습 없이는 단어와 사물의 인과관계를 알 수 없다. 당장 ‘캄부카’나 ‘자탁’라는 단어를 듣고 이게 뭔지 설명하라고 하면, 이것을 학습하고 경험하지 않은 사람은 이를 설명할 수 없다.

GPT에게 ‘사과’를 어떻게 이해하는지에 대한 식별 방법을 설명하라고 했다. 우리는 사과를 보고 사과를 떠올리지만, AI는 대량의 데이터와 학습 알고리즘을 통해 패턴을 인식하고 이를 학습한 결과로 사과를 도출한다 / 출처=IT동아

AI 역시 마찬가지다. 인간은 사고를 통해 자연어를 물건으로 인식하는 멀티모달을 수행하지만, AI에게 있어 ‘사과’는 사과로 규정된 데이터를 식별하고 연결하는데 쓰이는 코드일 뿐이다. 여기에 멀티모달을 적용하면 텍스트 정리를 넘어서 시각적 데이터를 통해 형태나 질감, 사과를 먹는 동영상 등을 통한 자료 등의 데이터를 서로 연결하고 상호작용해 설명하게 된다.

즉 GPT-4o가 강조하는 멀티모달은 인식 방법의 변화다. GPT-4o는 자연어와 오디오 및 이미지, 비디오를 모든 조합으로 입력해 인식하고, 다시 조합해 데이터를 산출한다. 즉 어떤 이미지에 대해 물으면 텍스트로 답하고, 소리를 들으면 어떤 소리인지 말로 설명하는 방식으로 데이터에 접근한다. 단순히 설명에 그치지 않고, 각각의 데이터를 세세하게 유기적으로 연결하고 관리해 결과의 품질을 끌어올린다.

오픈AI가 GPT-4o의 예시를 보여주는 여러 영상 중 ‘Andy와 함께한 GPT-4o’가 가장 좋은 예시다. 영상에서 시각장애인인 앤디는 영국 버킹엄 궁전 근처에서 본인이 보고 있는 방향의 사진을 GPT-4o에 넣고 실시간으로 설명을 부탁한다. 그러자 GPT는 “버킹엄 궁전 위에 로열 스탠더드 깃발이 있는데, 이는 군주가 궁전에 있다는 신호입니다”라면서, “왕이 집에 있다는 게 얼마나 신나는 일인가요?”라고 덧붙인다.

다음 장면에서 앤디는 “주황색 불을 켜고 오는 택시가 있는지를 알려달라”라고 하니, GPT가 “방금 한 대를 발견했습니다. 도로 왼쪽에서 당신 방향으로 오고 있는데요, 손을 흔들 준비를 하세요”라면서, “택시를 잘 잡으셨네요, 이제 갈 준비가 되셨어요. 강아지가 안전하게 여행할 수 있도록 잘 이끌 거예요”라고 답한다. 이 영상에서 GPT-4o는 시각 정보를 실시간으로 문자로 변환하는 건 물론, 인간의 여러 동작이나 상호작용까지 추측하고 시각장애인 안내견의 역할까지 설명한다.

또 한 가지 돋보이는 점은 실시간 반응성이다. 음성 모드를 사용했을 때 GPT-3.5의 평균 응답 속도는 2.8초, GPT-4는 5.4초로 시간차가 있었다. 하지만 GPT-4o의 오디오 입력은 232밀리 초 이내며, 실제 사람이 내놓는 것과 비슷한 속도로 내놓는다. 또한 목소리에 담기는 부차적인 정보인 음색이나 추임새, 톤과 배경까지 출력해 호소력을 높였다. 멀티모달을 넘어 감정에서 나오는 말투나 습관 같은 인간 고유의 영역까지 답습하려 한다.

GPT-4o, 얼마나 나아졌을까?

JPG 형식의 파일을 그래프로 변환하라고 주문했다. 매개변수에 큰 차이가 없는지 산출 결과는 거의 다르지 않았다 / 출처=IT동아

GPT-4o와 GPT-4를 활용해 다양한 문제를 해결했다. 우선 2023년 4분기 전 세계 서버시장 수익 및 시장 점유율 자료를 그래프로 전환했다. 해당 파일은 기업 명과 점유율, 퍼센트가 있지만 문서가 아닌 JPG 형태여서 이 자체로 그래프 화할 수 없다. GPT-4와 GPT-4o 둘 다 이미지에서 텍스트를 광학 문자 인식한 뒤 데이터를 산출하고, 이를 토대로 점유율 그래프를 생성했다. 그래프 자체는 점유율 자료와 동일하며, 점유율 순은 아니지만 시인성은 좋다.

GPT-4는 각 회사의 수익과 점유율 곡선만 설명하고, 델 테크놀로지스와 HPE의 점유율 우위를 간단히 설명한 게 전부다. GPT-4o는 델과 HPE, 슈퍼마이크로, 카사 시스템즈 등 다른 주요 기업의 점유율과 수익률도 함께 설명한다. 그래프 생성 자체는 동일하나, 데이터 산출 속도와 분량, 텍스트 품질 면에서는 GPT-4o가 좀 더 상세하고 좋다.

그렇다면 데이터를 만들어내는 성능은 어떨까. ‘일회용으로 동작하면서, 두 번 사용하면 자동으로 꺼지고, 앱을 다시 사용했을 때 이전에 사용했던 계산 기록이 남아있도록 하는 앱을 러스트 코드로 리눅스에서 동작하도록 만들라’는 주문을 GPT-4와 GPT-4o에 각각 지시했다. 내용 자체는 쉽지만 주문이 복잡한데, GPT-4는 관련 코드를 내놓는 데 약 60초의 시간이 걸렸다. 이때 GPT-4o는 두 배가량 길고 복잡한 코드를 생성했으나, 30초 만에 생성을 끝냈다.

앞서 두 테스트에서 GPT-4와 GPT-4o의 속도가 다른 이유는 GPT-4o는 텍스트, 비전인식, 오디오 전반에 걸쳐 모든 입력과 출력이 동일한 신경망에서 처리되기 때문이다. GPT-4는 텍스트와 비전인식, 오디오 등 각각의 채널이 따로 처리된 뒤 병합되는 방식이어서 느렸다. 오픈AI는 GPT-4o가 동일 신경망에서 동작하는 첫 모델인 만큼, 이번에 보여준 기능들은 아직 표면적이며 탐색하는 단계에 불과하다고 말한다.

GPT-4o의 핵심 기능인 음성과 반응 속도를 복합적으로 테스트했다. 테스트에 쓰인 사진은 우리나라의 사계절 은하수를 여섯 단계로 나눈 데이터로, GPT-4o가 이를 처리하기 위해서는 이미지 파일을 광학 문자 인식한 다음, 관련 자료를 정리하고 음성으로 읽어야 한다. 다만 오픈AI가 GPT-4o의 실시간 이미지-음성 출력 기능은 아직 출시하지 않아 이미지 결과를 낸 다음, 문장을 재생하는 방식으로 테스트했다.

테스트에서 GPT-4o는 약 15초 만에 모든 이미지 및 결과에 대한 해답을 냈고, GPT-4로는 동일 분량이 약 30초 정도 걸렸다. 음성 재생은 엠버, 스카이, 코브, 브리즈, 주니퍼 다섯 모델을 고를 수 있으며, 영어와 한국어 모두 쓸 수 있다. 예시에서는 주니퍼로 영문을 읽었는데, 마치 영어 듣기 평가를 하는 듯만큼 정확하게 문장을 읽는다. 게다가 같은 단어도 문장에 따라 음역대를 다르게 하는 등 기계가 아닌 사람이 발음하는 것에 가까운 음색을 낸다.

오픈AI의 GPT-4o 소개 페이지에서 멀티모달이 적용된 다양한 사례들을 확인할 수 있다 / 출처=IT동아

GPT-4o는 몇 주 내로 알파 버전의 새 음성 모드가 출시되며, 반복적으로 새 기능들이 추가된다. API는 이미 제공되어 가격은 절반에, 속도 제한은 다섯 배로 더 높아졌다. 조만간 카메라로 사물을 보여주면, 실시간으로 응답을 받는 것도 가능해진다. 앞서 시각장애인의 활동을 돕는 것부터, 음식을 찍는 것만으로 레시피를 알 수 있고, 강연이나 교육 등을 보여주면 즉석에서 해답과 자료 검색을 제공한다.

또 멀티모달 측면에서 동요를 듣고 동화를 만들고, 엑셀 파일의 내용을 음성 메시지로 만들고, 손짓으로 물건을 가리키면 원하는 외국어로 알려주는 등으로 활용하게 된다. GPT-4가 언어로 소통했다면, GPT-4o부터는 시각, 청각, 그리고 이를 텍스트나 그림으로 그려내는 방식으로 얘기하게 된다.

여전히 빠지지 않는 논쟁, 위험성

GPT-4o의 텍스트 평가 성능 테스트, 학부생 수준의 지식(MMLU)과 대학원 수준의 추론(GPAQ), 수학, 함수 생성 능력(HumanEval) 등 다양한 테스트에서 최고 점수를 얻었다 / 출처=오픈AI

GPT-4o로 멀티모달의 새로운 가능성이 열렸지만, 그만큼 더 AI의 위험성은 가중된다. 지난 2월, 가트너는 2026년에는 얼굴 생체 인식 솔루션을 겨냥한 AI 딥페이크(Deepfake) 공격으로 인해 기업의 30%가 신원 확인 및 인증 솔루션을 더 이상 단독으로 신뢰할 수 없게 될 것이라는 자료를 냈다. 즉 GPT의 멀티모달 기능을 통해 누구나 손쉽게 실시간으로 딥페이크를 만든다던가, 코딩 기능을 통해 피싱 자동화나 무차별 공격 등도 해낼 수 있게 된다.

이를 방지하기 위해 오픈AI는 지난해부터 70여 명의 외부 전문가로 구성된 ‘레드팀’을 구성해 AI의 사전안전 및 위험 교육 등을 실시하고 있으나, 반대로 지난 주 AI 윤리를 다루는 ‘수퍼얼라인먼트’ 팀을 해체하는 등 우려의 목소리가 나오고 있다. 안전과 지침은 마련하나, 수익성을 저해하는 윤리 문제는 고려하지 않겠다는 의미로 해석된다.

구글 역시 지난 2018년, GPT-4o처럼 사실적인 목소리를 내는 AI를 공개했다가 철회한 사례가 있다 / 출처=구글

한편 오픈 AI는 인간 서비스와 AI 서비스와의 경계를 무너뜨릴 예정이다. 2018년 구글 I/O 당시 구글은 구글어시스턴트가 목소리 주인을 대신하는 ‘듀플렉스’ 기능을 선보였다. 이때 듀플렉스가 사람의 추임새 등을 흉내 내고, 목소리가 지나치게 사실적이어서 AI와 사람을 구분하기 어렵다는 비난이 나왔고, 구글은 즉시 서비스를 포기했다. 하지만 GPT-4o로 동일한 접근을 하는 것에 대해서는 별 반응이 없다. 장기적으로는 여러 문제를 낳을 수 있는 만큼 철저한 안전 관리가 필요하다.

이미 전 세계적으로 GPT-4o에 대한 반응이 뜨겁다. 멀티모달을 통해 AI가 인간의 명령을 더 정확하게 이해하고, 다양하게 표현한다. AI는 더 많은 활용도를 부여받고, 우리의 곳곳에서 일상을 바꿔나갈 것이다. 이번에 공개된 GPT-4o가 ‘멀티모달 측면에서 탐색, 표면적인 수준’이라면 앞으로 몇 세대 뒤의 GPT는 확실히 인간의 영역을 대체하고 나설 것이다.

글 / IT동아 남시현 (sh@itdonga.com)

사용자 중심의 IT 저널 - IT동아 (it.donga.com)

▶ 채팅창 넘어 일상으로…'만능 AI 비서' 시대 온다 ▶ 인포플라 “대답만 하던 기존 AI의 한계, VLM 기반 자동화로 극복”▶ 6월 인공지능ㆍ반도체 시장 엔비디아 손에 달렸다

고정닉 0

원본 첨부파일 6본문 이미지 다운로드

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	제목	글쓴이	작성일	조회	추천
설문	손해 보기 싫어서 피해 입으면 반드시 되갚아 줄 것 같은 스타는?	운영자	24/11/18	-	-
3856	두루·무의 “모두의1층이니셔티브로 장애 인식·접근성 개선”	IT동아	05.29	127	0
3855	[자동차와 法] 음주운전 시 위드마크 공식 적용의 문제점에 대하여	IT동아	05.28	928	0
3854	[신차공개] 기아 'EV3'·벤틀리 '더 뉴 컨티넨탈 GT' 론칭 예고	IT동아	05.28	162	0
3853	[뉴스줌인] 내연기관차 이어 전기차 찍은 LG전자 웹OS, 다음 목표는?	IT동아	05.28	230	0
3852	글로벌 가상자산 정책 동향 ‘제도 틀 안에서 규제 공백 보완’	IT동아	05.28	140	0
3851	샥즈, 오픈스윔 프로·오픈핏 에어 출시···오픈형 이어폰 1위 입지 굳힌다	IT동아	05.28	291	0
3850	서울과기대의 제조창업 지원, '밀도있는 심화 과정'으로 민다	IT동아	05.28	155	0
3849	아직도 안 찾고 쌓이는 숨은 보험금, 이 기회에 찾아볼까? [1]	IT동아	05.27	1099	0
3848	자동차 에어컨 필터 고를 땐 이렇게! [이럴땐 이렇게!]	IT동아	05.27	1013	0
3847	차트분석 도구 ‘트레이딩뷰’ 파고들기 - 12	IT동아	05.26	212	0
3846	[자동차 디자人] 英 오프로더 SUV ‘그레나디어’ 디자이너 ‘토비 이큐어’	IT동아	05.24	253	0
3845	가상자산 시장 ‘거래량·수익 상승, 원화·코인 마켓 격차 뚜렷’	IT동아	05.24	231	0
3844	[농업이 IT(잇)다] 전통주로 과거ㆍ현재ㆍ미래를 잇는 나루 되겠다, 한강주조 고성용 대표	IT동아	05.24	237	1
3843	[IT하는법] 잘 사용하지 않는 MS 원드라이브, 사용 해제하는 방법 [4]	IT동아	05.24	4821	1
3842	‘천비디아’ 달성한 엔비디아, 독주할까? 반도체주와 함께할까?	IT동아	05.24	221	0
3841	SEC, 이더리움 현물 ETF 승인 “증권거래법 요건 충족”	IT동아	05.24	243	0
3840	벤처 투자 80%가 수도권 편중··· '투자 해결사'로 나선 부산창경	IT동아	05.24	234	0
3839	국내 통신3사 모두 "이제 우리는 AI 기업" [16]	IT동아	05.23	2329	1
3838	[IT애정남] 갤럭시 '생성형 편집', 어떻게 해야 잘 될까요?	IT동아	05.23	427	0
3837	즉석 카메라로 이런 ‘손맛’이? ‘인스탁스 미니 99’ 출시	IT동아	05.23	301	0
3836	스타트업 해외 진출 시 알아야 할 정보 공유 ‘라이징 스타트업 콘서트4’	IT동아	05.23	327	0
3835	[IT애정남] 해외 구매폰에 국내 유심 쓰는데 음성 통화 안되면? [1]	IT동아	05.23	1182	3
3834	퀄컴, 코파일럿+ PC 등장에 'AI 허브 및 개발 도구'로 지원 사격	IT동아	05.23	246	0
3833	네카오, 글로벌 공략 갈 길 바쁜데…일단 멈춤	IT동아	05.23	198	0
3832	2025년 상반기 탄생할 주식 대체거래소(ATS), 이렇게 달라진다	IT동아	05.23	345	0
3831	AMD, 에픽·MI300X 투트랙으로 AI 산업 주도권 확보 나서	IT동아	05.22	206	0
3830	'직장인 3명 중 1명, 데이터 도출 어려워'··· AI 기반 자동화가 해답될까?	IT동아	05.22	273	0
3829	산행 보조부터 산불 진화까지...'입는 로봇' 활용처 확대 [1]	IT동아	05.22	5193	1
3828	대거 출시 예고한 Arm CPU 기반 윈도우 PC, 뭐가 다를까?	IT동아	05.22	302	0
3827	비트코인 피자데이, 업비트·빗썸 “피자 2024판 쏜다” [17]	IT동아	05.22	7306	4
3826	[생성 AI 길라잡이] 음성과 이미지만 있으면 영상을 만든다 ‘런웨이ML’	IT동아	05.21	2264	0
3825	가속 페달 밟은 검색광고 시장 경쟁, 보라웨어 ‘AI 검색광고 관리 솔루션에 주목해야 되는 이유	IT동아	05.21	214	0
3824	부르면 달려오는 '이동형 전기차 충전기' 시장 기지개 [14]	IT동아	05.21	2143	0
3823	MS, '코파일럿 플러스 PC' 발표…AI 시대의 새로운 PC 제시	IT동아	05.21	265	0
3822	업비트·빗썸, 1분기 실적 개선···투자자 보호·서비스 개선에 주력한다	IT동아	05.21	191	0
	GPT4o와 GPT4 비교해 보니··· '사람 대 AI의 근본적인 접근 방식 바꿔' [6]	IT동아	05.21	1544	3
3820	삼성전자, '비스포크 AI 콤보' 에센셜 화이트 색상 출시…색상 라인업 강화	IT동아	05.20	250	0
3819	채팅창 넘어 일상으로…'만능 AI 비서' 시대 온다	IT동아	05.20	623	0
3818	오늘부터 시끄러운 불법 튜닝 오토바이 집중 단속 [6]	IT동아	05.20	788	6
3817	AWS 서밋 행사장에서 펼쳐진 훈훈한 ‘프리킥’	IT동아	05.20	222	0
3816	[주간투자동향] 라피치, 60억 원 규모 투자 유치	IT동아	05.20	193	0
3815	키보드의 윈도 키, 최대한 활용하려면 이렇게![이럴땐 이렇게!] [5]	IT동아	05.20	1674	16
3814	인포플라 “대답만 하던 기존 AI의 한계, VLM 기반 자동화로 극복” [4]	IT동아	05.18	7240	3
3813	6월 인공지능ㆍ반도체 시장 엔비디아 손에 달렸다	IT동아	05.17	281	0
3812	[시승기] 시대를 초월한 디자인 DNA…’포르쉐 911 카레라 쿠페’	IT동아	05.17	356	0
3811	[IT신상공개] 입맛대로 고르는 저음, 소니 얼트 파워 사운드	IT동아	05.17	544	1
3810	"코바코의 대국민 AI 광고 제작 서비스, 네이버가 함께합니다"	IT동아	05.17	267	0
3809	[생성 AI 길라잡이] 더 사람 같아진 AI, 'GPT-4o'는 어떻게 다를까? [2]	IT동아	05.17	1431	1
3808	차트분석 도구 ‘트레이딩뷰’ 파고들기 - 11	IT동아	05.16	403	0
3807	[뉴스줌인] PC 2대 연결해 하나처럼? 인텔 ‘썬더볼트 쉐어’ 기술 이모저모 [5]	IT동아	05.16	2364	0
뉴스	[포토] 질문에 답하는 김윤석	디시트렌드	18:00