디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[뉴스줌인] 카카오브레인의 초거대 이미지생성 AI 'RQ-Transformer'란?

IT동아갤로그로 이동합니다. 2022.04.20 16:20:26
조회 72 추천 0 댓글 0
[IT동아 정연호 기자] IT동아 편집부에는 하루에만 수십 건을 넘는 보도자료가 온다. 대부분 새로운 제품, 혹은 서비스 출시 관련 소식이다. IT동아는 이 중에 독자들에게 도움이 될 만한 것 몇 개를 추려 기사화한다. 다만, 기업에서 보내준 보도자료 원문에는 전문 용어, 혹은 해당 기업에서만 쓰는 독자적인 용어가 다수 포함되기 마련이다. 이런 용어에 익숙하지 않은 독자를 위해 IT동아는 보도자료를 해설하는 기획 기사인 '뉴스줌인'을 준비했다.

출처: 카카오브레인 (2022년 4월 19일)

제목: 카카오브레인, 이미지 생성 모델 ‘RQ-Transformer’ 공개


출처=카카오브레인



요약: 카카오브레인에서 자사의 초거대 멀티모달 AI ‘minDALL-E’를 업그레이드한 버전인 이미지 생성 모델 ‘RQ-Transformer’를 오픈소스 커뮤니티 깃허브(GitHub)에 공개했다. 39억개의 매개변수로 구성된 ‘RQ-Transformer’는 3000만 쌍의 텍스트-이미지를 학습한 text-to-image(텍스트-이미지) AI 모델로, 계산 비용을 줄이고 이미지 생성 속도를 높이면서 이미지 품질을 크게 향상시킨 모델이다. 대규모 데이터 세트를 학습한 ‘RQ-Transformer’는 처음 보는 텍스트의 조합을 이해하고, 이에 대응하는 이미지를 생성한다.

해석: 카카오브레인이 공개한 ‘RQ-Transformer’은 이용자가 텍스트를 입력하면, 텍스트를 분석해 그에 맞는 이미지를 생성하는 멀티모달 인공지능(이하 AI) 이미지 생성 모델이다. 멀티모달(Multimodal)이란 글, 이미지, 음성 등 다양한 데이터를 이해할 수 있는 AI 모델을 말한다. 메시지(텍스트)를 분석해 이미지를 만들려면, 결과물로 어떤 이미지가 나와야 하는지를 AI가 이해해야 한다. 그래서 다양한 형식의 데이터를 인식할 수 있어야 하는 것이다. 현재 단계에선 영어로 된 명령어(메시지)로만 이미지를 생성할 수 있다.


RQ-Transformer를 통해 만든



위 사진은 ‘사막에 있는 에펠타워’를 그려 달라는 메시지를 분석해 만든 이미지다. 프랑스 파리에 있는 에펠탑을 사막을 배경으로 해서 새로운 사진을 만든 것이다. 이미지 생성 모델은 일반적인 사진뿐 아니라 현실의 사실, 법칙과 무관한 사진도 생성할 수 있다. RQ-Transformer는 스페인의 초현실주의 화가인 살바도르 달리의 ‘기억의 지속’이란 작품처럼 녹아내리는 시계가 의자에 걸쳐져 있는 비현실적인 사진도 만들 수 있다.

카카오브레인에서 공개한 RQ-Transformer는 매개변수(파라미터)가 39억개에 달한다. 파라미터란 AI가 학습하는 데이터의 양을 말한다. 이 파라미터가 많아질수록 AI 성능이 좋아진다. 현재 언론에서 보도되는 수천 억 단위의 파라미터를 가진 AI는 보통 언어를 이해하고 생성하는 언어 모델이라고 한다. 카카오브레인의 RQ-Transformer는 국내에선 가장 많은 파라미터를 가진 이미지 생성 모델이다. 이는 세계적인 이미지 생성 모델과 견주어도 높은 수치다.

RQ-Transformer의 특이점은 모두 카카오브레인의 독자적인 기술로 개발된 AI라는 것이다. 이전 버전인 minDALL-E(민달리)는 오픈 소스(누구나 이용할 수 있도록 공개된 프로그램 소스 코드)를 기반으로 개발됐다. RQ-Transformer는 민달리 대비 모델 크기가 3배, 이미지 생성 속도와 학습 데이터 세트 크기는 2배 늘어났다. 기존의 이미지 생성 모델이 2차원 코드맵으로 표현됐다면, RQ-Transformer는 3차원 코드맵으로 이미지를 생성하도록 설계됐다. 사진은 3차원(3D)인 현실을 2차원(2D)으로 표현하기 때문에 입체감이 떨어진다. 카카오브레인의 AI는 사진 속 대상을 쪼개서 실제 현실과 같이 3D로 인식해 학습한다. 덕분에 RQ-Transformer는 이미지를 생성할 때 사진 속 대상들을 입체적으로 구현할 수 있게 된다.

카카오브레인 관계자는 “소상공인들이 언어 모델 AI를 리뷰에 답변이 자동으로 달리게 하거나, 상품 소개 글을 생성하는 데 사용하는 것처럼 이미지 생성 모델 AI도 고도화와 상용화가 된다면 널리 쓰일 수 있을 것”이라고 말했다. RQ-Transformer도 추후엔 소상공인이 메뉴판에 맞는 사진을 만들거나, 그림 실력이 없는 사람이 원하는 바를 그림으로 표현하는 것 등에 활용될 수 있을 것으로 보인다.

글 / IT동아 정연호 (hoho@itdonga.com)

사용자 중심의 IT 저널 - IT동아 (it.donga.com)



▶ AI 산업 트렌드와 발전상 한눈에…제5회 국제인공지능대전▶ 요즘 2030세대는 AI로 투자한다.. 다만, 전문가는 "고수익 좇긴 어렵다" 당부▶ 인공지능의 진화, 설명·목소리만 듣고 사진 한 장 뚝딱



추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 손해 보기 싫어서 피해 입으면 반드시 되갚아 줄 것 같은 스타는? 운영자 24/11/18 - -
1101 금융위, 조각투자 증권성 판단 기준 내놓았다…핵심 내용은? [1] IT동아갤로그로 이동합니다. 22.04.28 127 0
1100 "팬과 가수는 한 배에 탄 동료다".. 팬더스트리 성장은 계속될 것 [4] IT동아갤로그로 이동합니다. 22.04.28 1355 0
1099 나무기술 박열경 부사장 “칵테일 클라우드 온 오픈시프트, 국산+외산 장점 통합한 독보적 PaaS 제품” IT동아갤로그로 이동합니다. 22.04.28 85 0
1098 글로벌 반도체 소재·장비 기업 속속 국내 진출…공급망 안정화·일자리 창출 기대 IT동아갤로그로 이동합니다. 22.04.28 105 0
1097 [모빌리티 인사이트] 대륙을 연결하는 항만에서 만나는 자율주행 시대 IT동아갤로그로 이동합니다. 22.04.28 87 0
1096 [IT운영관리] 7. "IT인프라 관리 개별 기업이 감당 어려워"...AI와 결합한 IT운영관리 필수 IT동아갤로그로 이동합니다. 22.04.28 121 0
1095 생각보다 어려운 공기청정기 선택··· '가성비 대신 브랜드 고려해야' [15] IT동아갤로그로 이동합니다. 22.04.28 1725 0
1094 김양희 HN노바텍 “세계 첫 해조류 대체육, 반려동물·세계 시장으로 전파” IT동아갤로그로 이동합니다. 22.04.28 112 0
1093 5월 청와대 개방 전 사전 접수 시작...신청 방법 살펴보니 [17] IT동아갤로그로 이동합니다. 22.04.27 1125 7
1092 Arm, IoT용 최신 프로세서 코어텍스-M85 및 IoT 토탈 솔루션 로드맵 발표 IT동아갤로그로 이동합니다. 22.04.27 65 0
1091 [스케일업] 트랜쇼 (2) 전문가 제언, “B2B 마케팅은 어떻게 해야 하나요?” IT동아갤로그로 이동합니다. 22.04.27 87 0
1090 소형화로 게이머 노린 TV, OLED와 네오 QLED 중 어떤 걸 고를까? [4] IT동아갤로그로 이동합니다. 22.04.27 1387 1
1089 아토머스 “스타트업의 비즈니스 노트북, ‘보안성과 생산성’ 두 난제를 해결해야” IT동아갤로그로 이동합니다. 22.04.27 75 0
1088 [앱으리띵] 동네 병원, 솔직한 후기가 궁금하다면? 병원 정보 앱 '모두닥' IT동아갤로그로 이동합니다. 22.04.27 67 0
1087 구글 '픽셀워치' 출시 초읽기? 구글은 왜 지금 스마트 워치를 시작할까 IT동아갤로그로 이동합니다. 22.04.27 200 1
1086 일론 머스크의 트위터, 어떻게 변할까 [10] IT동아갤로그로 이동합니다. 22.04.27 2211 6
1085 '불법·유해 콘텐츠 방치하면 과징금 폭탄'…EU 디지털 서비스 법안 주요 내용은? [12] IT동아갤로그로 이동합니다. 22.04.26 1650 1
1084 [뉴스줌인] "실명계좌 발급 없으면 가상자산 거래소 생존 어려워" IT동아갤로그로 이동합니다. 22.04.26 148 1
1083 비싼 배달비·수수료 불만, 대안으로 ‘하이퍼 로컬’ 부상 [17] IT동아갤로그로 이동합니다. 22.04.26 3688 5
1082 [리뷰] 초고속 충전에 1억 800만 화소 카메라까지, 샤오미 레드미노트11 프로 5G [1] IT동아갤로그로 이동합니다. 22.04.26 185 0
1081 [스케일업] 웍스메이트 (2) 건설 업계에 선한 영향력 미칠 '기업 문화' 만들기 IT동아갤로그로 이동합니다. 22.04.26 98 1
1080 EU, 충전기 단일화 나서··· '아이폰도 USB-C 단자 채용할까?' [9] IT동아갤로그로 이동합니다. 22.04.26 1567 8
1079 [인터뷰] 정말 '모두의 골프' 문화를 만들고 있는 엑스골프 조성준 대표 [8] IT동아갤로그로 이동합니다. 22.04.25 2754 0
1078 [뉴스줌인] 인체공학 적용해 손목 부담 덜어주는 '버티컬 마우스' IT동아갤로그로 이동합니다. 22.04.25 137 0
1077 [주간투자동향] 데이원컴퍼니, 350억 원 규모의 시리즈D 투자 유치 IT동아갤로그로 이동합니다. 22.04.25 114 0
1076 [IT애정남] 거품 빠진 그래픽 카드, 지금 구매할까요? 더 기다릴까요? [32] IT동아갤로그로 이동합니다. 22.04.25 2021 2
1075 [홍기훈의 ESG 금융] ESG가 베타에 미치는 영향 Part 7: 아폴로 병원의 내부수익률과 기준 자본비용 산정과정 IT동아갤로그로 이동합니다. 22.04.25 71 0
1074 [NFT산업현장] 1. "NFT는 다양한 산업에서 발전할 것" IT동아갤로그로 이동합니다. 22.04.22 244 0
1073 우주개발의 꿈에 바짝 다가간 토종 스타트업, 컨텍 이성희 대표 IT동아갤로그로 이동합니다. 22.04.22 104 0
1072 묻지마 NFT 잔치 끝났다…'옥석 가리기' 시작 IT동아갤로그로 이동합니다. 22.04.22 122 0
1071 [뉴스줌인] 1080p급 게이밍을 위한 보급형 그래픽카드, 라데온 RX 6400 IT동아갤로그로 이동합니다. 22.04.22 123 0
1070 [리뷰] 최대 18TB의 용량에 USB 허브 기능까지, 씨게이트 원터치 허브 데이터복구 IT동아갤로그로 이동합니다. 22.04.22 379 0
1069 [스타트업人] 흙·농작물에 반한 젊은 농부, 퍼밋 스마트팜 재배 관리자 이야기 IT동아갤로그로 이동합니다. 22.04.22 89 0
1068 [리뷰] 최상의 sRGB 작업 환경을 원한다면, 벤큐 PD3205U 아이케어 [4] IT동아갤로그로 이동합니다. 22.04.22 533 1
1067 [스케일업] 부엔까미노 (1) 재미있는 저축 펀 세이빙, 성장의 열쇠는 ‘네트워크 효과’ IT동아갤로그로 이동합니다. 22.04.22 65 0
1066 "엄마, 아빠보다 더 친한 '알렉사' "... 음성AI와 정서적 교류 맺는 포스트팬데믹 세대 IT동아갤로그로 이동합니다. 22.04.21 174 0
1065 뮤직카우, 급제동 대신 제도권 연착륙 기회 받았다 IT동아갤로그로 이동합니다. 22.04.21 68 0
1064 [스케일업] 드리머리 (2) 전문가 제언, “마케팅 방법에서 브랜딩 방향으로” IT동아갤로그로 이동합니다. 22.04.21 61 0
1063 [혁신스타트업 in 홍릉] 벨베리온 “팬데믹, 살바이러스 방역복으로 대응해야” IT동아갤로그로 이동합니다. 22.04.21 62 0
1062 Z세대 사로잡은 AR, 돈 되는 기술로 떠올랐다 IT동아갤로그로 이동합니다. 22.04.21 86 0
1061 [리뷰] 감성의 영역에 접어든 무선 청소기, 벨레 트윈버드 TB70 IT동아갤로그로 이동합니다. 22.04.21 59 0
1060 [모빌리티 인사이트] 전기차 배터리의 Next level? 무선 충전 vs 교체 IT동아갤로그로 이동합니다. 22.04.21 1079 0
1059 금성오락실에서 만난 42형 LG 올레드 evo…’게이머들 홀릴만하네’ [11] IT동아갤로그로 이동합니다. 22.04.21 1763 2
1058 [WIS 2022] 국내 ICT 최전선을 가다…월드IT쇼 2022 IT동아갤로그로 이동합니다. 22.04.20 755 0
1057 [뉴스줌인] PC 튜닝의 필수요소 된 RGB LED, 그런데 ARGB는 또 뭐야? IT동아갤로그로 이동합니다. 22.04.20 114 0
1056 [스타트업-ing] 브이스페이스 조범동 대표 “UAM을 개발하고 있습니다" IT동아갤로그로 이동합니다. 22.04.20 56 0
[뉴스줌인] 카카오브레인의 초거대 이미지생성 AI 'RQ-Transformer'란? IT동아갤로그로 이동합니다. 22.04.20 72 0
1054 한국기술벤처재단 이영호 사무총장 “창업 지원 20년, 기술창업 기반을 마련하다” IT동아갤로그로 이동합니다. 22.04.20 64 0
1053 AMD, 라이젠 프로 6000 CPU로 기업 시장 공략나서 IT동아갤로그로 이동합니다. 22.04.20 97 0
1052 러시아 침공·부품 수급난 속 스마트폰 시장, 2022 1Q 11% 감소 [4] IT동아갤로그로 이동합니다. 22.04.20 565 2
뉴스 코미디언 겸 유튜버 성용 21일 사망…향년 35세 디시트렌드 14:00
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2