디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

구글·네이버 위협하는 딥엘(DeepL) 번역기, 한국어 버전 품질은?

IT동아갤로그로 이동합니다. 2023.03.09 19:13:21
조회 3158 추천 9 댓글 19
[IT동아 남시현 기자] 인공신경망은 인간의 두뇌에 있는 뉴럴의 신호체계로부터 영감을 얻은 인공지능의 동작 방식으로, 뉴런에 해당하는 노드들이 여러 계층으로 각기 연결되어 최적의 값을 도출해 낸다. 인공신경망은 기계 학습의 한 갈래로 데이터 마이닝과 네트워크 관리, 모델링 및 과학 이론 개발 등 폭넓은 분야에서 응용되는데, 일상 속에서는 자연어 처리 기능이 널리 쓰인다. 오늘날 네트워크 기반의 번역기 대다수가 인공신경망을 활용해 언어를 처리한다.


딥엘은 2017년 시작한 번역 서비스로, 현재 31개 국가 언어로 제공된다. 출처=IT동아



2016년 인공신경망 번역이 적용되기 이전의 번역기는 구문 기반 기계번역(PBMT)을 사용했다. 글의 형태와 단어만으로 내용을 번역하니 품질이 떨어지고, 앞뒤가 맞지 않았다. 반면 인공신경망 번역은 웹에서 수집된 데이터로 단어와 문장의 문맥을 분석한 다음 번역하기 때문에 품질이 훨씬 뛰어나다. 다만 한국어는 우리나라에서만 사용해 데이터가 부족하고, 또 로마자 기반 언어와 체계가 달라서 번역 품질이 좋지 않다. 그래서 지금까지는 데이터베이스 확보가 용이한 구글과 네이버가 국내 기계번역 시장을 양분하는 상황이었다.

딥엘(DeepL), 독자적인 인공신경망으로 한국어 번역 접근


이미 구글과 네이버가 시장을 독식하고 있는 상황이지만, 지난 1월 독일의 인공지능 커뮤니케이션 기업 딥엘(DeepL)이 양강 구도의 시장에 도전장을 내밀었다. 딥엘은 2017년 야로스와프 쿠틸로브스키(Jaroslaw Kutylowski)가 설립한 기업으로, 인공신경망 번역을 기반으로 하면서도 네트워크 아키텍처와 학습 데이터, 학습 방법 등에 차별화를 두어 언어의 미묘한 문맥 차이나 뉘앙스까지 파악한 번역 결과를 내놓는다.


링게는 여러 언어에서 공통적으로 나타나는 언어쌍, 문장쌍 등 쌍형어를 취급하는 온라인 어학 사전이다. 출처=딥엘



딥엘의 핵심은 공통된 어원을 갖는 쌍형어 사전 '링게(Linguee)' 기반의 인공신경망 데이터베이스다. 여러 언어로 작성됐지만 동일한 내용을 담은 문서를 데이터로 삼는다. 여러 언어로 쓰이는 EU 의회 문서나 법률, 영어와 프랑스어가 공용인 캐나다 정부 등의 문서가 대표적이다. 또한 번역 결과를 반복 대조해 오차를 수정하고, 번역에 필요한 데이터인 매개변수를 작은 단위로 쪼개어 학습한다. 덕분에 대형 컴퓨팅 클러스터가 필요한 타사의 인공신경망과 다르게 작은 시스템에서도 번역 품질을 유지한다.

단순 웹 번역 넘어 API로 기능 구현··· 활용도 높아져



딥엘의 번역 메인 페이지. 홈페이지 메인에서 바로 언어를 입력하면 자동으로 번역한다. 출처=딥엘



딥엘 번역기는 홈페이지를 방문해 누구나 무료로 사용할 수 있다. 흥미로운 점은 타사 번역기와는 다르게 더 빠른 번역을 위한 유료 버전이 있으며, 다른 시스템으로 탑재할 수 있도록 API(애플리케이션 프로그램 인터페이스) 형태로도 배포한다. API를 활용하면 기업 내 커뮤니케이션에 실시간 번역을 적용하거나, 운영체제 및 애플리케이션의 현지화, 증강현실 번역 등 다양한 형태로 쓸 수 있다.

번역 기능 측면에서는 문장 번역뿐만 아니라 서식이 있는 문서 형태의 파일을 번역하거나, 웹 페이지 전체를 번역하는 기능도 제공된다. 구글 크롬의 확장 프로그램으로 설치해 웹 채팅을 실시간 번역하거나 이메일을 번역하는 등의 방식으로도 쓸 수 있다. 그렇다면 딥엘의 번역 품질은 어느 정도일까?

딥엘 번역의 품질을 시험해보기 위해 구글 번역기와 딥엘 번역기에 동일한 문장을 번역하고 그 결과를 분석했다. 사용한 문서는 영문으로 작성된 버전과 한국어로 작성된 버전이 각각 존재하는 버전을 활용했다. 가장 먼저 활용한 번역은 애플코리아가 지난 7일 배포한 ‘나랑 노랑! Apple, 새로운 iPhone 14 및 iPhone 14 Plus 발표’에 포함된 내용 중 일부다.


애플의 보도자료는 독특한 번역체로 쓰인다. 자연스럽게 읽히면서도 낯선 느낌이 나는 게 특징이다. 출처=애플코리아



애플코리아 한글 보도자료 - 프로급 12MP 메인 카메라, 울트라 와이드 카메라, 새로운 전면 TrueDepth 카메라와 함께라면, 첨단 카메라 시스템을 언제나 휴대하고 다니는 셈이다.

애플 영문 보도자료 - With a pro-level 12MP Main camera, the Ultra Wide camera, and a new front TrueDepth camera, users have an advanced camera system right in their pockets.

구글 번역 - 전문가 수준의 12MP 메인 카메라, 울트라 와이드 카메라 및 새로운 전면 TrueDepth 카메라를 통해 사용자는 주머니에 바로 고급 카메라 시스템을 사용할 수 있습니다.

딥엘 번역 - 전문가 수준의 1,200만 화소 메인 카메라, 울트라 와이드 카메라, 새로운 전면 트루뎁스 카메라가 탑재되어 있어 사용자는 고급 카메라 시스템을 주머니에 넣고 다닐 수 있습니다.


위쪽이 구글 번역, 아래쪽이 딥엘 번역 결과다. 출처=IT동아



우선 한글 보도자료의 경우 번역가의 의역이 포함돼 있고, 조금 더 문장이 매끄럽게 사용됐다. 반면 딥엘과 구글 번역은 영문을 가감 없이 번역한다. 이때 딥엘 번역의 내용을 보면 12MP를 1,200만 화소로, 그리고 TrueDepth를 트루뎁스로 번역한 점이 인상적이다. 12MP는 12 Megapixel의 약자로, 관련 지식이 있어야 1,200만 화소라고 쓸 수 있다. 즉 단위를 한국에서 쉽게 이해할 수 있는 단위로 환산해서 번역한 것이다. 트루뎁스 역시 고유명사라서 번역기가 이를 인지해야 번역이 가능한 부분이다.

번역기의 기본은 직역임에도 이해를 돕기 위해 이런 부분까지 의역했다는 부분은 실로 놀랍다. 아울러 고급 카메라 시스템을 주머니에 넣고 다닌다는 부분도 구글 번역보다 딥엘 번역의 문장이 조금 더 원문에 가깝다. 심지어 애플코리아의 보도자료는 다소 꾸밈이 들어갔기 때문에 문장 자체는 딥엘 번역이 더 이해하기 쉽다.


한국IBM이 배포한 내용 중 어려운 문장을 발췌해 번역기를 돌려봤다. 출처=한국IBM



훨씬 더 어려운 문장을 시도해 봤다. 올해 2월 한국IBM이 배포한 ‘IBM과 미국 항공우주국(NASA), 기후 변화 영향 연구에 AI 활용 협력’ 보도자료 중의 내용을 발췌했다.

한국IBM 보도자료 - IBM의 지형 공간 정보(geospatial intelligence) 파운데이션 모델은 지구 궤도 위성에서 수집한 토지 피복 (지표면에 존재하는 물질 및 그 분포 상황) 및 토지 이용 변화 기록인 NASA의 HLS(Harmonized Landset-Sentinel-2) 데이터 세트를 학습하게 된다

IBM 보도자료 - One project will train an IBM geospatial intelligence foundation model on NASA's Harmonized Landsat Sentinel-2 (HLS) dataset, a record of land cover and land use changes captured by Earth-orbiting satellites

한글 보도자료에 열거된 문장을 보면 ‘IBM이 보유한 지형 공간 정보 기반 모델은 나사의 HLS 데이터 세트를 통해 학습하게 된다’가 핵심이다. 중간에 지구 궤도 위성에서 수집한 토지 피복 및 토지 이용 변화 기록은 HLS를 부연설명하는 내용이다. 이 때문에 한글 번역에서는 ‘IBM의 지형 정보 공간’의 어순을 앞으로 배치해 문장을 다듬었다.

구글 번역 - 한 프로젝트에서는 NASA의 HLS(Harmonized Landsat Sentinel-2) 데이터 세트, 즉 지구 궤도를 도는 위성이 캡처한 토지 피복 및 토지 이용 변화 기록에 대해 IBM 지리 공간 정보 기반 모델을 교육합니다.

딥엘 번역 - 한 프로젝트는 지구 궤도를 도는 위성이 포착한 토지 피복 및 토지 이용 변화 기록인 NASA의 조화로운 랜드샛 센티넬-2(HLS) 데이터 세트를 기반으로 IBM 지리공간 인텔리전스 기반 모델을 학습시킵니다


위쪽이 구글 번역, 아래쪽이 딥엘 번역 결과다. 출처=IT동아



비슷하게 번역된 것 같지만 구글의 결과는 NASA의 HLS를 활용해 IBM 지리 공간 정보 모델을 교육한다는 내용이 심각하게 꼬여있다. 엄밀히 말해서 틀린 번역은 아니지만 정상적인 문장이 아니라서 내용을 파악하기가 대단히 어렵다. 반면 딥엘의 결과물은 문장을 이해하는 데 전혀 문제가 없을 정도로 깔끔하게 배치돼 있다. 문서 하나를 번역한다면 전반적인 이해도에서 큰 차이를 보이게 될 것이다.

작품 번역은 난해, 문맥 이해는 문제없어


하지만 인공신경망 번역이 진입하지 못하는 영역이 있다. 바로 문학이다. 문학은 단순히 언어를 옮기는 것 이상의 작업이기 때문에 번역기를 활용했을 때 작가가 내포한 뜻을 놓치거나 이해하지 못할 수 있다. 하지만 딥엘은 특유의 기술력을 앞세워 완벽하진 않더라도 작가의 뜻을 유추하거나 이해할 수 있는 수준에 근접한다. 완벽하진 않으나, 기존의 번역 결과와 비교하면 조금 더 낫다.


천상병 시인의 귀천을 딥엘 번역기로 돌려보았다. 구글 번역과 다르게 조금 더 매끄러운 번역이 인상적이다. 출처=딥엘



천상병 시인의 ‘귀천’ 마지막 문장은 ‘나 하늘로 돌아가리라. 아름다운 이 세상 소풍 끝내는 날, 가서, 아름다웠더라고 말하리라’다. 구글 번역은 ‘I will go back to heaven. The day the picnic ends in this beautiful world, Go ahead and say it was beautiful’ 라고 번역해 비슷한듯 하면서도 마지막 문장은 뜻 자체가 달라졌다. 반면 딥엘의 경우 ‘I will return to heaven. The day my beautiful earthly picnic ends, I will go and say it was beautiful’ 로 번역했다.

구글의 경우 이 세상을 world로 번역한 반면, 딥엘은 세속적이라는 뜻을 담은 earthly가 사용됐다. 양쪽 다 국문을 영문으로 완전히 녹여내는 의미는 아니지만, 단순히 외국어로 옮긴 기준이라면 earthly가 더 전달력이 있다는 생각이 든다. 또 마지막 문장에서 구글 번역은 ‘가서,’를 Go ahead로 번역한 반면, 딥엘은 I will go라는 말을 사용했다. Go ahead도 틀린 말은 아니지만 내세에 가는 의미보다는 물리적으로 갔을 때라는 느낌이 드는 단어 선택이다. 결과적으로 딥엘의 번역 쪽이 조금 더 메시지를 잘 담는다는 생각이 든다.

완성도 기대 이상, 시장 판도 뒤집을까


우리 입장에서는 딥엘이 혜성처럼 등장했다고 여겨질 수 있지만, 이미 딥엘은 전 세계 인공지능 번역 업계의 화두다. 딥엘은 전 세계 수백만 명의 이용자와 2만 여 개의 기업이 이용하고 있으며, 지원하는 언어도 한국어가 31번째다. 올해 1월에는 영어와 독일어를 대상으로 문장의 구문, 어조, 스타일 및 단어 선택을 더욱 최적화하는 딥엘 라이트(DeepL Write)까지 선보였다. 문장 번역을 넘어서 이미 작성된 문장의 가독성과 완성도까지 높이는 단계에 접어든 상황이다.

십수 년 간 번역 프로젝트를 추진해 온 구글이나 홈 그라운드 이점을 등에 업은 네이버의 파파고에 비해 입지는 부족한 건 맞다. 하지만 확실히 나은 결과물을 보여주는 만큼, 국내 시장에서 점유율을 끌어올리는 건 시간문제로 보인다.

글 / IT동아 남시현 (sh@itdonga.com)

사용자 중심의 IT 저널 - IT동아 (it.donga.com)



▶ 구글 안드로이드 14 개발자판 공개, 눈에 띄는 기능은▶ 구글 “음성 인공지능 USM으로 세계 언어 장벽 허문다”▶ 해외여행에서 외국어 소통, 번역앱으로 이렇게![이럴땐 이렇게!]



추천 비추천

9

고정닉 2

5

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 힘들게 성공한 만큼 절대 논란 안 만들 것 같은 스타는? 운영자 24/06/10 - -
2552 물류의 변화, 도심 속으로 들어 온 물류거점 IT동아갤로그로 이동합니다. 23.04.10 1564 1
2551 [뉴스줌인] DDR5 지원하는 기가바이트의 H610 메인보드 출시, 쓸 만할까? IT동아갤로그로 이동합니다. 23.04.08 124 0
2550 AI로 악플잡는 네이버·카카오, 남은 과제는? [55] IT동아갤로그로 이동합니다. 23.04.07 4329 5
2549 KISA, 실생활 서비스로 블록체인 대중화 노린다 IT동아갤로그로 이동합니다. 23.04.07 99 0
2548 [농업이 IT(잇)다] 신성랩메디컬 “소재가 힘, 나노콜라겐을 세계로” IT동아갤로그로 이동합니다. 23.04.07 84 0
2547 강화하는 스마트폰-PC 연결성, 왜 기업들은 지금 '연결성' 기능을 내는가? [5] IT동아갤로그로 이동합니다. 23.04.07 1709 2
2546 AMD 자일링스, ASIC 기반 알베오 미디어 가속기 'MA35D' 공개 IT동아갤로그로 이동합니다. 23.04.06 86 0
2545 [리뷰] ‘진짜’ 미국 선생님들 수업이 한가득, ‘아웃스쿨’ IT동아갤로그로 이동합니다. 23.04.06 126 0
2544 지금 지원할 수 있는 예비 창업자 프로그램 IT동아갤로그로 이동합니다. 23.04.06 351 0
2543 공공배달앱 대부분이 외면받아… 업계 “홍보·수익방안 마련해야” [24] IT동아갤로그로 이동합니다. 23.04.06 1776 5
2542 [리뷰] AMD 라이젠 7 7800X3D 써보니··· '게이밍에선 16코어 CPU도 넘어서' [6] IT동아갤로그로 이동합니다. 23.04.05 1256 0
2541 델 테크놀로지스, 2023 기업용 신제품 공개... "국내 PC 시장 3위 목표" IT동아갤로그로 이동합니다. 23.04.05 210 0
2540 [스타트업-ing] 엑스온 장원익 대표, “버추얼 스튜디오가 가져 온 변화” [2] IT동아갤로그로 이동합니다. 23.04.05 821 0
2539 카산도 “인공지능·스마트 프랜차이즈 될 것” IT동아갤로그로 이동합니다. 23.04.05 106 0
2538 [IT신상공개] S10급 성능의 보급형 스마트폰? 갤럭시 A34, 살 만할까? [27] IT동아갤로그로 이동합니다. 23.04.04 2467 4
2537 스타트업 창업 전 알아야 할 투자 라운드 특징 IT동아갤로그로 이동합니다. 23.04.04 167 0
2536 인기 인공지능 서비스 연이어 중단, 업계 “자정할 것” [15] IT동아갤로그로 이동합니다. 23.04.04 2290 3
2535 [뉴스줌인] 실속형 PC용 보급형 메인보드 칩셋, 'AMD A620' 이모저모 [7] IT동아갤로그로 이동합니다. 23.04.03 1765 1
2534 [뉴스줌인] 두나무, ‘크립토 겨울’ 실적 급감에 수익 다각화 모색 IT동아갤로그로 이동합니다. 23.04.03 126 0
2533 “비싼 배달비·수수료, 배달앱 못 쓰겠다” 불만 터진 이용자들 [35] IT동아갤로그로 이동합니다. 23.04.03 2889 7
2532 매년 갱신하는 자동차 보험, 한 눈에 비교하려면 이렇게![이럴땐 이렇게!] [1] IT동아갤로그로 이동합니다. 23.04.03 1083 1
2531 [주간투자동향] 스탁키퍼, 58억 원 규모의 시리즈A 투자 유치 [1] IT동아갤로그로 이동합니다. 23.04.03 177 0
2530 [르포] 'UAM·드론·전장·전기 이륜차 한 자리에'··· '서울모빌리티쇼'의 또 다른 볼 거리는? IT동아갤로그로 이동합니다. 23.03.31 127 0
2529 [IT애정남] 이어폰, 한쪽만 들어도 되나요? IT동아갤로그로 이동합니다. 23.03.31 330 1
2528 [농업이 IT(잇)다] 팜커넥트 “농업 데이터, 선진 농업 첫걸음” IT동아갤로그로 이동합니다. 23.03.31 125 0
2527 [리뷰] 상위 1% 성능, MSI 타이탄 GT77HX 13VI로 살펴본 13세대 인텔 코어 i9-13950HX [14] IT동아갤로그로 이동합니다. 23.03.30 1938 4
2526 AWS코리아 "스타트업 해외 진출 고민, AWS 인프라로 적극 지원할 것" IT동아갤로그로 이동합니다. 23.03.30 129 0
2525 헤어테크 기업 ‘부드러운돌멩이’, "NHN 협업 툴 두레이로 디지털화 대응" IT동아갤로그로 이동합니다. 23.03.30 105 0
2524 S23 출시하며 스마트싱스 스테이션 뿌린 삼성, ‘매터’가 뭐길래? [4] IT동아갤로그로 이동합니다. 23.03.29 1078 0
2523 홍익대학교 이근 미술대학장, “시뮬레이션할 수 있는 디자인이 필요합니다” [26] IT동아갤로그로 이동합니다. 23.03.29 1745 16
2522 스타트업 창업자에게 유용한 투자 유치 관련 정보 IT동아갤로그로 이동합니다. 23.03.29 160 0
2521 [리뷰] 손 맛도 살리고 편의성도 OK, 마이크로닉스 메카 ZK1 기계식 게이밍 키보드 [11] IT동아갤로그로 이동합니다. 23.03.28 1893 0
2520 [농업+IT=스마트팜] 4. 환경 데이터 수집용 센서 구축하기 (1) IT동아갤로그로 이동합니다. 23.03.28 129 0
2519 택시 서비스 기업 “요금 나눠서 여럿이 싸게 타세요” [12] IT동아갤로그로 이동합니다. 23.03.28 2037 0
2518 일상에 스며든 블록체인 서비스 IT동아갤로그로 이동합니다. 23.03.28 122 0
2517 [메타버스에 올라타자] 3. 전 세계 메타버스 시장 현황 IT동아갤로그로 이동합니다. 23.03.28 183 0
2516 [마인드테크 시대가 온다] 3. 명상테크, 스스로하는 마인드 케어 IT동아갤로그로 이동합니다. 23.03.28 103 0
2515 웨스턴디지털, '샌디스크 프로페셔널' 라인업 추가··· "전문가용 경험 확대" IT동아갤로그로 이동합니다. 23.03.28 130 0
2514 日 JOLED 사실상 파산, 韓·中 OLED 2파전 굳혀 [60] IT동아갤로그로 이동합니다. 23.03.28 3218 16
2513 레드햇 앤드류 해브굿 부사장 “파트너십 확대, 한국 기업 글로벌 진출 도울 것” IT동아갤로그로 이동합니다. 23.03.27 166 0
2512 [리뷰] 최대 96GB 통합 메모리로 성능·효율 다 잡았다, 애플 맥북 프로 16 [26] IT동아갤로그로 이동합니다. 23.03.27 2409 3
2511 [IT하는법] 껐다 켜는 게 다가 아니다, 알면 도움 되는 '시스템 소리' 설정 IT동아갤로그로 이동합니다. 23.03.27 149 0
2510 [주간투자동향] 크로커스, 64억 원 규모의 시리즈B 투자 유치 완료 IT동아갤로그로 이동합니다. 23.03.27 98 0
2509 모니터 돌리고 세워 쓰려면 이렇게![이럴땐 이렇게!] [8] IT동아갤로그로 이동합니다. 23.03.27 4575 10
2508 ‘보이지 않는’ 핵심 시스템을 개발합니다, 인포플라의 백엔드 개발자 이야기[스타트업人] IT동아갤로그로 이동합니다. 23.03.27 91 0
2507 [IT신상공개] 새 폴더블폰 화웨이 메이트 X3, 갤럭시Z 폴드4와 차이는? [29] IT동아갤로그로 이동합니다. 23.03.27 3112 3
2506 [뉴스줌인] 상업적 이용도 OK, 올해도 무료 글꼴 배포한 가비아 IT동아갤로그로 이동합니다. 23.03.24 148 1
2505 [IT애정남] 갤럭시 워치에 교통카드를 넣고 싶어요 [6] IT동아갤로그로 이동합니다. 23.03.24 1120 6
2504 [IT강의실] 알아두면 좋은 게이밍 이어폰 특징·사양 [7] IT동아갤로그로 이동합니다. 23.03.24 928 1
2503 [시드팁스] 스니커즈 정은애 대표, "실시간 초개인화 정보, 스트릿 캐스터가 답합니다" IT동아갤로그로 이동합니다. 23.03.24 97 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2