디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

구글·네이버 위협하는 딥엘(DeepL) 번역기, 한국어 버전 품질은?

IT동아갤로그로 이동합니다. 2023.03.09 19:13:21
조회 3172 추천 9 댓글 19
[IT동아 남시현 기자] 인공신경망은 인간의 두뇌에 있는 뉴럴의 신호체계로부터 영감을 얻은 인공지능의 동작 방식으로, 뉴런에 해당하는 노드들이 여러 계층으로 각기 연결되어 최적의 값을 도출해 낸다. 인공신경망은 기계 학습의 한 갈래로 데이터 마이닝과 네트워크 관리, 모델링 및 과학 이론 개발 등 폭넓은 분야에서 응용되는데, 일상 속에서는 자연어 처리 기능이 널리 쓰인다. 오늘날 네트워크 기반의 번역기 대다수가 인공신경망을 활용해 언어를 처리한다.


딥엘은 2017년 시작한 번역 서비스로, 현재 31개 국가 언어로 제공된다. 출처=IT동아



2016년 인공신경망 번역이 적용되기 이전의 번역기는 구문 기반 기계번역(PBMT)을 사용했다. 글의 형태와 단어만으로 내용을 번역하니 품질이 떨어지고, 앞뒤가 맞지 않았다. 반면 인공신경망 번역은 웹에서 수집된 데이터로 단어와 문장의 문맥을 분석한 다음 번역하기 때문에 품질이 훨씬 뛰어나다. 다만 한국어는 우리나라에서만 사용해 데이터가 부족하고, 또 로마자 기반 언어와 체계가 달라서 번역 품질이 좋지 않다. 그래서 지금까지는 데이터베이스 확보가 용이한 구글과 네이버가 국내 기계번역 시장을 양분하는 상황이었다.

딥엘(DeepL), 독자적인 인공신경망으로 한국어 번역 접근


이미 구글과 네이버가 시장을 독식하고 있는 상황이지만, 지난 1월 독일의 인공지능 커뮤니케이션 기업 딥엘(DeepL)이 양강 구도의 시장에 도전장을 내밀었다. 딥엘은 2017년 야로스와프 쿠틸로브스키(Jaroslaw Kutylowski)가 설립한 기업으로, 인공신경망 번역을 기반으로 하면서도 네트워크 아키텍처와 학습 데이터, 학습 방법 등에 차별화를 두어 언어의 미묘한 문맥 차이나 뉘앙스까지 파악한 번역 결과를 내놓는다.


링게는 여러 언어에서 공통적으로 나타나는 언어쌍, 문장쌍 등 쌍형어를 취급하는 온라인 어학 사전이다. 출처=딥엘



딥엘의 핵심은 공통된 어원을 갖는 쌍형어 사전 '링게(Linguee)' 기반의 인공신경망 데이터베이스다. 여러 언어로 작성됐지만 동일한 내용을 담은 문서를 데이터로 삼는다. 여러 언어로 쓰이는 EU 의회 문서나 법률, 영어와 프랑스어가 공용인 캐나다 정부 등의 문서가 대표적이다. 또한 번역 결과를 반복 대조해 오차를 수정하고, 번역에 필요한 데이터인 매개변수를 작은 단위로 쪼개어 학습한다. 덕분에 대형 컴퓨팅 클러스터가 필요한 타사의 인공신경망과 다르게 작은 시스템에서도 번역 품질을 유지한다.

단순 웹 번역 넘어 API로 기능 구현··· 활용도 높아져



딥엘의 번역 메인 페이지. 홈페이지 메인에서 바로 언어를 입력하면 자동으로 번역한다. 출처=딥엘



딥엘 번역기는 홈페이지를 방문해 누구나 무료로 사용할 수 있다. 흥미로운 점은 타사 번역기와는 다르게 더 빠른 번역을 위한 유료 버전이 있으며, 다른 시스템으로 탑재할 수 있도록 API(애플리케이션 프로그램 인터페이스) 형태로도 배포한다. API를 활용하면 기업 내 커뮤니케이션에 실시간 번역을 적용하거나, 운영체제 및 애플리케이션의 현지화, 증강현실 번역 등 다양한 형태로 쓸 수 있다.

번역 기능 측면에서는 문장 번역뿐만 아니라 서식이 있는 문서 형태의 파일을 번역하거나, 웹 페이지 전체를 번역하는 기능도 제공된다. 구글 크롬의 확장 프로그램으로 설치해 웹 채팅을 실시간 번역하거나 이메일을 번역하는 등의 방식으로도 쓸 수 있다. 그렇다면 딥엘의 번역 품질은 어느 정도일까?

딥엘 번역의 품질을 시험해보기 위해 구글 번역기와 딥엘 번역기에 동일한 문장을 번역하고 그 결과를 분석했다. 사용한 문서는 영문으로 작성된 버전과 한국어로 작성된 버전이 각각 존재하는 버전을 활용했다. 가장 먼저 활용한 번역은 애플코리아가 지난 7일 배포한 ‘나랑 노랑! Apple, 새로운 iPhone 14 및 iPhone 14 Plus 발표’에 포함된 내용 중 일부다.


애플의 보도자료는 독특한 번역체로 쓰인다. 자연스럽게 읽히면서도 낯선 느낌이 나는 게 특징이다. 출처=애플코리아



애플코리아 한글 보도자료 - 프로급 12MP 메인 카메라, 울트라 와이드 카메라, 새로운 전면 TrueDepth 카메라와 함께라면, 첨단 카메라 시스템을 언제나 휴대하고 다니는 셈이다.

애플 영문 보도자료 - With a pro-level 12MP Main camera, the Ultra Wide camera, and a new front TrueDepth camera, users have an advanced camera system right in their pockets.

구글 번역 - 전문가 수준의 12MP 메인 카메라, 울트라 와이드 카메라 및 새로운 전면 TrueDepth 카메라를 통해 사용자는 주머니에 바로 고급 카메라 시스템을 사용할 수 있습니다.

딥엘 번역 - 전문가 수준의 1,200만 화소 메인 카메라, 울트라 와이드 카메라, 새로운 전면 트루뎁스 카메라가 탑재되어 있어 사용자는 고급 카메라 시스템을 주머니에 넣고 다닐 수 있습니다.


위쪽이 구글 번역, 아래쪽이 딥엘 번역 결과다. 출처=IT동아



우선 한글 보도자료의 경우 번역가의 의역이 포함돼 있고, 조금 더 문장이 매끄럽게 사용됐다. 반면 딥엘과 구글 번역은 영문을 가감 없이 번역한다. 이때 딥엘 번역의 내용을 보면 12MP를 1,200만 화소로, 그리고 TrueDepth를 트루뎁스로 번역한 점이 인상적이다. 12MP는 12 Megapixel의 약자로, 관련 지식이 있어야 1,200만 화소라고 쓸 수 있다. 즉 단위를 한국에서 쉽게 이해할 수 있는 단위로 환산해서 번역한 것이다. 트루뎁스 역시 고유명사라서 번역기가 이를 인지해야 번역이 가능한 부분이다.

번역기의 기본은 직역임에도 이해를 돕기 위해 이런 부분까지 의역했다는 부분은 실로 놀랍다. 아울러 고급 카메라 시스템을 주머니에 넣고 다닌다는 부분도 구글 번역보다 딥엘 번역의 문장이 조금 더 원문에 가깝다. 심지어 애플코리아의 보도자료는 다소 꾸밈이 들어갔기 때문에 문장 자체는 딥엘 번역이 더 이해하기 쉽다.


한국IBM이 배포한 내용 중 어려운 문장을 발췌해 번역기를 돌려봤다. 출처=한국IBM



훨씬 더 어려운 문장을 시도해 봤다. 올해 2월 한국IBM이 배포한 ‘IBM과 미국 항공우주국(NASA), 기후 변화 영향 연구에 AI 활용 협력’ 보도자료 중의 내용을 발췌했다.

한국IBM 보도자료 - IBM의 지형 공간 정보(geospatial intelligence) 파운데이션 모델은 지구 궤도 위성에서 수집한 토지 피복 (지표면에 존재하는 물질 및 그 분포 상황) 및 토지 이용 변화 기록인 NASA의 HLS(Harmonized Landset-Sentinel-2) 데이터 세트를 학습하게 된다

IBM 보도자료 - One project will train an IBM geospatial intelligence foundation model on NASA's Harmonized Landsat Sentinel-2 (HLS) dataset, a record of land cover and land use changes captured by Earth-orbiting satellites

한글 보도자료에 열거된 문장을 보면 ‘IBM이 보유한 지형 공간 정보 기반 모델은 나사의 HLS 데이터 세트를 통해 학습하게 된다’가 핵심이다. 중간에 지구 궤도 위성에서 수집한 토지 피복 및 토지 이용 변화 기록은 HLS를 부연설명하는 내용이다. 이 때문에 한글 번역에서는 ‘IBM의 지형 정보 공간’의 어순을 앞으로 배치해 문장을 다듬었다.

구글 번역 - 한 프로젝트에서는 NASA의 HLS(Harmonized Landsat Sentinel-2) 데이터 세트, 즉 지구 궤도를 도는 위성이 캡처한 토지 피복 및 토지 이용 변화 기록에 대해 IBM 지리 공간 정보 기반 모델을 교육합니다.

딥엘 번역 - 한 프로젝트는 지구 궤도를 도는 위성이 포착한 토지 피복 및 토지 이용 변화 기록인 NASA의 조화로운 랜드샛 센티넬-2(HLS) 데이터 세트를 기반으로 IBM 지리공간 인텔리전스 기반 모델을 학습시킵니다


위쪽이 구글 번역, 아래쪽이 딥엘 번역 결과다. 출처=IT동아



비슷하게 번역된 것 같지만 구글의 결과는 NASA의 HLS를 활용해 IBM 지리 공간 정보 모델을 교육한다는 내용이 심각하게 꼬여있다. 엄밀히 말해서 틀린 번역은 아니지만 정상적인 문장이 아니라서 내용을 파악하기가 대단히 어렵다. 반면 딥엘의 결과물은 문장을 이해하는 데 전혀 문제가 없을 정도로 깔끔하게 배치돼 있다. 문서 하나를 번역한다면 전반적인 이해도에서 큰 차이를 보이게 될 것이다.

작품 번역은 난해, 문맥 이해는 문제없어


하지만 인공신경망 번역이 진입하지 못하는 영역이 있다. 바로 문학이다. 문학은 단순히 언어를 옮기는 것 이상의 작업이기 때문에 번역기를 활용했을 때 작가가 내포한 뜻을 놓치거나 이해하지 못할 수 있다. 하지만 딥엘은 특유의 기술력을 앞세워 완벽하진 않더라도 작가의 뜻을 유추하거나 이해할 수 있는 수준에 근접한다. 완벽하진 않으나, 기존의 번역 결과와 비교하면 조금 더 낫다.


천상병 시인의 귀천을 딥엘 번역기로 돌려보았다. 구글 번역과 다르게 조금 더 매끄러운 번역이 인상적이다. 출처=딥엘



천상병 시인의 ‘귀천’ 마지막 문장은 ‘나 하늘로 돌아가리라. 아름다운 이 세상 소풍 끝내는 날, 가서, 아름다웠더라고 말하리라’다. 구글 번역은 ‘I will go back to heaven. The day the picnic ends in this beautiful world, Go ahead and say it was beautiful’ 라고 번역해 비슷한듯 하면서도 마지막 문장은 뜻 자체가 달라졌다. 반면 딥엘의 경우 ‘I will return to heaven. The day my beautiful earthly picnic ends, I will go and say it was beautiful’ 로 번역했다.

구글의 경우 이 세상을 world로 번역한 반면, 딥엘은 세속적이라는 뜻을 담은 earthly가 사용됐다. 양쪽 다 국문을 영문으로 완전히 녹여내는 의미는 아니지만, 단순히 외국어로 옮긴 기준이라면 earthly가 더 전달력이 있다는 생각이 든다. 또 마지막 문장에서 구글 번역은 ‘가서,’를 Go ahead로 번역한 반면, 딥엘은 I will go라는 말을 사용했다. Go ahead도 틀린 말은 아니지만 내세에 가는 의미보다는 물리적으로 갔을 때라는 느낌이 드는 단어 선택이다. 결과적으로 딥엘의 번역 쪽이 조금 더 메시지를 잘 담는다는 생각이 든다.

완성도 기대 이상, 시장 판도 뒤집을까


우리 입장에서는 딥엘이 혜성처럼 등장했다고 여겨질 수 있지만, 이미 딥엘은 전 세계 인공지능 번역 업계의 화두다. 딥엘은 전 세계 수백만 명의 이용자와 2만 여 개의 기업이 이용하고 있으며, 지원하는 언어도 한국어가 31번째다. 올해 1월에는 영어와 독일어를 대상으로 문장의 구문, 어조, 스타일 및 단어 선택을 더욱 최적화하는 딥엘 라이트(DeepL Write)까지 선보였다. 문장 번역을 넘어서 이미 작성된 문장의 가독성과 완성도까지 높이는 단계에 접어든 상황이다.

십수 년 간 번역 프로젝트를 추진해 온 구글이나 홈 그라운드 이점을 등에 업은 네이버의 파파고에 비해 입지는 부족한 건 맞다. 하지만 확실히 나은 결과물을 보여주는 만큼, 국내 시장에서 점유율을 끌어올리는 건 시간문제로 보인다.

글 / IT동아 남시현 (sh@itdonga.com)

사용자 중심의 IT 저널 - IT동아 (it.donga.com)



▶ 구글 안드로이드 14 개발자판 공개, 눈에 띄는 기능은▶ 구글 “음성 인공지능 USM으로 세계 언어 장벽 허문다”▶ 해외여행에서 외국어 소통, 번역앱으로 이렇게![이럴땐 이렇게!]



추천 비추천

9

고정닉 2

5

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 연예인 안됐으면 어쩔 뻔, 누가 봐도 천상 연예인은? 운영자 24/06/17 - -
2498 카카오모빌리티가 英 스플리트를 인수한 이유는? IT동아갤로그로 이동합니다. 23.03.23 105 0
2497 물류센터 화재 예방, 관리계획서와 시스템 갖춰야 IT동아갤로그로 이동합니다. 23.03.23 104 0
2496 컨텍 “우주급 비즈니스 꿈꾸는 인재들, 우리와 함께하길”[스타트업人] IT동아갤로그로 이동합니다. 23.03.23 87 0
2495 애플페이 한국 상륙, 소상공인 대응 방안은? IT동아갤로그로 이동합니다. 23.03.23 900 0
2494 [시드팁스] 가이버스 김승훈 대표, “미트가이버는 알아서 고기를 숙성시켜 줍니다” IT동아갤로그로 이동합니다. 23.03.22 113 1
2493 건설인력 시장 디지털화 “앱으로 현장 골라 일하고 경력 관리도” IT동아갤로그로 이동합니다. 23.03.22 115 1
2492 동영상 만드는 인공지능 ‘런웨이 GEN-2’의 실력은? [4] IT동아갤로그로 이동합니다. 23.03.22 1245 2
2491 [리뷰] 내실 다진 PCIe 4.0 SSD, 씨게이트 뉴 파이어쿠다 520 M.2 NVMe IT동아갤로그로 이동합니다. 23.03.21 154 0
2490 [IT하는법] 유튜브 과몰입 방지하는 ‘사용 시간 제한’ [7] IT동아갤로그로 이동합니다. 23.03.21 1016 2
2489 [IT애정남] ‘이퀄라이저’는 어떻게 쓰는 건가요? [1] IT동아갤로그로 이동합니다. 23.03.21 198 0
2488 카멜그룹, 모니터 암·디스플레이 넘어 '가구 브랜드'로 진화 中 IT동아갤로그로 이동합니다. 23.03.21 1012 2
2487 "첫날 오전에만 17만 명 가입"··· 애플 페이의 한국 서비스가 지닌 의의는? [2] IT동아갤로그로 이동합니다. 23.03.21 1054 2
2486 최치호 홍릉강소특구단장 “바이오 스타트업 생태계 돕고파” IT동아갤로그로 이동합니다. 23.03.21 90 0
2485 [주간투자동향] 트래블월렛, 197억 원 규모의 시리즈C 투자 유치 IT동아갤로그로 이동합니다. 23.03.21 122 0
2484 '노 코딩' RPA 제작, 인포플라 ‘알파카’로 RPA 스크립트 만들어보니[스타트업 리뷰] [5] IT동아갤로그로 이동합니다. 23.03.20 1093 1
2483 주름 없는 폴더블폰 속속 등장, 삼성 폴드∙플립5는 방수∙방진까지? [21] IT동아갤로그로 이동합니다. 23.03.20 2833 7
2482 스마트폰 홈 화면에 바로가기 만들려면 이렇게! [이럴땐 이렇게!] [7] IT동아갤로그로 이동합니다. 23.03.20 2909 2
2481 [뉴스줌인] 더함 안드로이드 TV, 버전 9→11로 업데이트, 뭐가 달라지지? IT동아갤로그로 이동합니다. 23.03.17 184 0
2480 "카메라·렌즈 직접 써보세요", 오프라인 경험 확대 나선 카메라 업계 IT동아갤로그로 이동합니다. 23.03.17 124 1
2479 [농업이 IT(잇)다] 팡세 “바이오 3D 프린팅으로 배양육 대중화” [6] IT동아갤로그로 이동합니다. 23.03.17 2330 2
2478 [시드팁스] 유동산 오준식 대표, "기업·기관 중심의 선순위 대출, 모두를 위한 기회로" IT동아갤로그로 이동합니다. 23.03.17 96 0
2477 [리뷰] 공간효율성과 ‘손맛’을 동시에, 마이크로닉스 워프 WK4 텐키리스 게이밍 키보드 [9] IT동아갤로그로 이동합니다. 23.03.16 1620 1
2476 가상자산 제도화를 위한 조언, DCON 2023 IT동아갤로그로 이동합니다. 23.03.16 98 0
2475 [디지털 취약 극복] 에이티소프트 “전자 점자, 문서 표·셀까지 표현해야” IT동아갤로그로 이동합니다. 23.03.16 91 0
2474 이통 3사 “2시간 미만 장애 10배 보상”…과실 입증은 소비자가? IT동아갤로그로 이동합니다. 23.03.16 650 0
2473 GPT-4, 사진 알아보고 변호사·대입 시험 성적도 우수 [11] IT동아갤로그로 이동합니다. 23.03.16 2052 6
2472 [IT강의실] 초보자를 위한 ‘SSD 데이터 통째로 복제하기’ IT동아갤로그로 이동합니다. 23.03.15 986 1
2471 [리뷰] ‘스펙’ 충만 4K/120Hz 게이밍 TV, 더함 우버기어 UG651QLED [6] IT동아갤로그로 이동합니다. 23.03.15 909 0
2470 당근마켓, 비대면 중고사기 주의보 …이것만큼은 주의해야 [6] IT동아갤로그로 이동합니다. 23.03.14 1062 0
2469 한국IBM “아시아 지역에 집중되는 보안위협, 전방위 XDR로 대응해야” IT동아갤로그로 이동합니다. 23.03.14 89 0
2468 개인위생이 신경 쓰인다면? 개인·가정용 살균기 IT동아갤로그로 이동합니다. 23.03.14 780 1
2467 [스타트업-ing] 칼렛바이오 “친환경 포장재로 맺은 ESG 파트너십, 새 칼렛스토어로 한층 강화” [1] IT동아갤로그로 이동합니다. 23.03.14 116 0
2466 '성공한 일본 비즈니스맨의 상징'··· 파나소닉 '레츠노트'는 어떤 노트북인가? [32] IT동아갤로그로 이동합니다. 23.03.14 1801 8
2465 폴더블 스마트폰 2막, 판매량 3,000만 고지 밟는다 [2] IT동아갤로그로 이동합니다. 23.03.14 1032 1
2464 [IT강의실] 모니터 구매 전 체크할 필수 사양 [10] IT동아갤로그로 이동합니다. 23.03.13 2300 4
2463 엔비디아 RTX 30 시리즈 단종 수순, 차세대 그래픽 카드 기다려볼까? [35] IT동아갤로그로 이동합니다. 23.03.13 6092 5
2462 [주간투자동향] 퀀팃, 300억 원 규모의 시리즈A 투자 유치 IT동아갤로그로 이동합니다. 23.03.13 88 0
2461 너무 큰 PDF 파일, 용량 줄이려면 이렇게! [이럴땐 이렇게!] [7] IT동아갤로그로 이동합니다. 23.03.13 4511 12
2460 애플, 500만 트랙 담은 ‘뮤직 클래식’ 공개···한국은 제외 [76] IT동아갤로그로 이동합니다. 23.03.10 7690 9
2459 [IT강의실] 저렴한 PC 업그레이드 방법···SSD에 주목 [55] IT동아갤로그로 이동합니다. 23.03.10 4758 9
2458 같은 메뉴도 매장보다 배달앱에서 더 비싸… 배달가격에 기만당하는 소비자 [5] IT동아갤로그로 이동합니다. 23.03.10 336 0
2457 [시드팁스] 카본사우루스, "모든 기업이 탄소중립 동참하는 생태계 꿈꾼다" IT동아갤로그로 이동합니다. 23.03.10 98 0
2456 [농업이 IT(잇)다] 맘꽃가든 “가변형 입식 베드 스마트팜, 농가 불편 해소” IT동아갤로그로 이동합니다. 23.03.10 102 0
2455 [뉴스줌인] 오비고-토요타 협업, 국내 IT 업체들과 협력 강화하는 수입차 업계 [1] IT동아갤로그로 이동합니다. 23.03.10 1187 0
구글·네이버 위협하는 딥엘(DeepL) 번역기, 한국어 버전 품질은? [19] IT동아갤로그로 이동합니다. 23.03.09 3172 9
2453 美·EU “中 정부에 정보 제공” 주장에 틱톡 “사실무근” [13] IT동아갤로그로 이동합니다. 23.03.09 1051 3
2452 [스타트업-ing] 직접 체험하며 소통하는 디지털 사이니지, 쉐어박스 밋업 IT동아갤로그로 이동합니다. 23.03.09 69 0
2451 배달 앱 쇠퇴에 소상공인 “스마트 상점으로 경쟁력 강화” [6] IT동아갤로그로 이동합니다. 23.03.09 1595 1
2450 구글 안드로이드 14 개발자판 공개, 눈에 띄는 기능은 IT동아갤로그로 이동합니다. 23.03.09 237 1
2449 LG전자, 선 없애고 더 밝아진 2023 올레드 TV 발표, “삼성 OLED TV 진출 오히려 환영” [10] IT동아갤로그로 이동합니다. 23.03.08 1955 4
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2