- Global Voices 한국어 - https://ko.globalvoices.org -

번역에 낭패: 왜 구글번역기는 자주 요루바어를 – 다른 언어들도 – 틀리게 할까?

Categories: 서브 사하라 아프리카, 나이지리아, 개발, 기술, 미디어/ 언론, 시민 미디어, 아이디어, 언어, 라이징 보이스
[1]

나이지리아 위키미디어 사용자 그룹, 2018년 10월 위키미디어 공용 CC.BY.2.0.

‘세계’ 공용어로서 영어라는 언어가 인터넷 개시와 동시에 온라인 소통을 장악해왔다. 2020년 2월 WebTech3에 따르면 무려  [2] 이상의 인터넷 웹사이트는 영어로 되어있다고 한다.

하지만 더욱 많은 사람들이 온라인에서 다른 언어들을 사용하면서, 한 번의 클릭으로 수많은 언어들의 영어 번역에 바로 접근할 수 있는 언어적 디지털 혁명에 불을 지폈다.

최근에 많은 기술 기업들은 비영어 단어들을 많은 언어들의 디지털화를 위해 인터넷에 문서화하는 작업에 힘을 싣고 있다. 구글 [3]요루바 네임즈 [4]마사켄 MT,  [5]와 ALC [6]는 기술과 비영어 언어들을 결합시키는 스타트업 회사의 예시이다. 

2020년 2월 말, 구글은 키냐 르완다어, 위구르어, 타타르어, 투르크멘어, 오리야어를 포함해 다섯 개의 새로운 언어들을 4년반의 공백이후에 구글 번역 서비스에 추가한다고 발표했다 [7].

[8]

남자는 온라인에서 글을 읽으며 당황해 보인다. 사진찍은 사람 오라디메지 아제빌, 펙셀스에서 퍼옴

하지만 번역 옵션을 선택해서 보면 영어 번역은 그럭저럭 괜찮은 정도인 걸 깨달은 적이 있는가? 최악일 경우엔 하나도 맞지 않은 것도?

그래서 이런 언어 번역과 그 일을 할 때에는 많은 논란과 어려움 [9]이 있다.

트위터는 요루바 어의 영어 번역을 구글 번역을 통해 가능한 많이 제공하는데 보통 결과물은 그렇게 나쁘지는 않고 몇 단어들만 맞다.

이런 어려움은 기술 기업들이 보통 영어 번역을 위해 언어적 데이터를 인터넷에서 수집하기  [10]때문에 발생한다. 이런 데이터는 몇 개의 언어에는 통하지만, 나이지리아의 대표적인 두 언어 요루바어와 이그보어 같은 언어들에게는 단어의 부적절하거나 부정확한 악센트 표시가 톤을 제시하기에 어렵다.

회사 대변인은 구글이 5개의 언어를 추가하는 데 왜 4년이나 걸렸는지 설명했다 [7]:

구글 번역기는 웹상에 존재하는 번역물에서 배우기 때문에 해당 언어의 풍부한 자료가 있지 않으면 우리의 시스템상 효율적으로 지원하기가 어렵습니다… 그렇지만, 최신 기계 학습 기술의 발전과 우리의 구글 번역 커뮤니티의 활발한 참여로 이러한 언어들을 지원할 수 있게 되었습니다.

또한 대분분의 사람들은 이러한 언어들의 맞춤법을 잘하지 않는다. 결과적으로 에러들이 부적적하다고 표시되지 않기 때문에 좋은 번역은 나오지 않는다.

기계를 통한 대부분의 번역은 몇 단어와 특히 특정한 문화적 뉘앙스를 띈 단어들을 틀리게 번역한다. 예를 들어, 요루바어의 아야바오바빈린은 문화적 문맥에서 뜻을 지닌다. 대부분의 기계는 두 단어를 똑같이 ‘여왕'으로 번역한다. 그러나 전통적인 문화 관점에서는 두 단어 아야바와 오바빈린의 뜻을 구별하는 게 중요하다: 오바빈린 영어로 ‘여왕'을 뜻하는 반면 아야바는 ‘왕의 부인'을 뜻한다.

이러한 번역 문제에서도 기술이 새로운 단어들을 구별해가며 아프리카 언어들이 디지털 공간에서 발전을 할 수 있게 도왔다. 아프리카 언어들은 스마트폰과 태블랫PC 같은 새로운 장치의 유입을 통해 새로운 기술적인 도구와 개념의 이름과 같은 신조어들이 생기면서 성장해왔다. 이러한 과정은 언어들의 활용과 기능성을 넓혔다.

새로운 기계들이 생김과 같이 아프리카 언어의 어휘들은 더 현대화되었다. 예를 들어 요루바어는erọ amúlétutù (에어컨),erọ Ìbánisọ̀rọ̀ (핸드폰), erọ Ìlọta (분쇄기)와 같은 과학 기술에서 비롯된 단어들이 생겼다. 비슷하게 이그보어에도 ekwè nti (전화기), ugbọ̀ àlà (운송 수단)이라는 단어들이 생겼다. 이런 사회는 실행되고 있는 기능들을 바탕으로 장치들의 이름을 지었다.

요루바에서 방송과 언론에 관한 수업에서 학생들은 대부분의 사람들의 텔레비전을 erọ Amóhùnmáwòrán로 부른다고 배운다. 이 신조어는 실제로 많은 질문과 의견을 낳았다 – 어떤 학생은 비디오카메라와 리코더도 기능에 따르면 erọ amóhùnmáwòrán로 불릴 수 있다고 주장한다.

이런 과학기계 안에 언어적 도전은 언어를 위해서 건전한 일이다 – 이것은 언어적 그리고 과학 기술적 발전을 위한 비판적 사고를 기른다.

CNN에 따르면 2019년에 구글은 ‘아프리카 언어를 더욱 자세하게 구별하는 구글 번역 능력'을 발전시키기 위해 아크라와 가나에 첫 AI 연구 센터를 열었다 [11]. 아프리카에 있는 구글의 AI 센터장인 연구 과학자 머스타파 시제는 ‘2천 개 이상의 사투리가 있는 대륙은 더욱 좋은 섬김을 받아도 마땅하다’ 라고 믿는다고 CNN이 발표했다.

모질라와 BMZ [12]는 최근에 아프리카 언어들의 음성기술을 위한 협동을 한다고 발표했다. 이러한 선제와 함께, 미래에는 더욱 많은 아프리카 언어들의 연구들이 보일 것이다.