2017.06.23

｢他言語を学ばなくてもいい日｣は来ない。言語と機械翻訳を改めて考えてみる | アルゴリズム編

このシリーズ記事では、現在の機械翻訳が求められる意味と、そこから生まれる問題を紐解くべく、言語と翻訳をテーマに、人間とアルゴリズムの別軸から2回シリーズで読み解いていく。

機械翻訳の質の向上はめざましい。最近それを理由に｢もうじき他言語を学ばなくてもいい日が来る｣といった意見を目にすることがある。しかし、そう考えることには二つの問題がある。

人間編では一つめの問題として、｢言語｣と｢翻訳｣の面から見た問題を解説した。このアルゴリズム編では、二つめの問題である現在の機械翻訳に関する問題を解説する。｢言語｣と｢翻訳｣についての理解がないと機械翻訳の問題を語ることはできないので、人間編を未読の方はこの機会にお読みいただけたらと思う。

・関連記事：｢他言語を学ばなくてもいい日｣は来ない。言語と翻訳人間編｜abcxyz - FUZE

機能する機械翻訳

誰でも無料で使うことができ、我々の身近に存在しているグーグル翻訳やエキサイト翻訳。これらは機械翻訳の代表的存在になっているが、より特化した有料のサービスも存在する。聞くところによれば、そのサービスはかなりの精度で文脈を判断できるようだ。まずは、公の機関が活用している機械翻訳について書いていこう。

パターン性が高いものは翻訳しやすい文章であり、統計的機械翻訳はこれに適している

欧州連合が採用している機械翻訳｢MT@EC｣（Machine Translation at European Commission）は、書式が統一された文書を欧州連合の24の公式言語（とノルウェーの書き言葉）のどのペアとも翻訳できる。MT@ECはMOSESという統計的機械翻訳（SMT／Statistical Machine Translation）エンジンをベースに、過去数十年に渡って人間が翻訳してきた膨大な情報量の翻訳メモリ（＊）から書類の構成と書式を可能な限り最大限に保ったまま翻訳することが可能となっている。

＊翻訳する際に原文と翻訳文をデータベースにすることで、後の翻訳に役立てるツールのこと

｢どうせヨーロッパの言語なんて似たようなものだから簡単なんだろ｣と思われるかもしれないが、それは違う。ヨーロッパの多くの原語はインド・ヨーロッパ語族だが、フィンランド語やエストニア語、ハンガリー語はウラル語族だし、マルタ語はアフロ・アジア語族だ。また、語族が同じだからといって同語族間の翻訳が容易なわけではない。ヒンディー語と英語は同じ語族だ。ただ、行政書類のようにパターン性が高いものは翻訳しやすくMT@ECのような統計的機械翻訳はこれに適しているのだろう。

MT@ECが可能な限り最大限に内容を保って翻訳したとしても、これは一般人には使用できないものだ。だから、｢他言語を学ばなくてもいい日｣の到来には直結しない。

身近な例ーグーグルとFacebookの翻訳

より身近な機械翻訳を知るために、グーグル翻訳やFacebookの例を見てみよう。なお、グーグル翻訳は2016年からこれまでの統計的翻訳からGNMT（Google Neural Machine Translation）というニューラル機械翻訳システムに移行している。またFacebookの翻訳はWIREDによればCNN（畳み込みニューラルネットワーク、Convolutional Neural Network）を用いている。2016年までFacebookはBing翻訳を使用していたが、現在BingはTwitterに使用されている。

Facebookの投稿は、口語的で砕けた表現や投稿内外の人間関係・出来事といった文脈によって意味が変わるため翻訳が難しい。しかし表面的で口語的な文章を訳すことに関してFacebookはグーグル翻訳よりも上手くできるし、投稿の文脈も判断できているようである。グーグル翻訳はアルファベット圏で使われる顔文字を文章の一部として認識してしまうのに対し、Facebookは状況によっては顔文字まで訳せている。

フィンランド語（原語）：Nyt se on vihdoin täällä! Muutama kuukausi siinä meni, mutta nyt on uusi riisinkeitin saapunut! :) Toivotaan että tulee maukasta riisiä! xD

Facebookの場合

・英語：Now it's finally here! A few months it went, but now is a new rice cooker arrived! :) let's hope that's going to be tasty rice! XD
・日本語：やっと着いたぞ! 数ヶ月になりましたが, 今は新米炊飯器が入荷しました!! :)ぜひお米になりそうです! 美味しいご飯になりました! Xd

グーグル翻訳の場合

・英語：Now it's finally here! A few months ago it went, but now is the new rice cooker arrived! :) Hope it gets tasty rice! xD
・日本語：今では最終的にここにあります!数ヶ月はそこに行きましたが、今到着した新しい炊飯器があります!:)さんは、それが最もおいしいお米になります期待しましょう! xDさん

Facebookもグーグル翻訳も英訳は悪くないが、日本語訳はどちらもちょっと怪しい。特にグーグル翻訳は英語がほぼ直訳されており｢最終的にここに｣｢数ヶ月はそこに行きましたが｣などとなっている。いっぽうFacebookでは文脈も考慮され、｢やっと着いたぞ｣｢数ヶ月になりましたが｣など、自然な文章になっている。

参考までに、この文章はフィンランド語から日本語に、なるべく直訳した場合は

今それはようやくここにある! 数ヶ月そこで行った、しかし今新しい炊飯器が着いている!:) 願いましょう来ることを美味しいご飯を! xD

となり、より自然な訳にすれば

やっと来た!数カ月待ったけど新しい炊飯器が着いた!:) 美味しいご飯ができるといいね! xD

となる。

使用するデータが英語を介せば、翻訳された非英語言語もまた英語を介した思考と変わらなくなる

口語が苦手なグーグル翻訳が上手く翻訳できるのは、よりかしこまった文章だ。

フィンランド語（原語）：Olisiko kuitenkin ollut pienempi paha antaa Ylen kirjoitella Sipilä-suvun Terrafame-pelleilystä, jonka kansa olisi kuitenkin unohtanut kahden viikon sisällä, kuin tulla muistetuksi pääministerinä, joka tahrasi Suomen kansainvälisen maineen lehdistönvapauden mallimaana？

Facebookの場合

・英語：Do you have, however, was the lesser evil to upchuck write sipilä family Terra Fame to be toyed with, whose people, however, would be forgotten within two weeks, than to be remembered as prime minister, who was a stain on the reputation of the Finnish International Press Freedom as a model？
・日本語：しかし, あなたはあるが, 私たちの人々は, 私たちの人々は, その人たち人々のために, 週間以内に忘れ去られたものである. しかし, 私たちの名声は, 誰のことであるかを知らないようにするフィンランドの国際報道はモデルとしての自由ですか？

グーグル翻訳の場合

・英語：But would it have been less wicked to let Yle write about the Terrafame scandal of the Sipilä family, which the people would have forgotten within two weeks than to be remembered as prime minister who stained Finland's international reputation as a model country for freedom of the press？
・日本語：しかし、あまり悪は人々が真剣モデル国としてプレスのフィンランドの自由の国際的な評判を損傷した首相、として記憶されるように、2週間以内に忘れられるだろうとゲームをプレイするにSipiläファミリー-Terrafameを書くに昇格与えるたべきでしょうか？

Facebookの日本語訳は原文の意味をとどめないほど崩壊し、言葉を繰り返している。yasuhisa's blogでは、グーグル翻訳での同様な例が挙げられているが、原因はEncoder-decoderモデルにあるのではないかと考察している。

もうひとつ例を挙げよう。

フィンランド語（原語）：Sukupuolten epätasa-arvosta kärsivät myös miehet. Tämä unohtuu ihmisiltä turhan usein.

Facebookの場合

・英語：Gender inequality are suffering men also. Forget about it. People too often.
・日本語：男女の不平等が人間に苦しんでいる. それは忘れてください. 人も多いですね

グーグル翻訳の場合

・英語：The gender inequality is also affected by men. This is often forgotten by people.
・日本語：ジェンダー不平等にも男性に苦しみます。これは、あまりにも頻繁に人々を忘れて。

興味深いのは、Facebookの翻訳が｢人間に苦しんでいる｣としたことだ。これは英語を介した間接翻訳による誤訳だ。グーグル翻訳では英語で｢men｣と翻訳された｢miehet｣を正しく｢男性｣と翻訳している。しかしこちらも、直接日本語に訳しているのか怪しい。フィンランド語の｢Oliko hyvä？｣（よかったですか？）という文章はグーグル翻訳だと｢それがよかったですか？｣と不必要な代名詞｢それ｣が入っている。英訳においても｢Was it good？｣と、元の文章には入っていない代名詞｢it｣が入り込む。

グーグル翻訳もFacebookも直訳ではなく｢原語-英語-翻訳先言語｣という段階を踏んでいる（間接翻訳はより質が低くなることについては第一部に記している）。しかしグーグル翻訳は｢Zero-shot translation｣という手法を取ることで、間接翻訳ではなくソース原語とターゲット言語の直訳を可能にしているようだ。

Google Research Blogでは、日本語、英語、韓国語のなかで日英、韓英の翻訳ペアが機能する状況にあり、これまでに一度も翻訳したことのない（＝Zero-shot）日韓の翻訳を可能にする機能がGIFアニメとともに説明されている。この説明を見る限り、既存の直接翻訳ペア2組をもとに直訳されていない言語ペアを翻訳するわけだが、｢既存の直接翻訳ペア｣データは結局のところ｢ある言語と英語｣である場合が多い。したがってほとんどの場合は英語をはさんだ間接翻訳にしかなっていないのだ。もしかしたらFacebookも同じ手法を用いているかもしれないが、使用するデータが英語を介せば｢ほかの言語を英語で考えている状態｣と変わらない。その思考で翻訳された非英語言語もまた英語を介したものと変わらなくなるのだ。

Image: Lemberg Vector studio/Shutterstock

ある二言語を翻訳するためには、それらの言語の範囲で考えないといけない

もしグーグルのZero-shot翻訳が、そのほかの言語の知識を介して翻訳しようとしているのであれば、そこで問題が起こる。

日本語の｢私｣、｢俺｣、｢おら｣、｢拙者｣、｢わし｣やフィンランド語の｢Minä｣、｢Mä｣、｢Mie｣、｢Miä｣、｢Myö｣といったバリエーションのある一人称が英語で｢I｣となると学習された場合、どうやって日本語とフィンランド語を正しくペアリングできるというのだろう？それに日本語の一人称代名詞は、ヨーロッパのそれとは違う存在だ。たとえば英語では主語を示すために必ず使われるが、日本語は自己と他己とを切り離すために使われるため必須ではない。つまり｢私は｣こう思うが、ほかの人はどうか知らない、といったような強調となる。英語では一人称代名詞を使うだけでは強調にならない。

また、一人称代名詞に性を内包する言語もある（日本語は性のニュアンスは表現できるが断定的なものではない）。アラビア語では二人称代名詞に性の概念があるが、英語にはない。またフィンランド語では三人称代名詞に性の概念がないが、英語にはある。このように同意義の言葉でも、直訳すると意味が通じなくなるため、二言語間の翻訳に異なる言語の知識を介すことは困難である。

ロシア語で考えるんだ
―ミッチェル・ガント『ファイアーフォックス』

Video: Warner Bros./YouTube

ある二言語を翻訳するためには、それらの言語の範囲で考えないといけない。グーグル翻訳にとっては悪いことだろうが、先の例文をフィンランド語から英訳し、さらに日本語訳すると、フィンランド語から直接日本語訳するよりもマシな翻訳文が以下のようにでてくる。

ジェンダー不平等もまた男性の影響を受けます。これはしばしば人々によって忘れられます。

言語のランダム性

いくら簡易な言葉でも、同じことを語るには限りなく多くの表現方法がある。文章のタイプによっては、我々が身近に使っている機械翻訳でも意味を損なわずに訳せるようになってきたのは事実だ。

しかし、機械翻訳がうまく訳せる文章であっても、一文字変えたり句読点やスペースが違うだけで、翻訳が意味が通じなくなる場合もある。MT@ECで用いられる統計的機械翻訳は書類のようにパターン性が高い文章には最適だろう。コーパス（参考資料としての言語データ）さえ十分にあれば、パターン性のある文章の翻訳はある程度有能なものができるはずだ。

人間なら間違いを認識しながら文脈と意図を理解できるが、機械翻訳にも同じことができなければいい翻訳は不可能だろう

だが、言語はパターンだけではできていない。ランダム性も多く含んだものだ。Google Research Blogで紹介されているCornell University Libraryに掲載された研究によれば、ニューラルネットワークを使用した機械翻訳は、遭遇した翻訳不能な語句をユーザーに表示する直前段階まで｢翻訳不明語｣として残しておき、あとで辞書よって効率的に翻訳している。これにより、英語のフランス語訳でBLEU（機械翻訳の質を示すアルゴリズム）の得点を向上させることができたという。

しかし実際の言語のランダム性は、珍しい単語にとどまらない。新たな単語は辞書の更新速度よりも早く生まれて使用されるし、現存の単語も文脈によって新たな意味が与えられる。オノマトペなどは、これまで一度も同じ使われ方をされたことがなくても語感で判断がつくだろう。それらは言語を用いる環境においては自然に理解されるが、その場限りの文脈であるために機械翻訳が難しい。

また、完全に間違った語句が含まれていても文脈で別の語との間違いであることが判別できたり、間違ったスペルや言い方も｢今の言い方オカシイけどこれはきっとあの意味だ｣と理解できる。

これに関してはイギリス医学研究評議会のCognition and Brain Sciences Unitが詳しい。英語では単語の最初と最後の文字と、使用されている文字が正しければ並び順が関係なく理解できる。
｢Do you udnretsnad tihs sencnete？｣→｢Do You understand this sentence？｣

完全に間違った部分ならまだしも文法的に正しいが文脈的におかしかったり、スペルは間違っているがほかの語に当てはまってしまう微妙な誤差も（｢How was the election night？｣と訊きたいときに｢l｣と｢r｣を間違えるなど）、人間なら間違いを認識しながら文脈と意図を理解できるが、機械翻訳にも同じことができなければよい翻訳は不可能だろう。

またダニエル・キイスによる『アルジャーノンに花束を』のようにわざと間違えて書かれた文章も、その意図を汲み取って翻訳することは今の機械翻訳には無理だ。目指す先にもこのような作品の翻訳はふくまれないだろう。

Image: Giovanni Cancemi/Shutterstock

会話を翻訳することの難しさ

文章に現れるランダム性も難しいが、それが生のテキストチャットの翻訳となると別の難しさがでてくる。すでに書かれた文章が｢ピンで止められた昆虫｣標本だとすれば、その昆虫が動き出すようなものだ。会話の行き先は誰も知らないし、流れとは別の環境からの影響（例：水をこぼすなどして片方の話者からのインプットが止まる、急にチャット外で人に話しかけられる etc.）が入りこんだとき、急に文脈が変わったことを判断してそれに翻訳が対応できるだろうか。

これが通訳（＝音声ベースの生の会話の翻訳）となればその難度は大きく上がる。新たな次元を足すようなものだ。

生の会話では、考えるよりも先に口から言葉が出たりして、何度も否定型を重ねて肯定的な意味の文脈を作ったりもする。MicrosoftはTrueTextという方法で、これは｢えっと、いいえ、つまり...はい｣という文章から、言いよどみを削除して｢はい｣という意図を抽出してから翻訳するという手法だ。これはある意味｢超訳｣的で、わかりやすく（そして多分訳しやすく）はなるが、翻訳には元の情報をなるべくとどめたほうが正確という性質もある。先の文章では、話者が自信を持って断定的に話をしているように聞こえてしまうだろう。｢超訳｣により消えた生の会話の言いよどみをふくむニュアンスは、ビジネスはもちろんただの会話であっても考慮されるべきではないだろうか。｢えっと、いいえ、つまり...はい。すみません、睡眠不足で頭が動いていないようで｣を｢はい。すみません、睡眠不足で頭が動いていないようで｣としても意味が通じなくなるのだから。

会話では、会話中の間（ま）、声のトーン、声色の使いわけにより話のニュアンスや、語句の意味のポジティブ／ネガティブも入れ替わる。人間ですら言われたことの隠れた意味に気づかないこともあるのに、それを機械翻訳が認識するようになるのだろうか。現状の機械翻訳ではそれらの重要な情報を認識せずに、ただ音から聞き取ることのできる文章のみを文字起こししてから翻訳するものがほとんどのようだ。

人間による最終チェックの必要性

人間の翻訳という仕事はなくならないだろう。とはいえ、機械翻訳は進化し続けている。もしこのままいけば、人間の翻訳者が仕事を失うのではないかという危惧も出てくるだろう。欧州連合の例のように、書式の定まっている書類などは機械翻訳の使用頻度が増えることで質も高まっていき、人間による翻訳が減るかもしれない。

もしも文学翻訳者が機械に置き換えられる日が来るとすれば、それは人間のように考えることができる人工知能が現れたさらに先のことである

しかしそれでも内容の確認は使用された言語を理解する人間が行なわないといけない。これは機械による大量生産品も人間のチェックが必要なのと同じである。定型のものを無数に作る大量生産の品質確認と比べれば、それぞれの文がユニークな翻訳は確認に時間と人手が必要となるだろうし、修正が必要な箇所は人間が手直ししなければいけないだろう。

FacebookやGoogle翻訳はユーザーが内容を評価し、手直しするというシステムを用いている。不特定多数のユーザーが幾度となく機械翻訳サービスを使うことで学習し、性能の向上を目指すというのはわかる。だが、そもそも両言語を理解していれば翻訳サービスは使用しないし、翻訳を必要とするユーザーであればそれが｢正しい｣翻訳かどうか正確な評価を下すことはできない。誤訳があっても翻訳後の文章がある程度自然だったらそれを｢よい翻訳｣と評価してしまいかねず、チェックとしては不適切なはずだ。Google翻訳では、誤訳や意図的に人物の名前が別のものに翻訳されることが多々ある。

記事執筆時点の6月14日でも人力検索はてなに載っている｢Shorebird｣（海岸に生息する鳥）が｢ショウジョウバエ｣（英語でこれに当たるのはDrosophilidae科、fruit flyなどが含まれる）と訳されてしまう例があげられる。

電卓の計算が正しいかどうか自分で計算する人はまれだろう。機械翻訳が電卓ほどに信頼を勝ち得るまでは人間による補助が必要なはずだ。いっぽうで、複雑な文脈を持った文章はしばらくのあいだ機械翻訳に置き換えられる心配は少ないだろう。

もしも文学翻訳者が機械に置き換えられる日が来るとすれば、それは人間のように考えることができる人工知能が現れた、さらに先のことである。

究極の翻訳の行き着く先は｢人間らしさ｣

数学と違い、翻訳に唯一の正解はない。その点で翻訳はアートに近い存在ともいえよう。ところで現在計算機には創作ができないのに、機械翻訳に創作ができるだろうか。

・オススメ記事：AIの創作を過大評価する人間。人工知能はアートの主体か、単なる計算機か｜abcxyz - FUZE

もしもSF映画のように人間の脳を再現し、思考できる汎用人工知能が完成すれば、人間と同レベル、もしくはそれ以上の能力を持つ翻訳ができるだろう。今の機械翻訳は｢枠｣に入った存在だ。その枠は形や大きさを変え、進化しつつある。しかし言語は無限だ。人間と同じく無限に考えることができるAIが現れなければ、人間と同レベルの翻訳を行なうことは不可能だ。人間が脳というOSの枠内で機能するコンピューターだとすれば、機械翻訳も｢人間の脳｣ほどに拡張された枠を必要とするだろう。

Video: Warner Bros. Home Entertainment/YouTube

Blade Runner 30th Anniversary Trailer

More human than human, is our motto.
-タイレル博士『ブレードランナー』より

人間の脳を完全再現した人工知能があれば、初めの段階であるTabula rasa（白紙状態）の脳に言語を習得させ、翻訳ができるようになるかもしれない。人間のように考えることのできるAIならば、スコポス（目的）も考えられるだろうし、言語、社会、時事問題などの知識を素早く入手し、多く蓄積することも可能だろう。そうなれば、人間より優れた翻訳者になるかもしれない。

Video: YouTube

銀河ヒッチハイク・ガイド（吹き替え） - 予告編

しかしそうなれば、人間の5万倍知性があるがそれが活かされないことで鬱になったロボット『銀河ヒッチハイクガイド』のマーヴィンや、『スター・ウォーズ』に登場する銀河の種族間の習慣と600万以上の言語をプログラムされた神経質なC-3POのように個性が生じるだろう。

Video: StarWars/YouTube

Star Wars Episode V: The Empire Strikes Back - Trailer

つまり人間の脳と同じ仕組みで動くものは人間と変わらないものであり、そこには必然的に個性や自発性がでてくる。｢翻訳をやりたくない｣と言われるかもしれないし、嘘をつく可能性だってある。そんな存在を無理矢理働かせることは、奴隷をこき使うのとどう違うだろうか。こちらは友人が制作した、翻訳を拒否するAIの風刺画だ。

Facebookの翻訳による汎用人工知能が翻訳する未来の風刺｢翻訳することを拒否するAI｣

｢他言語を学ばなくてもいい日｣は来るか？

人間編で書いたように、どんなに優れた翻訳であっても原文とまったく同じ内容を伝えることは不可能だ。そのため、自分の知らない言語で書かれたものを理解したいのであれば、｢他言語を学ばなくてもいい日｣はいつまでたっても来ない。

文章の要点だけの理解で満足するのであれば、今日でも5,000年前ですら｢他言語を学ばなくてもいい日｣だったし、これから何千年経ってもその日でありつづける。翻訳を確かめる技術や知識がなければ、翻訳結果をただ盲信するしかない。

・オススメ記事：将来｢頭で考える｣だけでFacebookができるように？ F8で発表された脳直結コンピューター技術とは｜mayumine - FUZE

ほかの言語で提供される情報を理解したければ、言語を学習するのが一番気軽で手っ取り早い方法でありつづけるだろう。言語学習についても書きたいことはあるが、それはまた別の機会にしよう。

｢他言語を学ばなくてもいい日｣についてあなたの体験、考え、気持ちを聞かせてください。Twitterでの投稿は #機械翻訳 をつけて、ライター＆編集部へ直接送るにはメール（fuze-pitch [at] mediagene.co.jp）かLINE@の1：1トークを使ってください。

Image: Shutterstock
Source: 村上春樹の小説のフィンランド語訳における翻訳ストラテジーの分析/Petra Ando
Reference: CEF Digital, WIRED, yasuhisa's blog, Google Research Blog（1・2）, Google Japan ブログ, Cornell University Library, Cognition and Brain Sciences Unit, Microsoft, MOSES, YouTube（1・2・3・4）, 人力検索はてな, Wikipedia（1・2・3・4・5・6）

CategoryDIGITAL CULTURE

目的と価値消失

#カルチャーはお金システムの奴隷か？

日本人が知らないカルチャー経済革命を起こすプロフェッショナルたち