皆さん、自動翻訳はお使いですか?
業務で自動翻訳を使うことになり、Python経由で使うときに情報の多いGoogle翻訳とDeepL翻訳を比較してみました。
なお、筆者は翻訳の専門家ではなく、訳文の妥当性は大学教養程度の知識で判断しています。
Google翻訳
言わずと知れたGoogleによる翻訳サービスです。学生時代に英語論文をGoogle翻訳していた方も多いのではないでしょうか(Google翻訳だけして内容を理解しないままだと、専門用語の誤訳で理解していないのがばれてゼミが炎上しますよね!)。
2020年2月時点で108言語に対応しています。
https://www.itmedia.co.jp/news/articles/2002/27/news052.html
今回示すのは、無料のPythonパッケージgoogletransを使って得た結果です。
googletransは動作が不安定なので、本格的に用いる場合は有料のGoogle Translation APIの使用が推奨されます。
料金は最初の 500,000 文字が無料、以後10億文字までは 1,000,000 文字あたり$20(翻訳前の文字数)です(https://cloud.google.com/translate/pricing/?hl=JA)。
DeepL翻訳
ドイツのDeepL社による翻訳サービスです。2020年3月に日本語対応しました。対応言語は日本語・英語のほか、ドイツ語、フランス語、スペイン語、ポルトガル語、イタリア語、オランダ語、ポーランド語、ロシア語、中国語です(https://www.deepl.com/ja/pro-faq.html)。
APIは月額費用¥630に加え、従量課金1,000,000文字あたり¥2,500(翻訳後の文字数)となっています(https://www.deepl.com/pro?cta=menu-plans#pricing)。
今回示すのはAPIではなく、サイトのテキストボックスに入力して得た結果です。
データ
英語の質問回答のデータセットであるSQuAD 2.0(https://rajpurkar.github.io/SQuAD-explorer/)の一部を和訳しました。数センテンスのまとまった文章であるcontextに対して内容を問うquestion、そのquestionに対するanswerが存在します。
今回はcontextの一部を抜き出して翻訳しました。以下では便宜上、元のデータにない番号とタイトルをつけてあります。
自動翻訳の例
Google翻訳で不自然な部分を黄色、DeepL翻訳で不自然な部分を緑(どちらも不自然な場合は便宜上黄色)、特に不自然ではないが注目してほしい部分を青でマークしました。
1. ノルマン人
原文
The Normans (Norman: Nourmands; French: Normands; Latin: Normanni) were the people who in the 10th and 11th centuries gave their name to Normandy, a region in France. They were descended from Norse (“Norman” comes from “Norseman”) raiders and pirates from Denmark, Iceland and Norway who, under their leader Rollo, agreed to swear fealty to King Charles III of West Francia. Through generations of assimilation and mixing with the native Frankish and Roman-Gaulish populations, their descendants would gradually merge with the Carolingian-based cultures of West Francia. The distinct cultural and ethnic identity of the Normans emerged initially in the first half of the 10th century, and it continued to evolve over the succeeding centuries.
ノルマン人(ノルマン人:ノルマン人、フランス語:ノルマン人、ラテン語:ノルマン人)は、10世紀から11世紀にかけて、フランスの地域であるノルマンディーに名前を付けた人々です。彼らは、デンマーク、アイスランド、ノルウェーからの北欧(「北欧」は「北欧」に由来)の襲撃者と海賊の子孫であり、彼らの指導者ロロの下で、西フランク王国のチャールズ3世に忠誠を誓うことに同意した。何世代にもわたる同化とネイティブのフランク人とローマ・ガリア人の集団との混合を通して、彼らの子孫は徐々に西フランクのカロリング朝を基盤とする文化と融合するでしょう。ノルマン人の独特の文化的および民族的アイデンティティは、最初は10世紀の前半に現れ、その後の数世紀にわたって進化し続けました。
DeepL
ノルマン人(Norman: Nourmands、フランス語: Normands、ラテン語: Normanni)は、10世紀から11世紀にかけてフランスのノルマンディー地方にその名を与えた人々である。彼らは、デンマーク、アイスランド、ノルウェーからやってきた北欧人(「ノルマン」は「Norseman」に由来)の襲撃者や海賊の子孫で、彼らのリーダーであるロロロの下で、西フランシア王シャルル3世に忠誠を誓いました。彼らの子孫は、何世代にもわたって同化し、原住民であるフランク人やローマ・ゴール人との混血を経て、西フランシアのカロリング地方の文化と徐々に融合していきました。ノルマン人の文化的・民族的アイデンティティーは10世紀の前半に現れ、その後も何世紀にもわたって発展していきました。
所感
歴史的・地理的な固有名詞が多く、自然な機械翻訳が難しいトピックかもしれません。
Google翻訳では、原文で各言語でのノルマン人の名称を並べた部分
- Norman: Nourmands; French: Normands; Latin: Normanni
ノルマン人:ノルマン人、フランス語:ノルマン人、ラテン語:ノルマン人
と訳され、何のことなのかわからなくなっていますが、DeepL翻訳ではほぼ自然に訳出されています。
同様に、原文の
- Norse (“Norman” comes from “Norseman”)
北欧(「北欧」は「北欧」に由来)
と意味がわからなくなっていますが、DeepLでは北欧人(「ノルマン」は「Norseman」に由来)
です。これも Norse を「北欧人」と訳して Norsemanとの対応がとれなくなっており、一読して意味がよくわからないものの、全部「北欧」と訳すよりは自然と思われます。
フランク王国関係の名詞(緑でマーク)はおおむねGoogle翻訳の方がDeepLより適切でした。DeepLでロロ(Rollo)が「ロロロ」になっているのは誤学習でしょうか。
「シャルル3世」のみはDeepLの方が妥当と思われる日本語表記ですが、Google翻訳の「チャールズ3世」でも大幅な間違いではありません。黄色でマークしたwouldはGoogle翻訳が仮定法と解釈したと思われるのに対し、DeepLでは適切に訳出しています。
2. 計算複雑性理論
原文
Computational complexity theory is a branch of the theory of computation in theoretical computer science that focuses on classifying computational problems according to their inherent difficulty, and relating those classes to each other. A computational problem is understood to be a task that is in principle amenable to being solved by a computer, which is equivalent to stating that the problem may be solved by mechanical application of mathematical steps, such as an algorithm.
計算複雑性理論は、理論計算機科学における計算理論の一分野であり、計算問題を固有の難しさに応じて分類し、それらのクラスを相互に関連付けることに焦点を当てています。計算上の問題は、原則としてコンピューターで解決できるタスクであると理解されています。これは、アルゴリズムなどの数学的ステップを機械的に適用することで問題を解決できると述べることと同じです。
DeepL
計算複雑性理論(Computational complexity theory)とは、理論計算機科学における計算理論の一分野であり、計算問題をその固有の難易度に応じて分類し、その分類を互いに関連付けることに焦点を当てています。計算問題とは、原理的にコンピュータで解決可能な課題であると理解されており、アルゴリズムのような数学的なステップを機械的に適用することで問題が解決される可能性があることを述べているのと同じである。
所感
Google翻訳、DeepLともに特に問題はなさそうです。計算複雑性理論(Computational complexity theory)
と、カッコつきで原語を示しているのがDeepLの特徴です。
3. 南カリフォルニア
原文
Southern California, often abbreviated SoCal, is a geographic and cultural region that generally comprises California\’s southernmost 10 counties. The region is traditionally described as “eight counties”, based on demographics and economic ties: Imperial, Los Angeles, Orange, Riverside, San Bernardino, San Diego, Santa Barbara, and Ventura. The more extensive 10-county definition, including Kern and San Luis Obispo counties, is also used based on historical political divisions. Southern California is a major economic center for the state of California and the United States.
南カリフォルニアは、しばしばSoCalと略され、一般的にカリフォルニアの最南端の10の郡を含む地理的および文化的地域です。この地域は、人口統計と経済的つながりに基づいて、伝統的に「8つの郡」と呼ばれています。インペリアル、ロサンゼルス、オレンジ、リバーサイド、サンバーナーディーノ、サンディエゴ、サンタバーバラ、ベンチュラです。カーン郡とサンルイスオビスポ郡を含む、より広範な10郡の定義も、歴史的な政治的区分に基づいて使用されます。南カリフォルニアは、カリフォルニア州と米国の主要な経済の中心地です。
DeepL
南カリフォルニア(Southern California、しばしばSoCalと略される)は、カリフォルニア州の最南端に位置する10の郡からなる地理的・文化的な地域である。この地域は伝統的に、人口統計学と経済的なつながりに基づいて、「8つの郡」と表現されている。インペリアル、ロサンゼルス、オレンジ、リバーサイド、サンバーナーディーノ、サンディエゴ、サンタバーバラ、ベンチュラ。カーン郡とサンルイスオビスポ郡を含む、より広範な10郡の定義も、歴史的な政治的区分に基づいて使用されている。南カリフォルニアは、カリフォルニア州とアメリカ合衆国の主要な経済の中心地である。
所感
これもGoogle翻訳、DeepLともに特に問題はなさそうですが、DeepLではカンマに囲まれた同格の表現をカッコで括って訳出しているのが注目に値します。
4. 英国のテレビ会社
原文
Formed in November 1990 by the equal merger of Sky Television and British Satellite Broadcasting, BSkyB became the UK’s largest digital subscription television company. Following BSkyB’s 2014 acquisition of Sky Italia and a majority 90.04% interest in Sky Deutschland in November 2014, its holding company British Sky Broadcasting Group plc changed its name to Sky plc. The United Kingdom operations also changed the company name from British Sky Broadcasting Limited to Sky UK Limited, still trading as Sky.
BSkyBは、1990年11月にSkyTelevisionとBritishSatellite Broadcastingが同等に合併して設立され、英国最大のデジタルサブスクリプションテレビ会社になりました。 BSkyBが2014年にSkyItaliaを買収し、2014年11月にSky Deutschlandの90.04%の過半数の持分を取得した後、持ち株会社のBritish Sky Broadcasting Groupplcは社名をSkyplcに変更しました。英国事業はまた、会社名をBritish Sky BroadcastingLimitedからSkyUK Limitedに変更し、現在もSkyとして取引されています。
DeepL
1990年11月にスカイテレビと英国衛星放送の対等合併により設立されたBSkyBは、英国最大のデジタル受信テレビ会社となった。BSkyBが2014年にスカイ・イタリアを買収し、2014年11月にスカイ・ドイツの90.04%の株式の過半数を取得したことを受けて、持ち株会社であるブリティッシュ・スカイ・ブロードキャスティング・グループ・ピーエルシーは、社名をスカイ・ピーエルシーに変更した。また、英国事業もBritish Sky Broadcasting LimitedからSky UK Limitedに社名を変更し、現在もSkyとして取引されている。
所感
Google翻訳ではあまり一般的でない固有名詞がすべてアルファベットのままなのに対し、DeepLでは全部ではないものの日本語表記になっています。「ブリティッシュ・スカイ・ブロードキャスティング・グループ・ピーエルシー」はもう少し頑張ってほしい感じもありますが、日本語での自然言語処理を考えるとアルファベットよりはカタカナ化されていた方がやりやすそうです。
5. ビクトリア州
原文
The economy of Victoria is highly diversified: service sectors including financial and property services, health, education, wholesale, retail, hospitality and manufacturing constitute the majority of employment. Victoria’s total gross state product (GSP) is ranked second in Australia, although Victoria is ranked fourth in terms of GSP per capita because of its limited mining activity. Culturally, Melbourne is home to a number of museums, art galleries and theatres and is also described as the “sporting capital of Australia”. The Melbourne Cricket Ground is the largest stadium in Australia, and the host of the 1956 Summer Olympics and the 2006 Commonwealth Games. The ground is also considered the “spiritual home” of Australian cricket and Australian rules football, and hosts the grand final of the Australian Football League (AFL) each year, usually drawing crowds of over 95,000 people. Victoria includes eight public universities, with the oldest, the University of Melbourne, having been founded in 1853.
ビクトリア州の経済は非常に多様化しており、金融および不動産サービス、健康、教育、卸売、小売、ホスピタリティ、製造などのサービス部門が雇用の大部分を占めています。ビクトリア州の国内総生産(GSP)は、オーストラリアで2番目にランク付けされていますが、ビクトリア州は、鉱業活動が限られているため、1人当たりのGSPでは4番目にランクされています。文化的には、メルボルンには多くの美術館、アートギャラリー、劇場があり、「オーストラリアのスポーツの中心地」とも呼ばれています。メルボルンクリケットグラウンドはオーストラリア最大のスタジアムであり、1956年の夏季オリンピックと2006年のコモンウェルスゲームズの開催地です。このグラウンドは、オーストラリアンクリケットとオーストラリアンフットボールの「スピリチュアルホーム」とも見なされており、毎年オーストラリアンフットボールリーグ(AFL)のグランドファイナルが開催され、通常95,000人以上の観客が集まります。ビクトリアには8つの公立大学があり、最も古いのは1853年に設立されたメルボルン大学です。
DeepL
ビクトリア州の経済は非常に多様化しており、金融、不動産サービス、健康、教育、卸売、小売、ホスピタリティ、製造業などのサービス業が雇用の大部分を占めています。ビクトリア州の州総生産(GSP)はオーストラリアで2位ですが、鉱業活動が限られているため、1人当たりのGSPは4位です。文化的には、メルボルンには多くの博物館、美術館、劇場があり、「オーストラリアのスポーツの中心地」とも言われています。メルボルン・クリケット・グラウンド(Melbourne Cricket Ground)は、オーストラリア最大のスタジアムで、1956年の夏季オリンピックと2006年のコモンウェルス・ゲームズ(Commonwealth Games)の開催地でもあります。また、このグラウンドは、オーストラリアン・クリケットとオーストラリアン・ルール・フットボールの「精神的な故郷」とも言われており、毎年、オーストラリアン・フットボール・リーグ(AFL)のグランド・ファイナルが開催され、通常9万5千人以上の観客を集めます。ビクトリア州には8つの公立大学があり、最も古いメルボルン大学(University of Melbourne)は1853年に設立されました。
所感
Spiritual homeという表現がGoogle翻訳では「スピリチュアルホーム」とカタカナなのに対し、DeepLでは「精神的な故郷」と自然に訳出されています。
青でマークした固有名詞は、DeepLではカッコつきで原語の表現が併記されています。
6. ユグノー戦争
原文
Huguenot numbers peaked near an estimated two million by 1562, concentrated mainly in the southern and central parts of France, about one-eighth the number of French Catholics. As Huguenots gained influence and more openly displayed their faith, Catholic hostility grew, in spite of increasingly liberal political concessions and edicts of toleration from the French crown. A series of religious conflicts followed, known as the Wars of Religion, fought intermittently from 1562 to 1598. The wars finally ended with the granting of the Edict of Nantes, which granted the Huguenots substantial religious, political and military autonomy.
ユグノーの数は1562年までに推定200万人近くでピークに達し、主にフランスの南部と中央部に集中し、フランスのカトリック教徒の数の約8分の1でした。ユグノーが影響力を獲得し、より公然と彼らの信仰を示したとき、ますます自由な政治的譲歩とフランスの王冠からの寛容の命令にもかかわらず、カトリックの敵意は高まりました。その後、1562年から1598年にかけて、宗教戦争として知られる一連の宗教紛争が断続的に戦いました。戦争は、ユグノーに実質的な宗教的、政治的、軍事的自治権を与えたナントの勅令の付与でようやく終わりました。
DeepL
ユグノーの数は、1562年までに200万人近くに達し、主にフランスの南部と中央部に集中し、フランスのカトリック教徒の約8分の1の数に達しました。ユグノーが影響力を持ち、より公然と信仰を示すようになると、フランス王室からの自由主義的な政治的譲歩や寛容令にもかかわらず、カトリックへの敵対心が強まりました。その後、1562年から1598年まで断続的に争われた宗教戦争と呼ばれる一連の宗教対立が続きました。この戦争は最終的にナントの勅令によって終結し、ユグノーに宗教的、政治的、軍事的な実質的な自治権を与えました。
所感
「王冠からの寛容の命令」「宗教戦争として知られる一連の宗教紛争」など、Google翻訳では直訳で不自然になっている部分が、DeepLでは自然に訳出されています。
Catholic hostilityはユグノーに対するカトリックの敵意と解釈されるので、Google翻訳「カトリックの敵意」が正しく、DeepL「カトリックへの敵対心」は誤訳と思われます。
7. 蒸気機関
原文
Steam engines are external combustion engines, where the working fluid is separate from the combustion products. Non-combustion heat sources such as solar power, nuclear power or geothermal energy may be used. The ideal thermodynamic cycle used to analyze this process is called the Rankine cycle. In the cycle, water is heated and transforms into steam within a boiler operating at a high pressure. When expanded through pistons or turbines, mechanical work is done. The reduced-pressure steam is then condensed and pumped back into the boiler.
蒸気エンジンは、作動流体が燃焼生成物から分離されている外燃機関です。太陽光発電、原子力発電、地熱エネルギーなどの非燃焼熱源を使用することができます。このプロセスの分析に使用される理想的な熱力学的サイクルは、ランキンサイクルと呼ばれます。このサイクルでは、水は加熱され、高圧で作動するボイラー内で蒸気に変わります。ピストンまたはタービンを介して膨張すると、機械的作業が行われます。次に、減圧蒸気が凝縮され、ボイラーにポンプで戻されます。
DeepL
蒸気機関は、作動流体が燃焼生成物から分離されている外燃機関である。太陽光発電、原子力発電、または地熱エネルギーなどの非燃焼熱源を使用することができる。このプロセスを解析するために使用される理想的な熱力学的サイクルは、ランキンサイクルと呼ばれています。このサイクルでは、高圧で作動するボイラー内で水が加熱され、蒸気に変換されます。ピストンやタービンを介して膨張すると、機械的な仕事が行われます。減圧された蒸気は凝縮され、ポンプでボイラに戻されます。
所感
発電して蒸気機関を動かすのではなく、蒸気機関を動かして発電するので、Google翻訳・DeepLともに solar power, nuclear powerに入っている「発電」は余計で、正しくは「太陽熱、原子力」と訳出すべきと思われます(太陽熱で動く蒸気機関ってあるんですね! https://www.nedo.go.jp/content/100544820.pdf)。
mechanical workはGoogle翻訳では「作業」と誤訳されていますが、DeepLでは「仕事」と正しく訳されています。「機械的」を「力学的」にするとより自然でしょうか。
全体を通しての所感
Google翻訳・DeepLともに、英文を全体的にはかなり自然な日本語に翻訳できました。
誤訳がまったくないわけではありませんが、日本語としての自然さではDeepLに軍配が上がる結果となりました。