Chat with us, powered by LiveChat

カスタムニューラル機械翻訳の構築プロセス

新しいカスタムニューラル機械翻訳エンジン(CNMTE)を起動するには、Trusted Translationsは初期トレーニングとセットアップ期間を必要とします。新たなNMTエンジンを構築するための典型的な実装プロセスを以下に示します。

ベースとなるエンジンの選択

アルゴリズムの民主化に伴って多数のコンテンツが開発されています。ただし、この概念はより包括的なものでなければなりません。たとえば、技術的ソリューションの民主化により、強固なベースラインエンジンが、カスタマイズされたソリューションを構築するための優れた基盤になり始めています。Google、Microsoft、またはAmazonによって提供されるサービスは、十分に訓練されたエンジンにクリーンデータを提供するのに役立ちます。

データ選択とコーパスの準備

カスタマイズされたエンジンを構築するためのトレーニングデータを収集するには、さまざまなアプローチがあります。

  • 既存の翻訳コンテンツ:

    カスタムニューラル機械翻訳エンジンの理想的な出発点は、翻訳される内容と可能な限り類似したコンテンツを含む、以前に翻訳された資料を見つけて利用することです。以前翻訳された資料があればあるほど、プロセスはより速く、より経済的になります。ソースとターゲットが翻訳メモリユニットとして関連付けられていない場合、アライメントを実行して、エンジンのパフォーマンスを向上させるために必要なバイリンガルコンテンツを取得できます。

  • 既存の単一言語データ:

    十分な量のターゲット参照コンテンツが存在する場合、それをデータとして追加することにより、すべてのスタイルと用語を活用できます。このコンテンツは、現地のSMEによって一から作られた可能性があり、その価値は計り知れません。言うまでもなく、ドメインまたはクライアント固有の用語は、用語が主な弱点とされているNMT技術に基づいてエンジンをカスタマイズする際の有力な資産です。

  • 他のソースから特殊なコーパスの作成:

    単一言語のデータを利用することに加えて、エンジンを介して実行されるコンテンツに可能な限り近い資料をウェブで検索します。最高品質のコーパスの検索に時間をかけることはまた、成果をもたらします。データ市場から取得できるバイリンガルデータにも同じことが当てはまります。この外部並列データは、MTシステムのトレーニングデータとして使用する前に、クリーンアップ(スペルチェック、アライメントチェック、重複の削除など)する必要があります。この状況ではクライアントが最初から十分な量の高品質の整合データを提供できる場合と比較して、はるかに多くの手間をかける必要があります。新しいエンジンの構築には4~6週間かかります。

より多くの出力データがポストエディットされると、これを高品質のリトレーニングデータに変換できます。この適応モデルは、システムからの出力の品質を時間の経過とともに迅速に改善します。

リトレーニング:新しいCNMTEは人間によるポストエディットによって改善されます

カスタムニューラル機械翻訳エンジンにはさまざまなワークフローがあります。一般的な設定の一つとしては、人間のポストエディットプロセスを統合することです。このワークフローでは、カスタムニューラル機械翻訳エンジンからの出力が専門の翻訳者によって編集されることにより現在の出力の品質が向上するだけでなく、次からの翻訳のためにエンジンがリトレーニングされます。レビュアーが翻訳出力を変更して品質を向上させる一方で、エンジンは動的な適応モデルを使用してより賢くなります。さらに、より多くの翻訳がエンジンを通るにつれて、エンジンは時間とともにさらに賢くなります。つまり、完全な人間の翻訳とこのソリューションとの品質のギャップは劇的に狭まりますが、所要時間とコストは大幅に削減されます。これらのエンジンは、そのようなニーズを持つクライアントにとっての資産であり、市場における差別化をもたらします。