Transformer (NMT)

模型描述

Transformer 在論文 Attention Is All You Need 中被提出,它是一種強大的序列到序列建模架構,能夠生成最先進的神經機器翻譯 (NMT) 系統。

最近,fairseq 團隊探索了使用回譯資料對 Transformer 進行大規模半監督訓練,進一步提高了翻譯質量。更多詳細資訊請參見 這篇博文

要求

預處理需要一些額外的 Python 依賴項

pip install bitarray fastBPE hydra-core omegaconf regex requests sacremoses subword_nmt

英法翻譯

使用論文 Scaling Neural Machine Translation 中的模型進行英法翻譯

import torch

# Load an En-Fr Transformer model trained on WMT'14 data :
en2fr = torch.hub.load('pytorch/fairseq', 'transformer.wmt14.en-fr', tokenizer='moses', bpe='subword_nmt')

# Use the GPU (optional):
en2fr.cuda()

# Translate with beam search:
fr = en2fr.translate('Hello world!', beam=5)
assert fr == 'Bonjour à tous !'

# Manually tokenize:
en_toks = en2fr.tokenize('Hello world!')
assert en_toks == 'Hello world !'

# Manually apply BPE:
en_bpe = en2fr.apply_bpe(en_toks)
assert en_bpe == 'H@@ ello world !'

# Manually binarize:
en_bin = en2fr.binarize(en_bpe)
assert en_bin.tolist() == [329, 14044, 682, 812, 2]

# Generate five translations with top-k sampling:
fr_bin = en2fr.generate(en_bin, beam=5, sampling=True, sampling_topk=20)
assert len(fr_bin) == 5

# Convert one of the samples to a string and detokenize
fr_sample = fr_bin[0]['tokens']
fr_bpe = en2fr.string(fr_sample)
fr_toks = en2fr.remove_bpe(fr_bpe)
fr = en2fr.detokenize(fr_toks)
assert fr == en2fr.decode(fr_sample)

英德翻譯

透過回譯進行的半監督訓練是改進翻譯系統的有效方法。在論文 Understanding Back-Translation at Scale 中,我們回譯了超過 2 億個德語句子作為額外的訓練資料。由其中五個模型組成的整合系統是 WMT’18 英德新聞翻譯競賽 的獲勝提交作品。

我們可以透過 噪聲通道重排序 進一步改進這種方法。更多詳細資訊請參見 這篇博文。使用這種技術訓練的模型整合系統是 WMT’19 英德新聞翻譯競賽 的獲勝提交作品。

使用獲勝提交作品中的一個模型進行英德翻譯

import torch

# Load an En-De Transformer model trained on WMT'19 data:
en2de = torch.hub.load('pytorch/fairseq', 'transformer.wmt19.en-de.single_model', tokenizer='moses', bpe='fastbpe')

# Access the underlying TransformerModel
assert isinstance(en2de.models[0], torch.nn.Module)

# Translate from En-De
de = en2de.translate('PyTorch Hub is a pre-trained model repository designed to facilitate research reproducibility.')
assert de == 'PyTorch Hub ist ein vorgefertigtes Modell-Repository, das die Reproduzierbarkeit der Forschung erleichtern soll.'

我們還可以進行往返翻譯來建立釋義

# Round-trip translations between English and German:
en2de = torch.hub.load('pytorch/fairseq', 'transformer.wmt19.en-de.single_model', tokenizer='moses', bpe='fastbpe')
de2en = torch.hub.load('pytorch/fairseq', 'transformer.wmt19.de-en.single_model', tokenizer='moses', bpe='fastbpe')

paraphrase = de2en.translate(en2de.translate('PyTorch Hub is an awesome interface!'))
assert paraphrase == 'PyTorch Hub is a fantastic interface!'

# Compare the results with English-Russian round-trip translation:
en2ru = torch.hub.load('pytorch/fairseq', 'transformer.wmt19.en-ru.single_model', tokenizer='moses', bpe='fastbpe')
ru2en = torch.hub.load('pytorch/fairseq', 'transformer.wmt19.ru-en.single_model', tokenizer='moses', bpe='fastbpe')

paraphrase = ru2en.translate(en2ru.translate('PyTorch Hub is an awesome interface!'))
assert paraphrase == 'PyTorch is a great interface!'

參考文獻

用於英法和英德翻譯的 Transformer 模型。

模型型別: Nlp
提交者: Facebook AI (fairseq 團隊)