번역을 다루기위한 전통적인 기계 학습 기술은 지난 몇 년 동안 예술의 큰 최첨단 개선을 보았습니다. 그러나 그들은 여전히 언어 가계도에서 멀리 떨어진 언어로 어려움을 겪고 있습니다. 예를 들어, 영어 및 중국어/한국/일본어.
이러한 모델이 이러한 작업과 어려움을 겪고있는 이유 (맥락을 추정 할 수없고, 격렬하게 불일치 한 문법 등), 나는 다국어 공동으로 훈련 된 충분한 규모의 선행 된 대형 언어 모델 (LLM)이 어떻게 수행 될지 궁금했습니다. 이중 언어 LLM이 번역 작업에서 이중 언어 인간을 근사화 할 수 있습니까?
물론 첫 번째 단계는 테스트 모델을 선택하는 것이 었습니다. 충분한 규모로 훈련을 받고 문제의 두 언어에 대해 동일하거나 동등한 교육 데이터 표현을 갖춘 이중 언어 또는 다국어 모델은 거의 없습니다. THUDM의 팀은 각 영어와 중국어 (총 400B)의 2 천억 토큰으로 훈련 된 이중 언어 LLM 인 GLM-130B를 훈련하고 공개해 주셔서 감사합니다. (https://github.com/thudm/glm-130b).
이것은 테스트에 사용되는 주요 모델입니다. 여기에서 사용 가능한 데모 -https://huggingface.co/spaces/thudm/glm-130b GLM-130B는 지시-파이 튜닝되지 않았으므로 번역을위한 몇 가지 샷 또는 원샷 프롬프트 전략이 필요하기 때문입니다. 예비 테스트에서, 나는 소수의 샷 예제의 복잡성과 품질과 번역의 복잡성과 품질에 약간의 상관 관계가 있음을 알 수 있습니다. 결과적으로, 나의 원샷 프롬프트에는 짧은 구절과 영어로 번역되고 출판 된 중국 책의 해당 번역이 포함됩니다.
GLM-130B의 원샷 프롬프트
Chinese: 同北京许许多多同龄的老市民一样,薛大娘现在绝不是一个真正迷信的人,她知道迷信归根结蒂都是瞎掰,遇上听人讲述哪里有个老太太信神信鬼闹出乱子,她还会真诚地拍著大腿笑著说几句嘲讽的话;但她又同许许多多同龄的老市民一样,内心还揣著个求吉利的想法。
English: Like many Beijingers her age, she isn’t really superstitious—when you come right down to it, it’s just a bunch of random nonsense. Stories of old ladies fussing about visits from gods or ghosts have her slapping her thigh and making some cutting remark. Yet, also like many Beijingers her age, she has her own ideas about summoning good luck.
Chinese: Chinese text to translate
English: [gMASK]매개 변수는 기본값을 제외하고 기본적입니다
Open AI의 GPT 모델은 극단적 인 영어 편향 (~ 92.6% 영어별로 ~ 92.6% 영어) (https://github.com/openai/gpt-3/blob/mas 그러나 한 언어의 역량은 충분한 규모의 LLM (매우 대규모 영어 모델 https : //arxiv.org/abs/2108.13349의 다국어 기능에 따라 다른 언어로의 역량으로 출혈하는 것처럼 보이기 때문에 비교에 Chatgpt 번역이 포함되어 있습니다. chatgpt가 명령에 정렬되므로 간단한 번역 명령이 충분하고 사용됩니다. 유창성 및 유동성을 우선시하는 특정 지침 또는 예는 더 나은 결과를 얻을 수 있습니다.
Meta의 NLLB-200은 기계 번역 벤치 마크에서 최첨단 결과를 달성했으며 비교됩니다.
테스트를 위해서는 기계 번역을위한 특히 어려운 영역 인 문헌을 선택합니다. 21 개의 구절이 GLM-130B로 번역되었으며 Deepl, Google Translate, Chatgpt 및 NLLB-200-1.3B와 비교했습니다. 구절은 5 개의 소설에서 샘플링됩니다. Liu Xinwu의 결혼식 파티, Yan Ge의 중국의 Strange Beasts, Fei Yanfu의 Amber Sword, Jiang Rong 및 Supergene의 Wolf Totem. 구절은 무작위로 선택됩니다. 그들은 체리 픽 또는 재생되지 않습니다.




















