為進一步推動語言服務行業和產業各方對機器翻譯技術的研究應用,為機器翻譯技術產業化發展提供更加全面、系統、科學的理論支持,百度翻譯和中國外文局翻譯院智能翻譯實驗室經充分調研,聯合編寫了《2023機器翻譯技術及產業應用藍皮書》(以下簡稱“《藍皮書》”)。《藍皮書》在2023中國翻譯協會年會“未來已來:翻譯技術主題論壇”上,由中國外文局翻譯院、中國翻譯協會翻譯技術委員會、百度翻譯聯合發布。
該《藍皮書》共分五章,系統闡述了機器翻譯的發展歷程和方向,介紹了產業級機器翻譯系統和產品形式,并通過實際案例展示了機器翻譯產業應用現狀,對機器翻譯未來發展提出建議。
A. 第一章:機器翻譯對國際傳播能力建設及國家翻譯能力建設至關重要。
習近平總書記多次在國際國內重要場合講述翻譯故事,充分肯定翻譯工作對中國走向世界、世界讀懂中國的積極貢獻。機器翻譯等翻譯技術的發展對翻譯行業起到了巨大推動作用,在許多場景應用中表現出強大能力和發展潛力。翻譯行業各方應積極探索和推進人工智能、大數據、虛擬現實等技術在習近平新時代中國特色社會主義思想對外宣介、對外翻譯出版中的應用。
B. 第二章:機器翻譯的發展歷程、發展態勢及面臨的挑戰。
自1947年機器翻譯的設想被提出以來,出現了基于規則的機器翻譯、統計機器翻譯及神經網絡機器翻譯三種機器翻譯方式。目前,神經網絡機器翻譯是主流的機器翻譯方式。受技術革新與社會發展等諸多因素影響,機器翻譯逐漸呈現規模化、多領域化、多語言化及跨模態化的趨勢,其應用場景不斷擴大。在現階段中,機器翻譯技術在譯文質量、魯棒性和容錯能力、低資源語種翻譯能力、多模態融合技術能力及標準建設等五方面仍需繼續加強。
C. 第三章:產業級機器翻譯系統和產品形式。
產業級機器翻譯系統通常具有多領域、多語言、跨模態的全面翻譯能力、基于飛輪效應的持續進化能力、核心技術自主研發能力及全生命周期安全保障能力等技術特征。在形成成熟的產品和應用前,面向產業的機器翻譯系統應經過模型訓練、部署發布等環節,同時應始終保證數據和系統安全。機器翻譯產品有三種劃分方式,即按照模態劃分、按照載體劃分及按照系統部署劃分。按照模態劃分,主要有文本翻譯、語音翻譯、圖像翻譯等;按照載體劃分,主要有電腦端、移動端以及多種形式的智能硬件產品;按照系統部署劃分,主要有在線部署和離線部署。
D. 第四章:現階段機器翻譯產業現狀。
目前,機器翻譯的產業應用呈現出高質量、多語言、跨模態、定制化等特點。《藍皮書》通過列舉機構與企業使用機器翻譯的實例,闡述了機器翻譯在賦能企業全球化發展、助力行業數字化建設、助力中華文化“走出去”及賦能跨語言國際交流等方面發揮的積極作用。
F. 第五章:展望機器翻譯的發展趨勢,并對機器翻譯未來發展提出建議。
在新時代之下,機器翻譯將在跨語言理解及生成能力提升、低資源語言翻譯能力加強、機器翻譯系統的靈活性及智能交互能力提升及機器翻譯應用場景和領域拓展等方面取得新突破。為推動機器翻譯產業良性發展,應盡快建設我國自主研發的機器翻譯系統,加快高質量、大規模語料庫搭建,加強翻譯技術標準建設,加大翻譯技術普及力度,培養復合型翻譯人才,通過跨學科融合協作不斷推動翻譯技術迭代升級。
新時代新征程新使命,機器翻譯技術迎來全新的發展機遇期。當前,以機器翻譯為代表的翻譯技術深刻改變著傳統行業的翻譯模式和流程,在翻譯實踐中發揮的重要作用日益凸顯。隨著新一代預訓練模型技術的發展與應用,機器翻譯事業發展藍圖愿景悄然升級。