BBT – Dịch thuật là một nghề đã tồn tại từ rất lâu và có một thị trường ngách khá chuyên biệt và ổn định, nhưng đang trở nên bùng nổ vì hai nguyên nhân chính: (1) sự tăng tốc của quá trình toàn cầu hóa, vốn đã kéo dài từ vài thập niên qua; và (2) sự phát triển của Internet và các kỹ thuật truyền thông giúp kết nối tất cả mọi người trên toàn thế giới chỉ bằng một cú nhắp chuột.
Sự bùng nổ của nhu cầu dịch thuật tất yếu sẽ dẫn theo nhu cầu đào tạo biên phiên dịch, và số trường đại học có đào tạo ngành biên phiên dịch trên thế giới ngày càng tăng. Riêng tại Việt Nam, hầu như trường đại học nào có đào tạo khối ngành ngoại ngữ đều có chương trình biên phiên dịch. Nhưng phải thẳng thắn mà nói rằng chất lượng đào tạo biên phiên dịch tại Việt Nam rất không ổn định và thiếu chuyên nghiệp, chủ yếu phụ thuộc vào năng khiếu của người học và lòng yêu nghề của người dạy – và rất nhiều may rủi!
Loạt bài về Nghề dịch thuật của FLC ra đời nhằm góp phần bổ khuyết vào khoảng trống của việc đào tạo biên phiên dịch tại Việt Nam. Những bài viết của chúng tôi cùng lúc nhắm vào hai mục đích: (1) Cung cấp lý thuyết tổng quát về dịch thuật , và (2) Gợi ý những từ/thuật ngữ tương đương trong tiếng Anh để diễn đạt một số nội dung trong bài viết mà chúng tôi cảm thấy cần thiết – cũng là một cách để rèn luyện kỹ năng ngôn ngữ (cặp ngôn ngữ mà chúng ta đang sử dụng ở đây là Anh-VIệt/Việt-Anh) ở mức độ cao, như đòi hỏi của nghề dịch thuật.
Rất mong nhận được sự ủng hộ và hỗ trợ của cộng đồng. Mọi thắc mắc, trao đổi xin gửi trong phần comment hoặc gửi vào email nguonsang2020@gmail.com.
TỔNG QUAN VỀ DỊCH MÁY
TS Vũ Thị Phương Anh, Phó Giám đốc thường trực
Trung tâm Phát triển Giáo dục Cộng đồng Nguồn Sáng
Trong thời đại trí tuệ nhân tạo (Artificial Intelligence, AI) ngày nay, một người làm công tác dịch thuật không thể không biết đến dịch máy (Machine Translation, MT). Bài viết này giới thiệu tổng quan về dịch máy, bao gồm: (1) lịch sử dịch máy; (2) so sánh dịch máy thống kê và dịch máy thần kinh (Statistical Translation vs Neural Machine Translation, STM vs NTM); (3) các thành phần của một hệ thống dịch máy (components of a Machine Translation System, MTS); (4) dịch máy và dịch có sự hỗ trợ của máy tính; (5) bộ nhớ dịch hoạt động ra sao (How Translation Memory works) ; và (6) vai trò của con người trong quá trình dịch máy.
I/ LỊCH SỬ DỊCH MÁY
Dịch máy, hoặc việc sử dụng các chương trình máy tính để dịch ngôn ngữ tự nhiên (the use of computer programs to translate natural language) từ ngôn ngữ này sang ngôn ngữ khác, đã tồn tại từ thập niên 1940 với một lịch sử lâu dài và phức tạp.
Những nỗ lực đầu tiên trong dịch máy đã sử dụng các quy tắc và thuật toán (rules and algorithms) đã cố gắng chia nhỏ các câu trong ngôn ngữ nguồn (source language) thành các cấu phần (constituent parts), dịch các cấu phần đó và sau đó ráp chúng lại trong ngôn ngữ đích (target language). Tuy nhiên, những hệ thống này thường không thành công vì các quy tắc và thuật toán mà chúng sử dụng quá đơn giản nên không thể nắm bắt được hết sự phức tạp của ngôn ngữ tự nhiên (complexities of natural language).
Vào thập niên 1950 và 1960, các nhà nghiên cứu bắt đầu tìm hiểu việc sử dụng các phương pháp thống kê (the use of statistical methods) để cải thiện dịch máy. Các phương pháp này dựa trên việc phân tích khối liệu lớn các văn bản dịch (large corpora of translated text) để xác định các kiểu mẫu và mối liên hệ (patterns and associations) giữa các từ và các cụm từ trong những ngôn ngữ khác nhau. Các hệ thống dịch máy thống kê (Statistical Machine Translation System, SMTS) tỏ ra thành công hơn các hệ thống dịch máy dựa trên quy tắc (Rule-based MT System) và chúng vẫn được sử dụng cho đến ngày nay.
Trong những năm 1980 và 1990, các nhà nghiên cứu bắt đầu thử nghiệm sử dụng mạng thần kinh (neural networks) và các kỹ thuật học máy (other machine learning techniques) khác để áp dụng vào dịch máy. Các hệ thống này có khả năng học các mẫu và liên kết phức tạp hơn (learn more complex patterns and associations) giữa các từ và cụm từ, đồng thời tỏ ra có hiệu quả cao trong việc tạo ra các bản dịch chính xác.
Trong những năm gần đây, dịch máy đã được cải thiện hơn nữa bằng cách sử dụng các kỹ thuật học sâu (deep learning techniques), chẳng hạn như dịch máy thần kinh (NMT), có thể mô hình hóa toàn bộ quá trình dịch từ đầu đến cuối (model the entire translatoin process from end-to-end). Các hệ thống này đã đạt được kết quả ấn tượng trong nhiều nhiệm vụ dịch thuật (translation tasks) và hiện được sử dụng rộng rãi trong công nghiệp cũng như trong học thuật (industry and academia).
Bất chấp những tiến bộ kể trên, dịch máy vẫn là một vấn đề khó khăn và vẫn còn nhiều việc phải làm để cải thiện độ chính xác và chất lượng của bản dịch (accuracy and quality of translations). Tuy nhiên, dịch máy đã trải qua một chặng đường dài kể từ những ngày đầu tiên và giờ đây đã là một công cụ không thể thiếu trong giao tiếp và hợp tác (indispensable tool for communication and collaboration) giữa các ngôn ngữ và nền văn hóa.
II/ SO SÁNH DỊCH MÁY THỐNG KÊ (STATISTICAL MT) VÀ DỊCH MÁY THẦN KINH (NEURAL MT)
Dịch máy thống kê (SMT) và dịch máy thần kinh (NMT) là hai cách tiếp cận dịch máy khác nhau (two different MT approaches) đang được sử dụng rộng rãi (widely used) trong ngành dịch thuật hiện nay.
Dịch máy thống kê sử dụng các mô hình thống kê (statistical models) để phân tích một khối lượng lớn văn bản song ngữ (large amount of bilingual texts), sau đó sử dụng kết quả phân tích này để tạo ra các bản dịch (generate translations). Quá trình phân tích bao gồm việc chia nhỏ câu nguồn thành các thành phần nhỏ hơn, chẳng hạn như từ hoặc cụm từ, sau đó tra cứu bản dịch cho từng thành phần này trong từ điển song ngữ (bilingual dictionaries) hoặc bộ nhớ dịch thuật (translation memory, TM). Sau đó, hệ thống sẽ kết hợp (combine) các bản dịch này để tạo bản dịch cho cả câu. Một trong những điểm mạnh chính (key strengths) của SMT là khả năng tận dụng (leverage) lượng lớn dữ liệu song ngữ để cải thiện chất lượng bản dịch. Tuy nhiên, SMT có thể gặp khó khăn với các cụm từ mang tính thành ngữ (idiomatic phrases) hoặc ít phổ biến hơn và nó có thể đòi hỏi nhiều tinh chỉnh (fine-tuning) cũng như các dữ liệu theo từng lĩnh vực cụ thể (domain-specific data) để đạt được độ chính xác cao.
Trong khi đó (on the other hand), dịch máy thần kinh sử dụng mạng lưới thần kinh sâu (deep neural networks) để mô hình hóa (model) toàn bộ quá trình dịch thuật từ đầu đến cuối (end-to-end). Hệ thống sử dụng câu nguồn (source sentence) ở đầu vào và tạo bản dịch tương ứng (corresponding sentence) ở đầu ra mà không chia câu thành các thành phần nhỏ hơn. Mạng thần kinh học cách tạo bản dịch bằng cách phân tích một lượng lớn dữ liệu song ngữ (bilingual data) và điều chỉnh các tham số (parameters) của nó để giảm thiểu lỗi trong bản dịch mà nó tạo ra. Một trong những điểm mạnh chính của NMT là khả năng xử lý (handle) tốt hơn các cấu trúc câu phức tạp và các đặc điểm riêng biệt của ngôn ngữ tự nhiên, dẫn đến các bản dịch trôi chảy và nghe tự nhiên (fluent and more natural-sounding translations) hơn. Tuy nhiên, NMT có thể cần nhiều tài nguyên điện toán (computational resources) và phần cứng chuyên dụng (specialized hardware) hơn để đào tạo và triển khai hơn SMT.
Tóm lại, cả dịch thống kê và dịch máy thần kinh đều có điểm mạnh và điểm yếu riêng (have their own strengths and weaknesses), và việc sử dụng cách tiếp cận nào tùy thuộc vào nhu cầu và nguồn lực cụ thể của người dùng. Mặc dù dịch máy thống kê đã tồn tại lâu hơn và vẫn đang được sử dụng rộng rãi, nhưng dịch máy thần kinh đã cho thấy những cải tiến đáng kể (significant improvements) về chất lượng dịch thuật và đã trở thành cách tiếp cận thống trị (dominant approach) trong những năm gần đây.
III/ CÁC THÀNH PHẦN CỦA MỘT HỆ THỐNG DỊCH MÁY
Hệ thống dịch máy (MT) thường bao gồm một số thành phần (components) hoạt động cùng nhau để phân tích và dịch văn bản. Dưới đây là các thành phần chính của hệ thống MT:
Tiền xử lý (preprocessing): Văn bản đầu vào được phân tích để xác định (identify) ngôn ngữ, sau đó được làm sạch (cleaned) và chuẩn hóa (normalized) để chuẩn bị cho việc dịch thuật. Điều này có thể liên quan đến việc xóa định dạng hoặc ký tự đặc biệt (remove format or special characters), xác định danh từ riêng và bóc tách (tokenize) văn bản thành từ hoặc cụm từ.
Mô hình ngôn ngữ (language model) Mô hình ngôn ngữ là mô hình thống kê hoặc mô hình thần kinh có thể nắm bắt các mẫu (patterns) và cấu trúc của ngôn ngữ. Mô hình này được đào tạo trên một lượng lớn văn bản bằng ngôn ngữ nguồn và ngôn ngữ đích để học cách dự đoán (predict) khả năng xuất hiện (the likelihood) của các cụm từ hoặc cấu trúc câu khác nhau.
Mô hình dịch thuật (translation model): Mô hình dịch thuật là một mô hình thống kê hoặc thần kinh giúp ánh xạ văn bản ngôn ngữ nguồn sang văn bản ngôn ngữ đích. Nó được đào tạo trên một lượng lớn dữ liệu song ngữ được căn chỉnh để tìm hiểu cách tạo bản dịch chính xác.
Giải mã: (decode): Quá trình giải mã sử dụng ngôn ngữ và các mô hình dịch thuật để tạo ra bản dịch có khả năng xuất hiện cao nhất (the most likely translation) cho một câu nguồn nhất định. Điều này liên quan đến việc tìm kiếm chuỗi (sequence) từ hoặc cụm từ tốt nhất trong ngôn ngữ đích phù hợp với câu đầu vào.
Xử lý hậu kỳ (post-processing): Bản dịch đầu ra sau đó được xử lý hậu kỳ để loại bỏ lỗi, điều chỉnh trật tự từ hoặc thì và áp dụng định dạng cần thiết.
Đánh giá (evaluation): Bản dịch cuối cùng được đánh giá để đo lường chất lượng và xác định các lĩnh vực cần cải thiện. Điều này có thể liên quan đến việc so sánh đầu ra với bản dịch tham chiếu hoặc sử dụng các chỉ số đánh giá tự động (automatic evaluation metrics) như chỉ số BLEU hoặc chỉ số TER.
Ngoài ra, các hệ thống MT cũng có thể kết hợp các thành phần khác (incorporate other components), chẳng hạn như nhận dạng thực thể được đặt tên (named entity recognition), gắn thẻ từ loại (part-of-speech tagging) hoặc phân tích cú pháp, để cải thiện hơn nữa độ chính xác và trôi chảy của bản dịch (further improve translation accuracy and fluency). Các hệ thống MT cũng có thể được tùy chỉnh cho các lĩnh vực hoặc trường hợp sử dụng cụ thể, chẳng hạn như dịch thuật y tế (medical translation), dịch thuật pháp lý (legal translation) hoặc dịch thuật kỹ thuật (technical translation), bằng cách kết hợp các mô hình và dữ liệu đào tạo chuyên biệt (specialized models and training data).
(còn tiếp)