trang chủ talaCu ý kiến ngắn spectrum sách mới tòa soạn hỗ trợ talawas
  1 - 20 / 227 bài
  1 - 20 / 227 bài
tìm
 
(dùng Unicode hoặc không dấu)
tác giả:
A B C D Đ E F G H I J K L M N O P Q R S T U V W X Y Ý Z
Dịch thuật
16.1.2006
Trịnh Nhật
Đi tìm phần mềm dịch tiếng Việt
 
Bài “Dịch thuật bằng máy: Niềm mơ ước còn hoài” của tôi đăng trên talawas hồi tháng 7. 2005 và trên khoahoc.net hồi tháng 9. 2005 kêu gọi độc giả bốn phương cho biết thông tin liên quan đến một nhóm chuyên gia thực hiện nhu liệu dịch tiếng Việt bằng máy.

Khoảng hai tháng sau, nhân một chuyến sang Mĩ, ở Santa Ana tôi có dịp gặp một chị nhà giáo tin học, người đã từng giới thiệu tôi làm quen với máy dịch Systran mấy năm trước đó. Ưu tư của tôi ở thời điểm gặp chị là làm sao thực hiện kho trữ liệu văn bản tiếng Việt (Vietnamese text corpus) để có hàng trăm, hàng ngàn triệu chữ Việt cất giữ trong kho, cho việc nghiên cứu làm từ điển kết hợp từ (collocation dictionary) Anh-Việt/Việt-Anh. Nói khác đi là tôi muốn thực hiện một dự án cho tiếng Việt, tương tự như Dự án Cobuild mà Giáo sư John McH. Sinclair đã làm cho tiếng Anh tại Đại học Birmingham bên Anh Quốc. Cái lợi của kho trữ liệu văn bản là mình khi muốn có trích dẫn làm thí dụ cho từ điển thì, nói có sách mách có chứng, những từ hoặc cụm từ dùng ấy thực sự có xuất hiện bên nhau, chứ không do mình tưởng tượng ra hay dựa vào trí nhớ. Cái lợi khác là cho việc làm từ điển kết hợp từ vì nó giúp mình biết được một từ hay một cụm từ nào thường xuất hiện sau nó hoặc trước nó trong thực tế.

Trong lần gặp này, chị đã cho tôi biết không dễ gì và có thể không cần phải thực hiện một dự án to lớn như vậy. Nếu muốn biết từ nào đi trước đi sau từ nào, thì mình chỉ việc vào yahoo.com đánh máy từ đó, nếu là tiếng Việt, dùng loại chữ unicode, thì ta sẽ được vô số những câu có từ đó xuất hiện. Chẳng hạn như muốn biết chữ "kinh nghiệm" thường xuất hiện với những từ gì, cụm từ nào đứng trước hoặc đứng sau nó, thì đánh chữ đó vào ô trống, rồi bấm search thì ta có cả triệu ca trong đó có từ hoặc cụm từ xuất hiện với "kinh nghiệm". Có điều trong triệu ca đó thì có những từ, những cụm từ xuất hiện với cả "kinh" lẫn "nghiệm" nữa. Tôi đã thử và đã nhận diện được một số từ kết hợp với "kinh nghiệm" như: "kinh nghiệm" + [sống; bản thân; ngoài đời; tình trường; cận chết; rời khỏi thân thể; mắt thấy tai nghe; công nghệ thông qua sản phẩm…].

Trong buổi làm việc với Cris A. Fitch, kĩ sư trưởng/quản lí dự án (Senior Engineer/Project Manager) của Systran Software Inc., trụ sở nằm trên đường Genesee Avenue ở San Diego, tôi được anh cho biết vào giữa thập niên 90 chỉ có hai công ty chính là Globalink và Micro Tak chế tạo sản phẩm và cung cấp dịch vụ dịch thuật bằng máy. Hai công ti này sau đó sáp nhập làm một, nhưng chẳng bao lâu sau công ti hợp doanh này bị phá sản. Chuyện dịch tiếng Việt bằng máy cũng đã được Globalink thực hiện nhưng vì không có chất lượng và chắc không đáp ứng được nhu cầu lợi nhuận nên họ không tiếp tục.

Anh cũng cho biết thêm là cơ quan Systran không nghĩ đến đem tiếng Việt vào làm một ngôn ngữ dịch máy, nhưng anh đặt giả thuyết là nếu trong vài năm nữa, năm 2008 chẳng hạn, Google hay Systran tài trợ cho dự án dịch tiếng Việt thì công việc cho những ai muốn tham gia dự án là phải bắt đầu chuẩn bị nghiên cứu hai ngôn ngữ Anh Việt (khoan nói tới văn phạm, cú pháp) về những chuyện như sau:

  1. Văn bản song đôi (parallel corpora/twin texts): văn bản có nội dung tương tự.
  2. Vốn từ vựng (lexicon): toàn thể từ vựng có trong từ điển.
  3. Hình thái học/hình vị học (morphology): cấu trúc, cách tạo từ ngữ.
  4. Những từ đồng tự (homographs): chữ viết giống nhau mà khác nghĩa.
Anh cũng cho tôi biết mặc dù tiếng Việt có hơn 80 triệu người sử dụng, nhưng cũng còn có những ngôn ngữ khác như Bengali có 200 triệu người sử dụng, hoặc tiếng Nam Dương, tiếng Thái, tiếng Tamil, v.v… là những tiếng có đông người sử dụng mà về mặt dịch máy cũng không được quan tâm mấy. Systran đã không đặt ưu tiên số đông người sử dụng mà để ý nhu cầu thực tiễn thương mại cho sản phẩm phần mềm của họ, nếu có.

Trong chuyến về Việt Nam sau đó, tôi được biết báo Thanh Niên trực tuyến, số ra ngày 6-6-2005 có thông tin về phần mềm dịch tự động tiếng Việt. Các chuyên gia vi tính của Phòng Công nghệ Phần mềm Máy tính của Viện Nghiên cứu Ứng dụng Công nghệ, Bộ Khoa học Công nghệ và Môi trường đã giới thiệu phác thảo sơ khai về dịch máy năm 1990 và được sự quan tâm của một số cơ quan nghiên cứu và đào tạo. Từ đó sản phẩm phần mềm EVTRAN 1.0 dịch tự động từ tiếng Anh sang tiếng Việt đã được hình thành như một thương phẩm đóng gói lần đầu tiên tại Việt Nam năm 1997 (với từ điển dịch chứa gần 80.000 mục từ).

Bản EVTRAN 2.0 được giới thiệu từ năm 2000 và đã thực sự góp phần hỗ trợ những người sử dụng máy vi tính khi làm việc với văn bản tiếng Anh. Và mới đây là bản EVTRAN 3.0 (còn có tên gọi là EV-SHUTTLE) là phần mềm dịch tự động hai chiều Anh-Việt/Việt-Anh.

Nỗi vui mừng trước tiên và trên hết của tôi là biết có tiếng Việt cho máy dịch, mặc dù biết hơi trễ, và máy đọc được tiếng Việt và dịch ra được tiếng Anh. Tôi đã tìm cơ hội đến Phòng Công nghệ Phần mềm Máy tính của Viện Nghiên cứu Ứng dụng Công nghệ này ở C6 Thanh Xuân Bắc, Hà Nội, để gặp và nói chuyện với ông Lê Khánh Hùng, cùng với anh Lê Minh Hoàn và 2 người bạn trẻ nữa.

Trong một tài liệu đưa tay cho tôi, ông Hùng đã viết về sản phẩm dịch máy như sau:

“Trong mọi sản phẩm dịch máy phần trọng tâm là động cơ dịch: thành phần thực thi việc phiên dịch từ ngôn ngữ này sang ngôn ngữ khác. Người ta phân ra hai loại kiến trúc chính của động cơ dịch:

  • Kiến trúc trực tiếp (dựa trên chuyển đổi văn phạm)
  • Kiến trúc gián tiếp (dựa trên kiến thức ngôn ngữ)
Các thương phẩm dịch máy hiện hành hoặc có kiến thức chuyển đổi trực tiếp (như Systran…) hoặc là sự lai ghép giữa kiến thức chuyển đổi với việc áp dụng tri thức về ngôn ngữ (như Globallink, IBM…). Động cơ dịch của phần mềm EVTRAN cũng dựa trên sự lai ghép của hai kiến thức nêu trên.

Khung động cơ dịch của EVTRAN có thể mô tả vắn tắt như sau:

  1. Phân tích văn phạm: Từ câu cần dịch xây dựng cây cú pháp nguồn.
  2. Chuyển đổi: Biến đổi cây cú pháp nguồn thành cây cú pháp đích.
  3. Tổng hợp câu: Từ cây cú pháp đích xây dựng câu dịch.
Với mỗi câu có thể dựng được nhiều cây cú pháp khác nhau, đó là tính nhập nhằng nội tại của ngôn ngữ nguồn. Việc chọn cây thích hợp được thực hiện trong bước Phân tích Văn phạm. Đối với những nhập nhằng do chuyển ngữ thì có thể thực hiện trong bước chuyển đổi, khi có sẵn thông tin của ngôn ngữ đích.

Công cụ hình thức để mô tả cú pháp là Văn phạm Phi ngữ cảnh. Tuy nhiên, mô hình này nhìn chung không thể thể hiện những tình huống ngôn ngữ tinh tế.

Những nghiên cứu tại Viện Nghiên cứu Ứng dụng Công nghệ tập trung vào việc mở rộng mô hình văn phạm để mô tả được những Luật hành văn (bao gồm Ngữ vựng, Ngữ pháp, Ngữ nghĩa và Ngữ dụng). Cách tiếp cận là những ứng dụng khác nhau để mô tả những qui luật hành văn khác nhau của ngôn ngữ.”

Tôi đã có dịp thử phần mềm EVTRAN 2.0 dịch tự động sang tiếng Việt một đoạn viết bằng tiếng Anh của tôi thì thấy là như sau:


Nguyên bản: Life is short: Think BPP

“Dalai Lama, the chief lama and until 1959 ruler of Tibet once said:

“I believe that the very purpose of our life is to seek happiness. That is clear. Whether one believes in religion or not, whether one believes in this religion or that religion, we all are seeking something better in life. So, I think, the very motion of our life is towards happiness… And happiness can be achieved through training the mind.”

The leader of the Tibetan people was not referring to “the mind’ merely as one’s cognitive ability or intellect. Rather, he was using the term in the sense of the Tibetan word Sem, which has a much broader meaning, encompassing intellect and feeling, heart and mind. By bringing about a certain inner discipline, we can undergo a transformation of our attitude, and our approach to living.

I have started thinking about how to spend the twilight of my life in a peaceful state of mind. My recent motto happens to be “Think BPP”. Confusing, isn’t it? Let me explain it fully.”


Dưới đây là bản dịch bằng máy:

Bản máy dịch: Cuộc sống (thì) ngắn: Nghĩ BPP

“Hà mã Dalai, Hà mã chính và cho đến khi 1959 thước đo (của) Tibet một lần nói:

“Tôi tin tưởng rằng chính mục đích (của) cuộc sống (của) chúng ta sẽ tìm kiếm hạnh phúc. Cái đó (thì) sáng sủa. Dù một tin tưởng vào tôn giáo hay không, dù một tin tưởng vào tôn giáo này hoặc tôn giáo đó, chúng ta hoàn toàn đang tìm kiếm cái gì đó tốt hơn trong cuộc sống. Như vậy, Tôi nghĩ, chính sự chuyển động (của) cuộc sống (của) chúng ta về phía hạnh phúc… Và hạnh phúc có thể được đạt được xuyên qua việc huấn luyện tâm trí.”

Người lãnh đạo (của) Người Tây Tạng (mà) những người đang không viện dẫn “Tâm trí’’ Đơn thuần như ability nhận thức hoặc sự hiểu biết (của) ai đó. Khá, (Mà) anh ta đang sử dụng Thời hạn trong cảm giác về từ Tây tạng Sem, Mà có một nhiều sự hiểu biết và cảm giác đầy ý nghĩa, xung quanh rộng hơn, trái tim và tâm trí. Bởi việc dẫn đến một kỷ luật (môn) bên trong nhất định, chúng ta có thể trải qua một sự biến đổi (của) thái độ (của) chúng ta, và (sự) tiếp cận để sống (của) chúng ta.

Tôi đã bắt đầu nghĩ quanh làm sao để tiêu thụ lúc hoàng hôn (của) cuộc sống (của) Tôi trong một trạng thái hòa bình (của) tâm trí. Khẩu hiệu gần đây (của) Tôi xảy ra Tới “Nghĩ BPP”. Làm bối rối, (thì) không phải là nó. Cho phép tôi giải thích nó hoàn toàn.”


Dưới đây là bản dịch của tôi:

Bản người dịch: Đời người ngắn ngủi: Hãy nghĩ BPP

“Đức Đại-la Lạt-ma, Giáo chủ Phật giáo và là Nhân vật cai trị nước Tây tạng cho đến năm 1959 đã có lần nói:

“Tôi tin rằng mục đích chính yếu của cuộc sống chúng ta là tìm hạnh phúc. Điều đó thật rõ ràng. Cho dù ta có niềm tin tôn giáo hay không, cho dù ta tin vào tôn giáo này hoặc tôn giáo nọ, chúng ta đều đi tìm một cái gì tốt đẹp hơn trong đời. Cho nên, tôi nghĩ, cái động năng chính của cuộc sống chúng ta là hướng đến hạnh phúc… Và hạnh phúc có thể đạt được qua việc tập luyện trí tuệ.”

Vị lãnh đạo dân tộc Tây tạng không nói đến “trí tuệ” chỉ trong ý nghĩa là khả năng nhận thức hay trí tuệ. Mà Ngài đã dùng từ này với nghĩa của từ ‘Sem’ trong tiếng Tây tạng, có nghĩa rộng hơn, bao gồm cả tri thức lẫn cảm quan, cả tâm lẫn trí. Bằng cách tạo dựng một kỉ luật nội tâm nào đó, chúng ta có thể biến đổi được thái độ và lối sống của mình.

Tôi đã bắt đầu nghĩ về chuyện làm sao sống cảnh hoàng hôn của đời mình cho tâm hồn được an bình. Phương châm mới đây của tôi là: Hãy nghĩ BPP. Nghe khó hiểu nhỉ? Để tôi giải thích tường tận cho nghe nhe!”


Có nhiều bạn có thể thất vọng, không vừa lòng với máy dịch ở giai đoạn này, nhưng máy là vật vô tri vô giác, bảo sao theo vậy, có sao làm vậy, đâu có lỗi, đâu có tội tình gì? Lỗi chăng là do ở người cung cấp thông tin cho máy xử lí theo hiệu lệnh của người. Chính ông Hùng cũng đã không ngần ngại nhìn nhận rằng sản phẩm của họ, cũng như sản phẩm của đa số ngôn ngữ khác, chưa thật sự có chất lượng tốt (chưa được đến 50% toàn hảo). Ông còn cho biết Nhóm Nghiên cứu tại Hà Nội, cũng như Nhóm Nghiên cứu tại Sài Gòn (tôi chưa có dịp làm quen họ), vẫn đang tiếp tục quá trình hoàn chỉnh sản phẩm này.

Tôi không hiểu là nhà nước có đặt vấn đề ưu tiên cho dự án loại này không? Có giúp đỡ tài chính và kĩ thuật cho tư nhân khai thác không? Có chuyện giấu nghề, bảo vệ bản quyền không? Nhất là một khi sản phẩm này sử dụng vào mục đích thương mại. Làm sao tránh được những bọn hackers phá đám, chôm chỉa (piracy).

Tôi đã từ Úc gửi mua được phần mềm EV-SHUTTLE (giá 290.000 đồng Việt Nam, khoảng 26 đô-la Úc) và sẽ thử nghiệm trong việc dịch tự động chiều từ Việt sang Anh trong nay mai. Thế nhưng, đó sẽ là đề tài cho một bài viết khác.

Trở lại lời kêu gọi của tôi trong bài “Dịch thuật bằng máy: Niềm mơ ước còn hoài”, những tưởng chỉ là “tiếng kêu trên sa mạc”, nhưng mới đây tôi nhận được lá thư của một vị độc giả thuộc Nhóm nghiên cứu Việt ngữ tại California, gồm đa số là những chuyên viên tin học, đề nghị tôi hợp tác trong vai trò điều phối viên trong Dự án Máy dịch (Machine Translation Project). Hoạt động của Nhóm nghiên cứu này ra sao?

Trong lá thư viết cho tôi ngày 21.12.2005, ông Phạm Hải, Tiến sĩ về khoa học điện toán (PhD in Computer Science) cho biết: “Chúng tôi thuộc Nhóm Nghiên cứu Việt ngữ, "bản doanh" ở California, đa số là những chuyên viên Tin học. Từ năm 1995, chúng tôi đã có kế hoạch làm software phiên dịch Anh Việt, nhưng không thành công vì thiếu bảo trợ tài chính. Từ đầu năm nay (2005) nhóm sẽ hoạt động theo đường hướng mới. Nhóm sẽ kêu gọi chuyên viên và học giả khắp thế giới làm việc trên căn bản tự nguyện và vô vị lợi, với mục đích nghiên cứu Việt ngữ, giúp nhóm thiết lập Machine Translation software. Software này sẽ là freeware cho cộng đồng người Việt khắp thế giới, giúp chúng ta phiên dịch các tài liệu Anh ngữ qua Việt ngữ. Việc phiên dịch này rất cần thiết trong việc phát triển đất nước. Chúng tôi bắt đầu bằng đề nghị một Dự án Ngữ Toán (http://www.viethoc.org/content.php?menu=2400&page_id=56) qua sự bảo trợ của Viện Việt Học (Wesminster, California). Nhóm chúng tôi đã làm một software Chú thích Hán Việt (www.petrustvk.com/ChuThich.html).”

Mới đây ông Phạm Hải còn cho tôi biết một tin vui: “Chúng tôi đã có kế hoạch xúc tiến giai đoạn 1 cho dự án Ngữ toán tiếng Việt. Trong vòng 6 tháng, chúng tôi sẽ công bố text corpus cho hơn 10.000 tiếng đơn và hơn 100.000 tiếng kép. Chúng tôi cũng xúc tiến song song dự án Từ điển ngữ nghĩa tiếng Việt, bắt đầu bằng Từ điển của Lê Ngọc Trụ và Lê Văn Đức.”

Cái thú vị trước mắt, đối với tôi lúc này, là sự đáp ứng của những người cùng có chung một mục đích - mục đích phục vụ cho tiếng Việt, cho việc dịch thuật tiếng Việt trong chiều hướng ứng dụng kĩ thuật, công nghệ phần mềm tiên tiến, hiện đại trong đệ tam thiên niên kỉ.

Cái thú vị nữa là, sau chuyến đi nửa vòng trái đất, tôi đã tình cờ bắt gặp được phần mềm… ngay trong lòng đất Mẹ!

Sydney, Tháng Giêng 2006

© 2006 talawas