ترجمه ماشینی چیست: تاریخچه + معرفی 4 سیستم MT
- 16 اردیبهشت 1399
- هوش مصنوعی
مفهوم ترجمه ماشینی (Machine Translation) قرنهاست که وجود دارد؛ اما از اوایل دهه 1950 رنگ واقعیت به خود گرفته است. از آن زمان تا به امروز، MT پیشرفت چشمگیری داشته است. با این حال هنوز هم نمیتواند با ظرافت و مهارتی که ذهن انسان در ترجمه یک سند به کار میبرد، رقابت کند. در این راستا توسعه دهندگان در تلاش هستند تا بر مشکلات موجود غلبه نمایند؛ به همین خاطر سیستمهای مختلفی را در طول این سالها معرفی نمودهاند. شبکه مترجمین راستین در این مطلب ضمن نگاهی به تاریخچه شکلگیری ترجمه ماشینی، قصد دارد تا 4 سیستم برتر در این حوزه را نیز معرفی کند.
تولد ترجمه ماشینی
وارن ویور (Warren Weaver) از بنیاد راکفلر (Rockefeller Foundation) در سال 1949 مجموعه طرحهایی را در زمینه نحوه تبدیل ایده ترجمه ماشینی به واقعیت ارائه داد. وی نظریه اطلاعات، درسهایی که در زمینه شکستن کدها در جنگ جهانی دوم آموخته بود و اصول زبانهای طبیعی را با هم ترکیب کرد، و بدینگونه زمینه را برای ظهور ترجمه از زبانی به زبان دیگر فراهم نمود.
یکی از اولین موفقیتها در زمینه ترجمه ماشینی، آزمایش جورج تاون - آی بی ام (Georgetown-IBM Experiment) بود. شرکت IBM در دفتر نیویورک خود در سال 1954، ماشینی را به نمایش گذاشت که میتوانست جملات روسی را به انگلیسی ترجمه کند. هر چند این دستگاه تنها قادر بود 250 کلمه (به 49 جمله) را برگرداند؛ اما دنیا از این ایده به هیجان آمد. علاقه به این سیستم در سراسر جهان باعث شد تا سرمایهگذاریهای زیادی در این حوزه جدید علوم کامپیوتر صورت بگیرد.
موانع سر راه
محققان آزمایش جورج تاون با غرور فراوانی که ناشی از موفقیت اولیه خود بود؛ پیش بینی میکردند که ترجمه ماشینی طی 3 تا 5 سال آینده بر دنیا تسلط یابد. اما با وجود اعتقاد اولیه ثابت شد که این ابزار محصول هوش مصنوعی، مسیری بس دشوارتر از آنچه محققان آن زمان تصور میکردند، پیش روی دارد. چرا که واقعیت امروز جهان نشان میدهد که با وجود گذشت بیش از 60 سال از آن زمان، هنوز ترجمه ماشینی به درستی نتوانسته بر روند کار مسلط شود.
از دیکشنریهای دو زبانه، زبان شناس زایشی (Generative Linguistic) و دستور گشتاری (Transformational Grammar) برای ارتقای فناوریهای پشت آزمایش جورج تاون استفاده شد. با این حال ابهام معنایی به سرعت به عنوان یکی از مسائل مهم در این زمینه شناسایی گردید. در آن زمان این سوال مهم مطرح شد که اگر کلمهای بیش از یک معنی داشته باشد؛ چگونه رایانه متوجه میشود که کدام معنی در زبان اصلی مدنظر است و آن را به کدام کلمه باید برگرداند؟
با وجود اینکه ترجمه های ماشینی اولیه از کیفیت کافی برخوردار بودند و میتوانستند درک اولیهای از سند اصلی فراهم کنند؛ اما با کامل بودن فاصله زیادی داشتند. مسابقه بین ایالات متحده و اتحاد جماهیر شوروی برای تسخیر این سیستم بسیار بیشتر از آنچه تصور میرفت به طول انجامید. کمیته مشورتی پردازش خودکار زبان ایالات متحده (US Automatic Language Processing Advisory Committee) موسوم به ALPAC در سال 1964 در گزارشی اعلام کرد که MT ارزش تلاش و صرف هزینه را ندارد و با این کار ضربه سنگینی به تلاشهای این کشور در این زمینه وارد کرد. در این گزارش توصیه شده بود که منابع به جای تمرکز بر استفاده از ابزارهای خودکار، بر روی حمایت از مترجمان انسانی در کار خود متمرکز شوند.
حتما بخوانيد: تفاوت میان ترجمه ماشینی و انسانی
ورود به کشورهای دیگر
علی رغم کاهش علاقه ایالات متحده به ترجمه ماشینی (به استثنای یک یا دو شرکت برجسته خصوصی)، کشورهای دیگر به تلاشهای خود ادامه دادند. کانادا در دهه 1970 سیستم METEO را برای ترجمه گزارشهای هواشناسی از انگلیسی به فرانسوی توسعه داد. این سیستم روزانه 80 هزار کلمه را معنی میکرد و از کیفیت مناسبی برخوردار بود، و تا قبل از به روز رسانی با سیستم جدید، بین سالهای 1977 تا 2001 مورد استفاده قرار میگرفت.
اما جهانی سازی نیاز به MT را در حوزههای دیگر به شکل بیسابقهای به جلو سوق داد. کشورهایی مانند فرانسه، آلمان، اتحاد جماهیر شوروی و انگلستان در تلاش بودند تا این سیستم را ارتقاء دهند. چنانچه هنر ترجمه با استفاده از رایانه کامل شود؛ زمان و هزینه اختصاص یافته برای برگردان اسناد به شکلی باورنکردنی کاهش مییابد. این علم بسیاری از دولتها و شرکتهای خصوصی را برانگیخت تا به تلاشهایشان ادامه دهند؛ اما با این وجود، سیستم بدون نقص ترجمه ماشینی همچنان دور از دسترس باقی ماند.
ژاپن به طور خاص در دهه 1980 و اوایل دهه 1990 درصدد هدایت این مطالبات بود. برخی از بزرگترین شرکتهای فناوری دنیا در دهه 2000 با اشتیاق بیشتری بر روی MT متمرکز شدند. علاوه بر تلاشهای ژاپن، شرکتهای گوگل و مایکروسافت در ایالات متحده نیز سرمایه گذاری قابل توجهی بر روی ترجمه ماشینی آماری انجام دادند. بعدها در قالب این اقدامات و در راستای تلاش برای دستیابی به نتایج بهتر، سیستمهای آماری با علوم نحو و ریخت شناسی تلفیق شدند.
انواع مختلف ترجمه ماشینی
قبل از معرفی و بررسی تأثیر MT بر روی صنعت ترجمه، بایستی به این مطلب توجه نمود که این فناوری به معنای جایگزینی مترجمان انسانی نیست. مثلاً کره جنوبی کشوری است که بالاترین جمعیت رباتها را در جهان دارد؛ اما به سختی میتوان فرد بیکاری را در این کشور پیدا نمود. هدف از این نوع سیستمها، آسانتر و بهتر نمودن فرآیند انجام کارهاست. آنها در سالهای اخیر پیشرفت فراوانی نمودهاند و بسیار توسعه پیدا کردهاند که در ادامه بیشتر در موردشان صحبت خواهد شد.
1. ترجمه ماشینی عصبی (NMT)
NMT یک روش "فرا آماری" است که چندین لایه اطلاعاتی را پردازش میکند و گرهها را بر روی اطلاعات منتقل مینماید. همچنین شیوه عملکرد آن به هوش مصنوعی بسیار نزدیک است. این فناوری به دلیل اینکه بر روی شیوایی جملات و متنها متمرکز میشود؛ لذا نیاز به ویرایش بعدی را کاهش میدهد (پسا ویرایش ترجمه ماشینی در این فناوری به حداقل رسیده است).
تکنولوژی NMT را به این دلیل عصبی مینامند که نحوه کار لایهها و گرههایی موجود در آن به روش کاری نورونهای عصبی در انسانها (و به طورکلی پستانداران) بسیار شبیه است. ترجمه ماشینی عصبی سه ویژگی بسیار جالب ارائه میدهد. این ویژگیها کمک میکنند تا شباهتهای بین کلمات درک گردد، کل جملات تحلیل شود و روانی جمله در زبان مقصد با آنالیز چند کلمه در یک زمان مورد ارزیابی قرار گیرد.
ترجمه ماشینی عصبی (Neural Machine Translation) تنها یکی از راههای بسیار هیجان انگیز برای استخراج برگردانهای طبیعیتر و روانتر در زبان مقصد محسوب میشود. در واقع دانشگاهها هنوز در حال تلاش برای درک شیوه کاری شبکه عصبی هستند. نتایج ارائه شده توسط آن به دلیل تعداد محاسبات، وزنها، گرادیانهای به کار رفته و مدلهای توجه، حتی بین زبانهای غیر مرتبط و با مورفولوژی قوی نیز بسیار دقیق است.
2. ترجمه ماشینی آماری (SMT)
از الگوریتم یادگیری برای بخش بزرگی از متن معنی شده قبلی استفاده میکند و آن را برای برگردان متونی استفاده مینماید که قبلاً با آنها مواجه نشده است. ترجمه ماشینی آماری (Statistical Machine Translation) برای اسنادی که بر یک موضوع خاص تمرکز دارند، مناسب است. برای انبوهی از پلتفرمها و الگوریتمهای فعلی موجود میتوان این نوع سیستم را به کار برد (که باعث میشود تا سیستم سریع و ارزان شود)، در این حالت به فضای کمی برای استفاده از آن نیاز خواهد بود (یعنی نیازی به سرور اختصاصی برای آن وجود ندارد).
یادگیری در سرورهای CPU انجام میشود؛ چون به راحتی قابلیت گسترش را دارند. رمزگشایی در این سیستم سریع خواهد بود و تقریباً به اندازه یک حافظه ترجمه بزرگ عمل میکند که n - گرام (گروههای کلمات) را در کنار یکدیگر قرار میدهد. قبل از اینکه گوگل، مقاله خود را درباره موضوع ترجمه ماشینی عصبی منتشر کند؛ بیشتر از سیستمهای آماری استفاده میشد. SMT فقط میتواند در یک زمینه خاص کار کند و در برگردان زبانهای محاوره و اصطلاحات تخصصی مهارت ندارد. این سیستم با زبانهای مشابه بهتر کار میکند؛ اما ترتیب بندی نحوی را به خوبی انجام نمیدهد.
3. ترجمه ماشینی مبتنی بر قانون (RBMT)
اولین سیستم توسعه یافته در دنیای MT، ترجمه ماشینی مبتنی بر قانون (Rule-Based Machine Translation) بوده که از دهه 1950 به بعد بر مبنای قوانین دستور زبان، فرهنگ لغت و برنامههای نرم افزاری توسعه پیدا کرده است. ویژگی کلیدی این سیستم، باعث اجتناب از انطباق قوانین بیحاصل میشود. نقطه قوت ترجمه قانونمند، توانایی آن در تحلیل عمیق زبان در سطوح معنایی و نحوی است. زیاد بودن قوانینی که هر زبان را کنترل میکند، باعث شده تا RBMT نتواند حداکثر کارآیی خود را ارائه دهد و گاهی اوقات "ماشینی" به نظر رسیدن آن مشهود است.
4. ترجمه ماشینی ترکیبی (HMT)
از چندین روش MT بهره میگیرد؛ با این حال در فرآیندی رایج و محبوب، موتور آماری را با روش مبتنی بر قانون ترکیب میکند (در هر دو مرحله پیش و پس از پردازش). از این حیث انعطاف پذیری، کنترل و دقت بالایی در آن حاصل میشود که با یک رویکرد صرفا آماری متفاوت است. هدف ترجمه ماشینی ترکیبی (Hybrid Machine Translation)، ترکیب بهترین RBMT با قدرت SMT داده محور است.
ترجمه ماشینی امروز
بیتردید سیر پیشرفت ترجمه ماشینی بسیاری از مترجمان انسانی را عصبانی کرده است. این امر از زمان موفقیت آزمایش جورج تاون در سال 1954(که به صورت گستردهای مخابره شد) تا به امروز وجود داشته است. در آن زمان بسیاری از مترجمان نگران این بودند که در عرض چند سال از کار بیکار شوند. امروزه بسیاری از آنها نیز همین احساس را دارند.
اما با وجود این نگرانیها، ترجمه ماشینی هنوز آنقدر پیشرفت نکرده تا بتواند عملکرد بالاتری نسبت به مترجمان انسانی ارائه دهد. این امر در فوریه سال 2017 طی یک مسابقه که توسط دانشگاه سجونگ سایبر (Sejong Cyber University) و انجمن بینالمللی ترجمه و تفسیر کره (International Interpretation and Translation Association of Korea) برگزار شد، مورد آزمایش قرار گرفت. چهار انسان و سه مترجم ماشینی (مترجم گوگل، برنامه ترجمه Systran و اپلیکیشن Naver’s Papago) در این رقابت شرکت کردند.
سه مترجم انسانی براساس دقت، بیان زبانی، منطق و سازماندهی به ارائه نتایج پرداختند. با وجود اینکه ماشینها هر چهار سند را سریعتر ترجمه کردند؛ اما انسانها به راحتی توانستند با کسب 40 امتیاز از 60 امتیاز ممکن، برنده این رقابت شوند. در میان مترجمان ماشینی، گوگل ترنسلیت با کسب 28 امتیاز نسبت به سایرین موفقتر ظاهر شد. در این رقابتها مشخص گردید که ظرافتهای بیانی و احساسی بسیار فراتر از توانایی ماشینها هستند.
مزایای MT
ترجمه ماشینی قطعاً مزایایی دارد. چنین سیستمی میتواند در عرض چند دقیقه چیزی را به زبانی دیگر برگرداند که برای یک انسان یک ساعت و یا حتی بیشتر طول میکشد. در ضمن ماشینها علاوه بر صرفه جویی در وقت، نقش پر رنگی در کاهش هزینهها نیز دارند.
ترجمه ماشینی برای شرکتهایی که اسناد بلند بالا و تکراری دارند و از آنها فقط برای مصارف داخلی بهره میگیرند، در بسیاری از موارد کفایت میکند. همین امر در مورد کسانیکه میخواهند درک اولیهای از اسناد معنی شده پیدا کنند نیز صدق میکند. با استفاده از MT میتوان چنین اسنادی را به گونهای تبدیل نمود که برای یک خواننده عادی مناسب است.
معایب MT
با وجود اینکه اکثر شرکتهای تازهکار سعی میکنند از رایانه برای تامین نیازهای زبانی خود استفاده نمایند؛ اما به سرعت متوجه میشوند که کیفیت ترجمه ماشینی فقط برای درک اولیه مطالب مناسب است. برگردان انجام شده توسط یک ماشین، کیفیت لازم را برای یک سند حرفهای تجاری ندارد. این جایی است که انسان برتری خود نسبت به ماشین را به رخ میکشد؛ چرا که بسیار باکیفیتتر از هوش مصنوعی به تبدیل جملات و کلمات به زبانی دیگر میپردازد. دانشگاه سجونگ سایبر بر این حقیقت در سال 2017 صحه گذاشت.
همچنین محققان دانشگاه آمستردام، مقالهای تحت عنوان "بیثباتیهای غیرمعقول مدلهای ترجمه عصبی ماشینی (The Unreasonable Volatility of Neural Machine Translation Models)" منتشر کردهاند. از قرار معلوم حتی تغییرات جزئی در جملات متن منبع (مانند تغییر در اعداد یا جنسیت موضوع) میتواند به طرز باور نکردنی خروجی را تغییر دهد. به گفته سایت خبری - تحلیلی Slator، "این سیستمها به وضوح شناخت درستی نسبت به بخشهای اصلی جملات از خود نشان نمیدهند. اگر اینگونه نمیبود؛ چنین بیثباتیهایی مشاهده نمیشد".
در ضمن برخی از کارشناسان بر این باورند که استانداردهای فعلی ارزیابی ترجمه ماشینی و مقایسه آن با کار مترجمان انسانی نیاز به تجدید نظر دارد. به عنوان مثال ارزیابیها معمولاً به صورت جمله به جمله انجام میشوند؛ یعنی ارزیابان انسانی هنگام درجه بندی ترجمهها، متن کامل را در اختیار ندارند. این بدان معنی است که وقتی محققان بر روی اثبات برابری ترجمه ماشینی با انسانی کار میکنند؛ برخی از خطاها، قصورها و بیثباتیها در خروجی MT را به درستی در نظر نمیگیرند.
هدف و آینده ترجمه ماشینی
هدف MT بیکار کردن مترجمان انسانی نیست؛ بلکه میخواهد موجب تسهیل سرعت و دقت کارها شود. ترجمه ماشینی با توجه به داشتن الگوریتمهای پیشرفته، و روشهای تحلیل کلمات و جملات در یک سطح پر جزئیات، میتواند به کاهش زمان صرف شده توسط ویرایشگران برای تولید و تصحیح پروژهها کمک کند. در واقع بسیاری استدلال میکنند که نقش افراد ویرایشگر به زودی به نقش ناظر تبدیل خواهد شد؛ چون کیفیت خروجی اینگونه سیستمها بسیار خوب خواهد شد.
هر چند ترجمه ماشینی از دهه 1950 تاکنون مسیری طولانی را طی کرده؛ ولی تا زمانیکه بتواند با تفاوتهای زبان شناختی مغز انسان تطابق پیدا کند، راهی طولانی پیشرو دارد. بنابراین تا آن زمان واجب است برای ترجمه متون تخصصی از آن استفاده نشود. سیستمهای ایجاد گردیده برای استفاده افراد آماتور و غیر متخصص راهاندازی نشده است؛ پس همچنان برای برگردان مطالب علمی و اسناد تجاری به بهرهگیری از خدمات ترجمه تخصصی بیندیشید.
در ادامه حتما بخوانيد: ترجمه و فناوری: دوست یا دشمن؟