ربات ها به زودی جایگزین مترجمین انسانی می شوند…
دراین وبلاگ در این مبحث ، در ابتدا به طور خلاصه به تعریف پردازش زبانهای طبیعی، محدودیت ها، موانع موجود و همچنین کارکردهای مهم پردازش زبان های طبیعی پرداخته می شود. پس از آن مفهوم ترجمه و ترجمه ماشینی که یکی از مهم تریت کارکردهای پردازش زبان های طبیعی می باشد، بیان می گردد. اجزای مورد نیاز در معماری ماشین های ترجمه بیان گردیده و روشهای موجود در ترجمه ماشینی از ابتدا تا به اکنون تشریح و مزایا و معایب هر کدام ذکر می گردد. در پایان نیز با تاکید بر روش ترجمه ماشینی مبتنی بر روش های آمارگرا، ترجمه ماشینی در زبان فارسی مورد بررسی قرار می گیرد. این مجموعه برای معرفی انواع پردازشهای موجود بر روی زبان های طبیعی و به خصوص ترجمه ماشینی متون، انواع روشهای موجود و روند پیشرفت و بهبود ماشین های ترجمه به پژوهشگرانی که هدفشان تحقیق در حوزه پردازش زبان و به خصوص ترجمه ماشینی است، کمک موثری باشد. در ضمن، به موانع موجود به خصوص در زمینه ترجمه ماشینی زبان فارسی اشاره گردیده و در خاتمه راه حل های پیشنهادی موجود برای بهبود ترجمه ماشینی و به ویژه برای زبان فارسی مورد بررسی قرار گرفته است.
واژه های کلیدی:
ترجمه ماشینی، روشهای آماری، پیکره، فارسی.
مقدمه
پردازش زبانهای طبیعی نقشی بسیار عمده و کلیدی به خصوص در ترجمه ماشینی، بازیابی اطلاعات تک و دوزبانه، خلاصه سازی اسناد، مدیریت محتوا در سیستم های آموزشگر، خطایاب نحوی و معنایی متون، درک و تولید متون فارسی، تشخیص صحبت، تبدیل متن به گفتار، تحلیل نحوی، استخراج اطلاعات از متون و بسیاری کاربردهای دیگر ایفا می کند.
ترجمه خود کار متون، جزو اولین کاربردهای غیر محاسبه ای کامپیوتر است. ایده ترجمه ماشینی اولین بار در بحثی بین وارن ویور و آندره بوث شکل گرفت. مدل آنان بر اساس جداولی طراحی شده بود که در آنها برای رمز گشایی، از تواتر کلمات و حروف استفاده می شد.[۱]
با پیدایش تکنیک هایی چون جست و جوی دودوئی و روش تقلیل مسأله در الگوریتم های برنامه سازی و ایده ویرایش ثانویه در ترجمه، اعتقاد به عملی بودن ترجمه ماشینی قوت گرفت. در پایان دهه ۵۰ و اوایل ۶۰، COMIT به عنوان اولین زبان همه منظوره پردازش نماد مطرح شد و برنامه های کمکی واژه پرداز به مرحله پیاده سازی رسید. از سوی دیگر در زمینه زبان شناسی، نسبت به ساخت جملات زبان، دید الگوریتمیکی تحت عنوان دستور زبان گشتاری مطرح گردید.
نتیجه پروژه های دهه ۶۰ که بیشتر از آنها برای مقاصد سیاسی استفاده می شد، پیدایش دو شاخه اصلی در روش های ترجمه ماشینی بود. یکی از این روش ها استفاده از فرم های اصلاح شده دستور زبان گشتاری و دیگری استفاده از اطلاعات آماری در مورد نقش کلمات در جمله و ترجمه آنها بود. در پایان دهه ۷۰، اعتقاد عمومی بر آن بود که ترجمه ماشینی باید پیچیده تر از جابه جایی و جایگذاری کلمات زبان مبدا برای رسیدن به زبان مقصد باشد و ماشین باید به نوعی یک فهم از معنای هر دو نوشتار پیدا کند. این اعتقاد راه را برای استفاده از تکنیک های جدید هوش مصنوعی و به خصوص پردازش زبان طبیعی در ترجمه ماشینی هموار کرد و در این مدت شاهد پیشرفتهای چشمگیری در قلمرو ترجمه ماشینی و دستاوردهای متنوع جانبی آن بوده ایم. اهمیت این پدیده جدید و مقتضیات عصر ارتباطات و اطلاعات ایجاب کرده است که میزان سرمایه گذاری در این عرصه در سالهای گذشته بسیار چشمگیر باشد.
پردازش زبانهای طبیعی یکی از زیر شاخههای با اهمیت در حوزه گسترده هوش مصنوعی، دانش زبانشناسی و یکی از نیازهای اساسی عصر فناوری جهت استفاده بهینه از منابع اطلاعاتی است. امروزه با رشد حجم مستندات تولید شده و نیاز به نگهداری، دسته بندی، بازیابی و پردازش ماشینی و سریع آنها توجه به پردازش زبان طبیعی بیش از پیش خودنمایی می کند. تلاش عمده در این زمینه، ماشینی کردن فرایند درک و برداشت مفاهیم بیان گردیده با یک زبان طبیعی انسانی می باشد. به تعریف دقیقتر پردازش زبانهای طبیعی عبارت است از استفاده از رایانه برای پردازش زبان گفتاری و نوشتاری. با استفاده از آن میتوان به ترجمه زبانها پرداخت، از صفحات وب و بانکهای اطلاعاتی نوشتاری جهت پاسخ دادن به پرسشها استفاده کرد، یا با دستگاهها مثلاً برای مشورت گرفتن به گفتگو پرداخت.[۲]
اینها تنها مثالهایی از کاربردهای متنوع پردازش زبانهای طبیعی هستند. گفتنی ست هنوز سیستم چندان کارآمدی که پاسخگوی تمامی نیازهای ما باشد، برای پردازش زبانهای طبیعی به وجود نیامدهاست.
موانع اساسی
– نیاز به درک معانی: رایانه برای آن که بتواند برداشت درستی از جملهای داشته باشد و اطلاعات نهفته در آن جمله را درک کند، گاهی لازم است که برداشتی از معنای کلمات موجود در جمله داشته باشد و تنها آشنایی با دستور زبان کافی نباشد. مثلاً جمله حسن سیب را نخورد برای این که کال بود. و جمله حسن سیب را نخورد برای این که سیر بود. ساختار دستوری کاملاً یکسانی دارند و تشخیص این که کلمات کال و سیر به حسن برمیگردند یا به سیب بدون داشتن اطلاعات قبلی درباره ماهیت حسن و سیب ممکن نیست.
– دقیق نبودن دستور زبانها: دستور هیچ زبانی آنقدر دقیق نیست که با استفاده از قواعد دستوری همیشه بتوان به نقش هر یک از اجزای جملههای آن زبان پی برد. برای مثال در جمله کوتاه باز روی زمین نشست. نمیتوان تشخیص داد که باز قید جمله به معنای دوباره است یا این که فاعل جمله به معنای نوعی پرنده شکاری است.
زبانشناسی محاسباتی
زبانشناسی رایانهای یا زبانشناسی محاسباتی (Computational linguistics) حوزهای میانرشتهای است که سعی دارد با بهرهگیری از روشهای آماری و مبتنی بر قاعده(rule-based)، از منظر محاسباتی به مدلسازی زبان طبیعی بپردازد. به خصوص از این روشها برای حل مسائلی استفاده میکنند که ناشی از طولانی بودن جملات و زیاد بودن تعداد حالات ممکن برای نقش کلمات هستند. این روشها معمولاً مبتنی بر نمونههای متنی و مدلهای مارکف هستند.
مقوله های زیر از جمله مباحثی هستند که در حیطه ی زبانشناسی محاسباتی قرار می گیرند:
– فرایافت concept و تجزیه زبان های برنامه نویسی : نوآم چامسکی توانست تشابه زبانهای طبیعی و زبانهای برنامه نویسی را به اثبات برساند. یعنی یک زبان رایانهای مانند زبانهای طبیعی دارای یک دستور زبان و یک فرهنگ میباشد. تفسیر یک متن از تجزیهٔ واژهها lexicon آغاز سپس با تجزیه نحو syntax و در آخر با تجزیه مفهوم semantic آن پایان می یابد.
– ترجمه ماشینی : این شاخه از زبانشناسی رایانهای، زمان درازی کم اهمیت جلوه میکرد. اما امروزه یکی از موارد مورد علاقه پژوهشگران این رشته میباشد. پس از مرحلهٔ تجزیه واژهها و نحو می باید تجزیهٔ مفهوم و سپس پرگماتیک را نیز افزود. در واقع این دو سعی در شناخت مفهوم خاص یک واژه در مکانی که ظاهر میشود را دارد.
– پرسش و پاسخ با زبانهای طبیعی : این ایده مدتی بهعنوان پاسخی قانع کننده به مسئله ارتباط انسان و ماشین تلقی میشد. این دید در واقع جنبه ی وسیعتری از دستور زایشی چامسکی است.
– صرف محاسباتی : به مطالعات مربوط به ساختارهای درونی کلمات صرف گفته میشود. [۲] اغلب دستآوردها و نتائج تحقیقات در صرف محاسباتی در سایه تلاشهای علمی انسان به منظور ایجاد و ساخت سیستمهای پردازش زبانهای طبیعی انسانی فراهم آمده است.
از جمله مهم ترین کارکردهای مهم پردازش زبانهای طبیعی می توان موارد ذیل را نام برد:
خلاصهسازی خودکار، استخراج اطلاعات، بازیابی اطلاعات، ترجمه ماشینی، تشخیص نوری نویسهها، تشخیص گفتار، ویرایش و …
[۲] Crystal D.، The Cambridge Encyclopedia of Language، ۲nd edition، Cambridge University Press، ۱۹۹۶. ISBN 0-521-55967-7
ربات ها به زودی جایگزین مترجمین انسانی می شوند…
در این وبلاگ مطالب بسیار مفیدی درباره ترجمه ماشینی ارائه می گردد که امیدوارم مورد رضایت شما
علاقه مندان و بینندگان وبلاگ قرار بگیرد.
ترجمه ماشینی
ترجمه ماشینی _ پردازش زبانهای طبیعی
ترجمه ماشینی _ مفهوم ترجمه و ترجمه ماشینی
ترجمه ماشینی _ روشهای موجود و شیوه های ارزیابی آنها
ترجمه ماشینی _ کارهای فعلی در زبان فارسی
لینک های ذیل نیز برای دانلود فایل ها و مقاله های مرتبط با موضوع ترجمه ماشینی قرار داده شده است.
مقاله ای در مورد سیستم ترجمه ماشینی آماری مبتنی بر عبارت فارسی انگلیسی
مطالعه و بررسی ابزارهای آماده برای تحلیل پیکره متنی زبان فارسی
بررسی ابعاد و تفاوت های پیکره های برچسب داده ای و پیکره های خام در زبان فارسی
امکان سنجی پروژه های زیرساختی کاربری خطو زبان فارسی در محیط رایانه ای
بررسی ابعاد و لایه های ابهام در واژگان مشابه زبان فارسی
دریافت اطلاعات HTML وبلاگ در موضوع ترجمه ماشینی در قالب فایل pdf