دوستان عزیز برای پیدا کردن سریع مطالب مورد نظر خود، می توانید از قسمت جستجوی سریع در سایت، یک یا چند کلمه کلیدی مورد نظر خود را جستجو نمایید.
یا اینکه بر روی دو آیکون سبز رنگ "طبقه بندی موضوعات" یا "جستجوی کلمات کلیدی" در سمت راست و چپ موجود در بالای سایت کلیک نمایید...
در صورت بروز مشکل در پرداخت الکترونیکی؛ میتونید ایمیلی ، پیامکی، تلفنی یا تلگرامی بگید تا فایلتون براتون ارسال بشه.
خوشه بندی اسناد متنی مبتنی بر مفاهیم همسایگی و شباهت معنایی | تعاونی نیرومندسازی تحقیقات
طبقه بندی موضوعات
جستجوی کلمات کلیدی
شنبه , ۱۳ آذر ۱۳۹۵
آخرین مطالب
خانه -> پردازش متن -> دسته بندی متون -> خوشه بندی اسناد متنی مبتنی بر مفاهیم همسایگی و شباهت معنایی

خوشه بندی اسناد متنی مبتنی بر مفاهیم همسایگی و شباهت معنایی

متن کاوی فناوری ایجاد شده جهت کنترل داده های متنی در حال رشد است که در جهت برچینی اطلاعات معنی دار از متون زبان طبیعی تلاش می کند. متن کاوی یعنی جستجوی الگوها در متن غیرساخت یافته و برای کشف خودکار دانش مورد علاقه یا مفید از متن نیمه ساخت یافته استفاده می-شود [Tan 2005].
متن کاوی تقریبا معادل با تجزیه و تحلیل متون است که وظیفه آن استخراج اطلاعات با کیفیت بالا از متن می باشد [Kan 2007]. در موارد معدودی نیز به عنوان فرآیند تحلیل متن جهت استخراج اطلاعاتی که برای اهداف خاصی مفید هستند، تعریف می شود. در زمینه کاوش متن معمولا با متونی مواجه هستیم که وظیفه آنها ارتباط اطلاعات حقیقی و یا عقاید می باشد و هدف آن استخراج خودکار اطلاعات از چنین متونی می باشد، هر چند موفقیت جزئی حاصل گردد [Kan 2007].
به طور کلی متن کاوی جهت مشخص کردن سیستمی که بتواند حجم زیادی از متون زبان طبیعی را تحلیل کند و الگوهای مفید زبانی و لغوی را شناسایی کرده و به دنبال آن اطلاعات احتمالا مفید را استخراج کند، استفاده می شود [Fan 2005]. شکل ۱-۱ یک مدل کلی از یک کاربرد متن کاوی را نشان می دهد. این مدل با مجموعه ای از اسناد شروع می شود، یک ابزار متن کاوی، یک سند خاص را بازیابی و پیش پردازش می کند. سپس یک مرحله تحلیل متن انجام شده و در مواقعی از شیوه-های مکرر تا استخراج اطلاعات استفاده می شود. سه روش تحلیل متن در این نمونه نشان داده شده اما بسیاری از ترکیبات دیگر نیز بر اساس اهداف سازماندهی می توانند استفاده شوند. اطلاعات حاصل می تواند در یک سیستم مدیریت اطلاعات قرار داده شود و در نهایت حجم وسیعی از دانش برای کاربر آن سیستم فراهم می شود [Fan 2005].
گاهی به جای واژه متن کاوی از عبارت “کشف دانش از متن” (KDT )، استفاده می شود [Sha 2005]. معمولا وظایف متن کاوی شامل طبقه بندی متن، خوشه بندی متن ، استخراج مفهوم، تحلیل معنایی، خلاصه سازی متن و مدل سازی روابط میان نهادها می باشد .

خوشه بندی، روش داده کاوی قدرتمندی است که جهت کشف موضوع از اسناد متنی مورد استفاده قرار می گیرد. در این زمینه الگوریتم های خانواده k-means به دلیل سادگی و سرعت بالا، در خوشه بندی داده هایی با ابعاد بالا، کاربرد فراوانی دارند. در این الگوریتم ها، معیار شباهت cosine، تنها شباهت میان زوج اسناد را اندازه گیری می کند که در مواقعی که خوشه ها به خوبی تفکیک نشده باشند، عملکرد مناسبی ندارد. درمقابل، مفاهیم همسایگی و اتصال با در نظرگرفتن اطلاعات سراسری در محاسبه میزان نزدیکی دو سند، عملکرد بسیار بهتری دارند. چنانچه میزان شباهت دو سند از حد آستانه ای بیشتر باشد آن دو سند همسایه اند و تعداد همسایه های مشترک میان آنها، مقدار تابع اتصال این دو سند را نشان می دهد. بنابراین با توجه به اینکه تنها دو حالت همسایگی و عدم همسایگی داریم که با صفر و یک نمایش داده می شوند، مقداری از اطلاعات را در مورد میزان شباهت میان اسناد از دست می دهیم که منجر به کاهش دقت خوشه بندی حاصل می شود. جهت رفع این مشکل، در گام اول لیستی از مقادیر گسسته را برای تعیین بازه ای از مقادیر آستانه به جای تنها یک مقدار، در نظر گرفتیم که به دنبال آن درجات متفاوتی از همسایگی، بر اساس میزان شباهت میان اسناد خواهیم داشت. همچنین جهت افزایش هر چه بیشتر دقت نتایج حاصل، از منطق فازی نیز بهره برده و مقدار شباهت میان اسناد را با استفاده از مقادیر عضویت فازی نمایش دادیم. به این ترتیب میزان همبستگی میان اسناد را با استفاده از منطق فازی بهبود داده و گام جدیدی در کاربردهای منطق فازی برداشتیم.
همچنین در این مدل، روابط معنایی میان کلمات نادیده گرفته شده و تنها اسنادی با واژگان مشابه با یکدیگر مرتبط شده اند. در این پروژه پایانی از آنتولوژی WordNet جهت ایجاد مدل جدید نمایش اسناد بهره بردیم، بدین صورت که در آن از روابط معنایی به منظور وزن گذاری مجدد بسامد کلمات در مدل فضای برداری اسناد استفاده شده است. سپس مفاهیم همسایگی و اتصال را بر روی مدل حاصل اعمال نمودیم. نتایج حاصل از اعمال روش های پیشنهادی و ترکیبات آنها بر روی مجموعه داده های متن واقعی، حاکی از عملکرد موثر و مناسب تر الگوریتم پیشنهادی ما نسبت به روش های پیشین می-باشد و می تواند جایگزین خوبی برای الگوریتم های پیشین در امر خوشه بندی اسناد باشد.

Text Document Clustering Based on Neighbors and Semantic Similarity
خوشه بندی اسناد متنی مبتنی بر مفاهیم همسایگی و شباهت معنایی

 

.

فهرست مطالب
فصل ۱- ورود به مطلب۱
۱-۱- مقدمه ۱
۱-۲- متن کاوی ۲
۱-۲-۱- تعاریف متن کاوی ۳
۱-۳- مراحل اصلی فرآیند متن کاوی ۴
۱-۴- کاربردهای متن کاوی ۵
۱-۵- خوشه بندی ۵
۱-۶- هدف از خوشه بندی ۶
۱-۷- کاربردهای خوشه بندی ۷
۱-۸- خوشه بندی در مقابل طبقه‌بندی ۸
۱-۹- رویه خوشه بندی ۹
۱-۹-۱- نمایش الگو ۹
۱-۹-۲- شباهت الگو ۹
۱-۹-۳- خوشه بندی یا گروه بندی ۱۰
۱-۹-۴- انتزاع داده ۱۰
۱-۹-۵- معیارهای آزمودن خروجی الگوریتم ۱۰
۱-۱۰- چالش های الگوریتم های خوشه بندی ۱۱
۱-۱۱- خوشه بندی متن ۱۲
۱-۱۲- تعریف مساله ۱۲
فصل ۲- مبانی اولیه تحقیق۱۵
۲-۱- مقدمه ۱۵
۲-۲- داده متنی ۱۵
۲-۳- پیش پردازش متن ۱۶
۲-۳-۱- جمع آوری داده های متنی ۱۷
۲-۳-۲- Collection Reader 18
2-3-3- Detagger 18
2-3-4- Tokenization 18
2-3-4-1- حذف کلمات توقف ۱۹
۲-۳-۴-۲- ریشه یابی ۲۰
۲-۳-۵- هرس کردن ۲۲
۲-۳-۶- وزن گذاری کلمات ۲۲
۲-۴- روش های نمایش اسناد ۲۲
۲-۴-۱- مدل دودویی ۲۳
۲-۴-۲- مدل برداری ۲۴
۲-۴-۳- مدل احتمالاتی ۲۵
۲-۴-۴- مقایسه روش های مدلسازی اطلاعات ۲۶
۲-۵- مدل فضای برداری در بازیابی اسناد ۲۶
۲-۶- استفاده از دانش پس زمینه در خوشه بندی متون ۳۱
۲-۶-۱- خوشه بندی مبتنی بر آنتولوژی ۳۱
۲-۶-۱-۱- آنتولوژی ۳۳
۲-۶-۱-۲- آنتولوژی WordNet 34
2-7- الگوریتم های خوشه بندی سند ۳۶
۲-۷-۱- روشهای سلسله مراتبی ۳۶
۲-۷-۲- الگوریتم های افرازکننده ۳۸
۲-۸- مفهوم نزدیکترین همسایه ها ۳۹
فصل ۳- مروری بر کارهای گذشته۴۳
۳-۱- مقدمه ۴۳
۳-۲- استفاده از آنتولوژی در خوشه بندی اسناد ۴۳
۳-۲-۱- روش های وارد کردن آنتولوژی در نمایش متن ۴۳
۳-۲-۱-۱- افزودن مفاهیم ۴۳
۳-۲-۱-۲- جایگزین کردن کلمات با مفاهیم ۴۴
۳-۲-۱-۳- استفاده از بردار مفاهیم به تنهایی ۴۴
۳-۲-۲- مقایسه روش های استفاده از آنتولوژی در خوشه بندی اسناد ۴۴
۳-۳- معیارهای روابط معنایی ۴۶
۳-۳-۱- معیارهای مبتنی بر لبه ۴۸
۳-۳-۱-۱- کوتاه ترین مسیر ۴۸
۳-۳-۱-۲- اتصالات وزن گذاری شده ۴۸
۳-۳-۱-۳- Wu and Palmer 49
3-3-1-4- Hirst-St.Onge 51
3-3-1-5- Li 52
3-3-1-6- LeacockوChadorow 52
3-3-2- معیارهای مبتنی بر گره ۵۳
۳-۳-۲-۱- Resnik 54
3-3-2-2- Jiang-Conrath 54
3-3-2-3- Lin 55
3-3-3- معیارهای مبتنی بر ویژگی ۵۵
۳-۳-۳-۱- Tversky 55
3-4- پیشینه استفاده از همسایگی و اتصال در خوشه بندی ۵۶
۳-۴-۱- تعریف همسایگی و اتصال در خوشه بندی اسناد متنی ۶۱
۳-۴-۲- انتخاب مراکز خوشه های اولیه بر اساس رتبه بندی ۶۲
۳-۴-۳- معیار شباهت بر مبنای توابع cosine و link 63
3-4-4- انتخاب یک خوشه جهت شکافتن بر اساس همسایه های مراکز ۶۶
مراجع ۷۳

 

کاربر گرامی

برای دانلود فایل های مورد نظرتان بایستی بر روی دکمه "افزودن به سبد خرید" کلیک نمایید .

پس از چند ثانیه ، فایل مورد نظر شما به سبد خریدتان اضافه گردیده و این دکمه تبدیل به دکمه "پرداخت" خواهد شد.

با کلیلک بر روی دکمه "پرداخت" ، وارد صفحه پرداخت خواهید شد .

با وارد کردن اطلاعات و ایمیل خود ، فایل مورد نظر به ایمیل شما ارسال گردیده و همچنین لینک دانلود فایل بلافاصله برایتان به نمایش درخواهد آمد.

– قابل پرداخت با تمام کارتهای بانکی + رمز دوم

– پشتیبانی سایت ۰۹۳۵۹۵۲۹۰۵۸ – Info@tnt3.ir – universitydatainfo@yahoo.com




سفارش ترجمه متون عمومی و تخصصیفروشگاه اینترنتی کتاب - خرید آنلاین کتاب - دانلود کتاب الکترونیکی

جوابی بنویسید

ایمیل شما نشر نخواهد شد

هشت − 4 =

شما می‌توانید از این دستورات HTML استفاده کنید: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>


This site is using the Seo Wizard plugin by http://seo.uk.net/