دوستان عزیز برای پیدا کردن سریع مطالب مورد نظر خود، می توانید از قسمت جستجوی سریع در سایت، یک یا چند کلمه کلیدی مورد نظر خود را جستجو نمایید.
یا اینکه بر روی دو آیکون سبز رنگ "طبقه بندی موضوعات" یا "جستجوی کلمات کلیدی" در سمت راست و چپ موجود در بالای سایت کلیک نمایید...
در صورت بروز مشکل در پرداخت الکترونیکی؛ میتونید ایمیلی ، پیامکی، تلفنی یا تلگرامی بگید تا فایلتون براتون ارسال بشه.
الگوریتم و کد آماده TF-IDF | تعاونی نیرومندسازی تحقیقات
طبقه بندی موضوعات
جستجوی کلمات کلیدی
چهارشنبه , ۱۷ آذر ۱۳۹۵
آخرین مطالب
خانه -> پردازش متن -> ابزارهای پردازش متن -> الگوریتم و کد آماده TF-IDF

الگوریتم و کد آماده TF-IDF

الگوریتم و کد آماده سی شارپ TF-IDF

لازم به ذکر است در کد مورد نظر نرمال سازی اولیه متن و همچنین ریشه یابی به صورت مبتنی بر قاعده برای کلمات انجام می گردد.

 

الگوریتم و کد آماده سی شارپ TF-IDF

فراوانی وزنی تی‌اف-آی‌دی‌اف (به انگلیسی: tf–idf weight) مخفف فراوانی – عکس فراوانی سند است. در این شیوه به لغات یک وزن بر اساس فراوانی آن در سند داده می‌شود. در واقع این سیستم وزن دهی نشان می‌دهد چقدر یک کلمه برای یک سند (مدرک) مهم است. این مسئله کاربردهای بسیاری در بازیابی اطلاعات دارد. وزن کلمه با افزایش تعداد تکرار آن در متن افزایش می‌یابد، اما توسط تعداد کلمات در متن کنترل می‌شود، چرا که می‌دانیم در صورت زیاد بودن طول متن، بعضی از کلمات به طول طبیعی بیشتر از دیگران تکرار خواهند شد، اگرچه چندان اهمیتی در معنی نداشته باشند.

اگر فرض کنیم تعداد دفعاتی که کلمه T در متن D اتفاق افتاده با (Tf (t.d نشان داده شود و در ساده‌ترین حالت تعداد تکرار اولیه t با (f(t,d نشان داده شود پس

tf(t,d)= f(t,d).

موارد دیگر در زیر آمده

 tf(t,d)=

اگر کلمه t در متن اتفاق افتاده باشد  مقدار  ۱ و  در غیر اینصورت مقدار ۰

  • امتیاز دهی فراوانی لگاریتمی:

log (f(t,d)+1) tf(t,d)=

  • فراوانی تکمیل شده، augmented frequency برای جلوگیری از بایاس به سمت متون بزرگتر (یعنی به دلیل حجم بالاتر متن نسبت به دیگری ممکنه کلمه مورد نظر بیشتر تکرار شده باشد ولی این به دلیل فراوانی بیشتر کلمه در متن بزرگتر نیست). به عنوان مثال فراوانی اولیه کلمه t تقسیم بر تعداد فراوانی اولیه هر کلمه‌ای که در متن بیشترین فراوانی را دارد. این مورد بیشتر در موتور جستجو برای بازیابی مستندات با کلمات مورد جستجو استفاده دارد.

tf(f,d)=0.5+(0.5*f(t,d))/max⁡{f(w,d):w∈d}

Idf: معیاری است برای میزان کلماتی که در کلیه متون بسیار متداول هستند و معمولاً تکرار می‌شوند. طریقه بدست آورن این معیار بدین صورت است که از لگاریتم، تقسیم تعداد کل متون بر تعداد متون شامل کلمه متداول بدست می‌آید. برای مثال: فرض کنیم در کل پایگاه داده ما ۱۰۰۰ تا متن وجود داشته باشد. اگر در هر ۱۰۰۰ تای ان یک کلمه خاص (مثلاً است) وجود داشته باشد حاصل لگاریتم ۱۰۰۰ تقسیم بر ۱۰۰۰ می‌شود صفر. یعنی حتماً این کلمه جز کلمات متداول بوده و باید ضریب صفر بگیرد ولی اگر تکرار در ۵۰۰ متن اتفاق افتاده باشد می‌شود لگاریتم ۲ که حاصل ۱ است ضریب ۱ می‌گیرد. هر چفدر متونی که کلمه در ان تکرار شده باشد بیشتر باشد وزن idf کوچکتر می‌شود؛ و چون مکن است اصلاً تکرار نشده باشد و مخرج صفر شود در مخرج +۱ اضافه می‌شود.

idf (t,D)=log⁡〖(D/(1+{dϵD:tϵd}))〗

با این توضیحات میزان tfidf به صورت زیر محاسبه می‌شود:

tfidf(t,d,D)=tf(t,d)*idf(t,D)

الگوریتم و کد آماده سی شارپ TF-IDFالگوریتم و کد آماده سی شارپ TF-IDFالگوریتم و کد آماده سی شارپ TF-IDF

کاربر گرامی

برای دانلود فایل های مورد نظرتان بایستی بر روی دکمه "افزودن به سبد خرید" کلیک نمایید .

پس از چند ثانیه ، فایل مورد نظر شما به سبد خریدتان اضافه گردیده و این دکمه تبدیل به دکمه "پرداخت" خواهد شد.

با کلیلک بر روی دکمه "پرداخت" ، وارد صفحه پرداخت خواهید شد .

با وارد کردن اطلاعات و ایمیل خود ، فایل مورد نظر به ایمیل شما ارسال گردیده و همچنین لینک دانلود فایل بلافاصله برایتان به نمایش درخواهد آمد.

– قابل پرداخت با تمام کارتهای بانکی + رمز دوم

– پشتیبانی سایت ۰۹۳۵۹۵۲۹۰۵۸ – Info@tnt3.ir – universitydatainfo@yahoo.com




سفارش ترجمه متون عمومی و تخصصیفروشگاه اینترنتی کتاب - خرید آنلاین کتاب - دانلود کتاب الکترونیکی

جوابی بنویسید

ایمیل شما نشر نخواهد شد

7 − شش =

شما می‌توانید از این دستورات HTML استفاده کنید: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>


This site is using the Seo Wizard plugin by http://seo.uk.net/