امروزه اطلاعات مستقر بر روی وب به سرعت در حال افزایش است و حجم بسیار زیادی از این اطلاعات در قالب XML ظاهر شده است. یکی از مزایای اصلی استفاده از XML ، نمایش دادههای غیر ساخت یافته است که قابلیتهای بسیاری را در اختیار کاربران میگذارد. ویژگی غیر ساختیافته بودن اطلاعات و انعطافپذیری XML باعث همهگیر شدن استفاده از ... ادامه مطلب »
بازیابی اطلاعات
الگوریتم و کد آماده TF-IDF
الگوریتم و کد آماده سی شارپ TF-IDF لازم به ذکر است در کد مورد نظر نرمال سازی اولیه متن و همچنین ریشه یابی به صورت مبتنی بر قاعده برای کلمات انجام می گردد. فراوانی وزنی تیاف-آیدیاف (به انگلیسی: tf–idf weight) مخفف فراوانی – عکس فراوانی سند است. در این شیوه به لغات یک وزن بر اساس فراوانی آن در ... ادامه مطلب »
معرفی سه کتاب برای پردازش زبان طبیعی
پردازش زبان طبیعی یکی از موضوعات بسیار جذاب برای محققین حوزه هوش مصنوعی است و در دهه اخیر مقالات و پژوهش های بسیاری در این حوزه انجام شده است . علاقه مندان می توانند برای آشنایی بیشتر و فهم مطالب مربوط به پردازش زبان طبیعی کتاب بسیار مفید و سودمند زیر را مطالعه کنند. Author(s): Joseph Mariani Series: Periodical: Publisher: ... ادامه مطلب »
پردازش متن – متن کاوی – NLP
پکیج متن کاوی – شامل ۴ عدد فایل فایل اول: متن کاوی چیست؟ فایل Word – زیان فارسی – شامل ۹ صفحه چکیده : تقاضا برای اطلاعات فرابری شده ا ز منابع متنی به طور فزاینده ای در حال افزایش است. ذات غیرساخت یافته ی این متون، اعمال همان روشهایی را که ما در مورد دیتابیسها بکار می بریم، غیر ممکن می ... ادامه مطلب »
کد حذف ایست واژه ها (Stop Words Remover) در زبان فارسی
کد استفاده از کتابخانه های ابزارهای پردازش متن فارسی (نرمال سازی، تشخیص جملات، تشخیص کلمات، حذف ایست واژه ها و ریشه یابی) حذف کننده کلمات ایست (Stopword Remover) در این ابزار، کلمات کم اهمیت تر و یا ایست واژه ها در صورت تایید کاربر از متون مورد پردازش، حذف میگردند. ایست واژه ها لغاتی پرکاربرد و اغلب کم اهمیتی هستند که ... ادامه مطلب »
مقاله و ترجمه : بررسی الگوریتم های خوشه بندی جریان های داده
ترجمه مقاله بررسی الگوریتم های خوشه بندی جریان های داده چکیده خوشه بندی جریان های داده در چند سال اخیر ، به دلیل حضور رو به رشد خود توجه زیادی به خود جلب کرده است. در خوشه بندی جریان های داده ، چالش های اضافی دیگری مانند زمان محدود ، حافظه محدود و خوشه بندی تک گذر وجود دارد. کشف ... ادامه مطلب »
پیکره – پرسیکا (پیکره متون خبری)
کد داده: D3921115a | ثبت در مرجع: ۱۶ بهمن ۱۳۹۲ | تعداد بازدید: ۳۳۱۷ پرسیکا پیکرهای است حاوی متون خبری برگرفته از خبرگزاری ایسنا. متون این پیکره در یازده طبقه موضوعی شامل ورزشی، اقتصادی، فرهنگی، مذهبی، تاریخی، سیاسی، علمی، اجتماعی، آموزشی، حقوق قضایی، بهداشت طبقهبندی شدهاند و پیشپردازشهایی به منظور قابل استفاده بودن در کاربردهای مختلف پردازش زبان طبیعی و ... ادامه مطلب »
پیکره بیجنخان
کد داده: D3920916a | ثبت در مرجع: ۱۶ آذر ۱۳۹۲ | تعداد بازدید: ۲۳۷۴ پیکره بیجنخانی مجموعهای است از متون فارسی شامل بیش از ۲میلیون و ۶۰۰هزار کلمه که با ۵۵۰ نوع برچسب POS برچسبگذاری شدهاند. این پیکره که در پژوهشکده پردازش هوشمند علائم تهیه شده است همچنین شامل بیش از ۴۳۰۰ تگ موضوعی چون سیاسی، تاریخی و … برای ... ادامه مطلب »
پیکره – واژگان نحوی و معنایی افعال مرکب فارسی (نسخه ۱.۰)
کد داده: D3920512a | ثبت در مرجع: ۱۲ مرداد ۱۳۹۲ | تعداد بازدید: ۲۴۴۳ واژگان نحوی و معنایی افعال مرکب فارسی (PersPred) مجموعهای است چندزبانه شامل اطلاعات نحوی و معنایی افعال مرکب زبان فارسی، ترجمه انگلیسی و فرانسوی افعال و حداقل یک جمله مثال برای هر فعل. اطلاعات نحوی بر اساس دیدگاه گروس و اطلاعات معنایی بر اساس دیدگاه لوین ... ادامه مطلب »
پیکره درختی وابستگی فارسی اوپسالا
کد داده: D3920404a | ثبت در مرجع: ۱۰ تیر ۱۳۹۲ | تعداد بازدید: ۱۹۸۲ پیکره درختی وابستگی فارسی اوپسالا (UPDT) مجموعهای است از جملات فارسی که در آن روابط نحوی کلمات بر مبنای دستور وابستگی مشخص شده است. این پیکره که در دانشگاه اوپسالای سوئد تهیه شده است، حاوی ۶.۰۰۰ جمله برگفته از پیکره فارسی اوپسالا (UPC – نسخهای تغییریافته ... ادامه مطلب »
پیکره – مجموعه همشهری (نسخه ۲)
کد داده: D3920117a | ثبت در مرجع: ۲۰ فروردین ۱۳۹۲ | تعداد بازدید: ۲۰۶۹ مجموعه همشهری پیکرهای است حاوی ۳۱۸ هزار سند مربوط به اخبار سالهای ۱۳۷۵ تا ۱۳۸۶ که با خزش (Crawl) وبسایت همشهری و چندین مرحله پیشپردازش و برچسبگذاری حاصل آمده است. همه اسناد مجموعه همشهری دارای برچسب «Cat» هستند که نشان میدهد هر سند در چه ردهای ... ادامه مطلب »
بازیابی اطلاعات
معنای عبارت بازیابی اطلاعات میتواند بسیار وسیع باشد. فقط لازم است یک کارت اعتباری از کیف پول خود خارج کنید و از آن استفاده کنید. با این کار شما نوعی بازیابی اطلاعات انجام دادهاید. در هر حال بعنوان یک شاخه مطالعاتی آکادمیک، بازیابی اطلاعات میتواند بصورت زیر تعریف شود: “بازیابی اطلاعات عبارتست از کشف اجزای (معمولاً اسناد) یک طبیعت بدون ... ادامه مطلب »
ابزارهای MATLAB برای بازیابی اطلاعات
سیستم بازیابی اطلاعات[۱] در مجموعه سند[۲]هایی که به فرمتهای گوناگون در پایگاه داده وجود دارد (حال این پایگاه داده ممکن است پایگاه دادة رابطه ای مستقل[۳] یا پایگاه دادة شبکهای ابر متن[۴] مثل اینترنت باشد)، به دنبال اطلاعات مطلوب کاربر میگردد. جستجوی اطلاعات به دو صورت امکان پذیر است: نگاه کردن کلی[۵] : در مواردی است که خواستة کاربر دقیق ... ادامه مطلب »