در این فرمول wa,u مقدار تشابه میان کاربر a و u می باشد و K مجموعه کاربران موجود در مجوعه همسایگی می باشند. محاسبه تشابه بر اساس فرمول پیرسون بر اساس وجود وابستگی خطی میان دو متغیر عمل می نماید.
از دیدگاه دیگر می توان امتیاز داده شده توسط دو کاربر را به عنوان دو بردار در یک فضای m بعدی در نظر گرفت و تشابه میان دو کاربر را بر اساس کسینوس زاویه میان این دو بردار محاسبه نمود[۲۶] در فرمول شماره ۳ نحوه محاسبه این روش بیان شده است.
(۳)
بر اساس قوانین حاکم بر فرمولهای ریاضی، در زمان محاسبه تشابه دو کاربر بر اساس فرمول تشابه کسینوسی، امتیاز یک کاربر به یک آیتم نمیتواند منفی باشد و امتیاز آیتمهایی که به آنها توسط کاربر امتیازی تخصیص داده نشده است صفر در نظر گرفته می شود. مطالعات تجربی[۲۱] نشان داده است که دقت فرمول پیرسون در محاسبه تشابه از دقت فرمول کسینوسی بیشتر است. روش های محاسبه تشابه دیگری نیز در تحقیقات مختلف بیان شده است که می توان به پارهای از آنها اشاره نمود[۲۷][۲۸]:
Spearman rank correlation
Kendall’s τ correlation
mean squared differences
entropy
adjusted cosine similarity
۲-۲-۱-۱- روش پالایش گروهی مبتنی بر آیتم[۴۳]
بکارگیری روش پالایش گروهی مبتنی بر حافظه در شرایطی که در محیطهای واقعی میلیونها کاربر و آیتم وجود دارد به دلیل پیچیدگیهای محاسباتی جستجوی کاربران مشابه، از بازده مناسبی برخوردار نیست لذا روش پالایش گروهی مبتنی بر آیتم مطرح گردید که در این روش علاوه بر تشابه میان کاربران، تشابه میان آیتم هایی که توسط کاربر مقصد امتیاز داده شده اند با آیتمهای مشابه نیز، در نظر گرفته می شود. در عمل و تحقیقات انجام شده، ثابت شده است که این روش در سیستمهای توصیهگر برخط از سرعت بالاتری برخوردار است و در اکثر مواقع جواب بهینهتر و با خطای کمتری تولید می کند[۲۹][۲۲].
در این روش تشابه میان دو آیتم i و j در پس زمینه و از طریق فرمول پیرسون، مطابق فرمول شماره ۴ محاسبه میگردد.
(۴)
در این فرمول U مجموعه تمام کاربرانی می باشد که به هر دو آیتم i و j امتیاز دادهاند و ru,i بیانگر امتیاز کاربر u به آیتم i میباشد و بیانگر میانگین امتیازاتی است که توسط کاربران مجموعه U به آیتم i داده شده است. با توجه به تعاریف و مطالب فوق پیش بینی امتیاز کاربر a به آیتم i از طریق محاسبه میانگین وزنی و مطابق فرمول شماره ۵ محاسبه میگردد.
(۵)
در این فرمول K مجموعه آیتمهایی می باشد که بیشترین تشابه با آیتم i را دارند و توسط کاربر a به آنها امتیازی تعلق گرفته است. برای روش مبتنی بر آیتم نیز میتوان از روش کسینوسی مانند adjusted cosine similarity استفاده نمود که مقایسه دقیق و عملی میان انواع متدهای موجود در این زمینه، توسط برخی از محققان انجام و منتشر گردیده است[۲۲].
( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
۲-۲-۱-۲- امتیازدهی به صورت پیش فرض
یکی از روش های حل مشکل محاسبه تشابه میان دو کاربر که دارای آیتمهای مشترک اندکی هستند، استفاده از یک مقدار امتیاز پیش فرض برای آیتمهایی می باشد که صراحتا توسط کاربران امتیازی به آنها داده نشده است، در این حالت از فرمول شماره ۱ می توان جهت محاسبه میزان تشابه دو کاربر استفاده نمود. تحقیقات نشان داده است که در نظر گرفتن مقدار پیش فرض می تواند باعث بهبود نتایج گردد[۲۱].
۲-۲-۱-۳- تشدید حالت(Case Amplification)
جهت اهمیت دادن به نظرات کاربرانی که دارای تشابه بیشتری با کاربر مقصد میباشند محققان ضریبی را تحت نام “تشدید حالت” تعریف نموده اند که مقدار تشابه محاسبه شده از طریق فرمول شماره ۲ را تغییر میدهد. در فرمول شماره ۶ ، p فاکتور تشدید می باشد و مقدار آن بزرگتر مساوی ۱ است.
(۶)