תוכן משוכפל – הגורמים והפתרונות באתרי וורדפרס

מה זה תוכן משוכפל, מהם הדרכים לזהות אותו וכיצד להמנע ממנו?

אחת הבעיות בעולם הקידום ו – SEO, כזו שעלולה למנוע מאתר לעלות בדירוגים ולהצליח להתקדם באופן אורגני, היא תוכן משוכפל.

למנועי חיפוש כמו גוגל יש בעיה עם תוכן זהה שמופיע במספר מקומות ברשת כמו גם עם תוכן דומה המופיע במספר מקומות באותו אתר.

חשוב להבין: בעיני גוגל, תוכן משוכפל הוא כל עמוד בעל תוכן זהה המוצג בכתובות שונות (URL's). בהמשך המאמר נעמוד על ההבדלים השונים, אבל כבר בשלב הזה צריך להדגיש – כל עמוד באתר שקריא ונגיש לגוגל צריך להיות מיוצג על ידי כתובת URL אחת בלבד.

כאשר תוכן באתר מופיע בכמה כתובות שונות, הוא עלול להיות נגיש לגולשים בכל אותן כתובות, וכשאתרים חיצוניים מתחילים לקשר לכל הוריאציות השונות של הכתובות הבעיה מחמירה.

מדוע עליכם לייחס חשיבות לתוכן משוכפל באתר שלכם או באתר הלקוח? התשובה פשוטה – כי זה עלול לפגוע בחשיפת האתר לגולשים. במרבית המקרים, אם גוגל תזהה תוכן משוכפל באתר, היא תבחר בעצמה איזה עמוד להציג לגולשים בתוצאות החיפוש (ולא תמיד זה יהיה העמוד שאליו התכוון המשורר).

סיטואציה זו עלולה לפגוע בהתנהגות הגולשים ובחווית המשתמש באתר ומכאן שעלול להיפגע דירוגו. כתוצאה מכך עלולה להצטמצם תנועת הגולשים האורגנית לאתר ומזה אנו בעצם מנסים להמנע.

סיבות עיקריות לתוכן משוכפל בוורדפרס

קיימות לא מעט סיבות אפשריות לתוכן משוכפל באתרי וורדפרס – חלקן אמנם נובעות מהזנת תוכן לקויה או לא נכונה, אך רובן הגדול נובע דווקא מהגדרות שגויות של המערכת או סיבות טכניות שונות.

במאמר הזה נתמקד בבעיות הטכניות שמובילות לתוכן משוכפל באתר, וננסה להבין כיצד ניתן להימנע מהן. הנה חמש סיבות מרכזיות לסיטואציות אפשריות הגורמות לתוכן משוכפל:

1. כל עמוד מיוצג על ידי כתובת אחת בלבד

תופעה זו עלולה לצוץ עוד בשלב פיתוח האתר, וזאת כאשר עמוד מסוים (או מספר עמודים) נבנים בצורה כזו שניתן להגיע אליהם מ-URL שונים. אמנם מבחינת המתכנת או מפתח אתר הוורדפרס לא מדובר בבהכרח בבעיה, כלומר במסד הנתונים של וורדפרס העמוד או הפוסט מזוהים על ידי ID בודד, אך עבור מנועי החיפוש – כל כתובת משוייכת באופן חד ערכי לעמוד ספציפי.

ברגע שעמוד מסוים ניתן להצגה בשתי כתובות שונות, מדובר בשכפול וייתכן שתפגעו בעקבות. הדוגמה הטובה והנפוצה ביותר לבעיה זו, היא בעת שימוש בתת קטגוריות באתר וורדפרס:

http://www.example.co.il/category/sub-category/
http://www.example.co.il/sub-category/

שתי כתובות אלו יציגו את אותו עמוד תת-קטגוריה, אך למעשה מבחינת גוגל מדובר בשכפול תוכן – אותו עמוד מוצג בשתי כתובות שונות.

מספיק שבאתר עצמו יהיו קישורים פנימיים לשתי כתובות אלו (או אף אתרים חיצוניים שמקשרים לשתי הכתובות השונות), וגוגל יאנדקס את שתיהן ויזהה את התוכן כמשוכפל. מה עושים? שימוש בכתובות קנוניות, או הפניות 301. (ועל כך נרחיב בהמשך).

2. שימוש בפרמטרים

תוספת של פרמטרים ל-URL של עמוד מאפשרת בחלק מהמקרים למעקב אחר תנועה לעמוד, או שינויים ויזואליים קלים בעמוד, כמו הוספת והסרת סיידבר ואלמנטים גרפיים. אך שימו לב כי כל שימוש בפרמטר שאינו משנה את תוכן העמוד, עלול ליצור תוכן משוכפל. לדוגמה:

http://www.example.co.il/post-name/
http://www.example.co.il/post-name/?source=news

בדומה לסעיף הקודם, גם במקרה זה גוגל תאנדקס במשך הזמן את שתי הכתובות, מצד אחד עם הפרמטר ובנוסף את הכתובת המקורית, ויכול להיות שתזהה את התוכן כמשוכפל.

מה עושים? כדאי להימנע ככל האפשר משימוש בפרמטרים. במקרים שבהם לא ניתן להימנע, כדאי להגדיר לגוגל מה עושה כל פרמטר ומתי השימוש בפרמטרים לא משנה את תוכן הדף, וזאת באמצעות האפשרות המובנה בכלי המנהלים של גוגל. לחלופין כדאי להשתמש בכתובת קנונית שתצביע על הכתובת המקורית.

המיקום של אותם פרמטרים גם כן רלוונטי ומיקום שונה של פרמטרים באותה כתובת, גם כן נכנס לקטגוריה של כתובות שונות, ולמרות הנאמר, ברוב האתרים שתבדקו שינוי מיקום הפרמטרים אינו משפיע על תוכן העמוד ולכן יש לשים לב גם למצבים אלו.

3. שימוש בעימוד ממוספר (Pagination)

חלוקה של עמודי ארכיון או טקסונומיות למספר עמודים, עם קישורי המשך ביניהם (נאמר עמוד קטגוריה שמציג רשימת פוסטים) היא בדרך כלל צעד מבורך וחשוב מבחינת חווית המשתמש. עם זאת, במקרים בהם יש טקסט קבוע בעמוד הקטגוריה, לדוגמה תיאור של פסקה או שתיים או אפילו טקסט מורחב יותר, הוא עלול להשתכפל גם לעמודים הבאים.

בעיה דומה ואף חמורה יותר עלולה לקרות כאשר לפוסט יש תגובות רבות: אם פורסים את התגובות לעמודי המשך, הפוסט עצמו עלול להשתכפל גם בעמודים הבאים.

מה עושים? במקרים של עימוד ממוספר (pagination) בטקסונומיות, כדאי לוודא כי בעמודי ההמשך לא יופיע טקסט הפתיח של הקטגוריה (כלומר – להגדיר כך שהטקסט יופיע רק בעמוד הראשון). במקרים של עימוד בתגובות, כדאי לבדוק אפשרות לרענן את התגובות מבלי להחליף את הכתובת ה – URL של העמוד באמצעות Ajax או לוותר על העימוד.

4. גרסה להדפסה

באתרים רבים, בעיקר ותיקים, מופיע בחלק מהעמודים קישור ל״גרסה להדפסה״ של העמוד. קישור זה פותח עמוד נפרד בו מוצג התוכן בצורה נקייה על מנת להקל על הדפסת העמוד. מבחינת גוגל זהו עלול להחשב כתוכן משוכפל (כמו שהסברנו – התוכן מופיע בשתי כתובות שונות ושניהן זמינות וקריאות לגוגל ומנועי חיפוש נוספים.

מקרה זה עלול להציג בעייה נוספת מכיוון ומנועי החיפוש עלולים להעדיף את אותה גרסה להדפסה אשר ברוב המקרים נקייה יותר, נטולת פרסומות ובאנרים, ומציגה אך ורק את התוכן המרכזי. במקרה זה ייתכן שתציג גירסה זו בתוצאות החיפוש על פני העמוד המקורי.

מה עושים? כדאי לוותר על גרסה להדפסה של העמוד ולהשתמש בהגדרות CSS ליצירת תוכן מותאם להדפסה. בדיוק כפי שאתם משתמשים ב Media Queries עבור מסכים שונים ואוריינטציה, ניתן להשתמש בזו עבור גירסה להדפסה כבדוגמה הבאה:

@media print {
 /* styles go here */
}

5. גרסאות שונות של האתר

הסיטואציה בה קיימות גירסאות שונות וזהות של האתר היא אחת הבעיות הוותיקות אך הנפוצות בתחום. עם זאת, אתרים רבים עדיין סובלים ממנה: גרסה משוכפלת של האתר עם WWW, לעומת ללא WWW. אם שתי גרסאות אלו מוצגות ונגישות לגוגל, ואם ישנם קישורים פנימיים מגרסה אחת לשנייה, גוגל עלולה לזהות אלו כשכפול תוכן.

לבעיה הזו יש גם נגזרת חדשנית יותר, שהמודעות אליה אולי נמוכה יותר אך מעלה את אותו חשש: גרסת HTTP וגרסת HTTPS שמוצגות במקביל. סיטואציה זו מתקיימת כאשר לא מבצעים את תהליך המעבר ל HTTPS באופן הנכון.

מה עושים? הקפידו על הפניות 301 גורפות לגרסה המועדפת עליכם, והגדירו בכלי המנהלים של גוגל מהי הגרסה המועדפת להצגה בתוצאות החיפוש. ההגדרה בכלי המנהלים של גוגל מתבצעת בהגדרות האתר בדומה לתמונה הבאה:

דומיין מועדף - כלי המנהלים של גוגל

דומיין מועדף – כלי המנהלים של גוגל

איך לזהות תוכן משוכפל באתר?

1. סריקה באמצעות כלי Audit שונים (פרוג, וובסייט אודיטור)

כלי סריקה שונים כדוגמת Screaming Frog המצוין או כלי Audit שמבצעים סריקה טכנית של האתר, כוללים במרבית המקרים כלים לבדיקה לאיתור תוכן משוכפל באמצעות סריקת מטא-טייטל (meta-title) של כל העמודים ואיתור כפילויות. זוהי בדרך כלל אינדיקציה מספיק טובה למציאת עמודים משוכפלים.

כלי Audit מתקדמים יותר סורקים אף את תוכן הדפים עצמם ומוצאים תוכן משוכפל. אפשר גם להשתמש בכלים כמו SiteLiner שמבצע סריקה מלאה של האתר ומציג אינדיקציה לעמודים בעלי תוכן משוכפל ועוד אינפורמציה מעניינת:

מציאת תוכן משוכפל באמצעות SiteLiner

מציאת תוכן משוכפל באמצעות SiteLiner

2. כלי המנהלים של גוגל

בכלי המנהלים של גוגל (Search Console) תוכלו למצוא לשונית בשם שיפורים ב-HTML או HTML Improvements. תחת לשונית זו ניתן למצוא מטא-טייטלים משוכפלים וגם מטא-דסקריפשנים או כותרות משוכפלות.

היתרון של השימוש בכלי הזה (שרצוי לעבוד איתו לצד כלים אחרים, ולא במקומם!), הוא בעובדה שמוצגים בו רק עמודים שגוגל כבר מצא, סרק ואינדקס. כלומר – כדאי להתחיל בתיקון של העמודים האלה, על פני עמודים שגוגל עדיין לא אינדקס והסיבה לכך ברורה מאליה.

3. חיפוש פשוט בגוגל עם intitle

ביצוע חיפוש פשוט בגוגל באמצעות אופרטורים שונים יכול למקד אותנו בנוגע לתוכן שמאונדקס באתר, ואיך גוגל רואה אותו. רבים מכירים את השימוש באופרטור site: שמאפשר לראות את כל העמודים המאונדקסים באתר.

אם אתם רואים בסוף רשימת התוצאות הודעה של גוגל בנוגע לדפים שלא הוצגו בגלל שכפולים – לחצו על הקישור ותוכלו לראות מה הדפים שגוגל סינן ומהי הסיבה (לא תמיד הם באמת משוכפלים, וייתכן שחלקם רק חסומים לאינדוקס).

אם אתם יודעים על שכפול קיים באתר, ומעוניינים לראות כמה עמודים משוכפלים כאלה אונדקסו, תוכלו לצרף לחיפוש את האופרטור intitle: בשילוב ביטוי או מילת מפתח רלוונטית, וגוגל יציג את כל הדפים שהמילה מופיעה במטא-טייטל שלהם.

אחרי שזיהינו את התוכן המשוכפל – איך לתקן אותו ולמנוע שכפולים?

1. הפתרון הקל ביותר הוא פשוט להימנע מתוכן משוכפל. זה אמנם נשמע טריוויאלי, אבל כמו ציינו לא פעם – תוכן משוכפל נוצר כתוצאה מהגדרות לא נכונות באתר. חשוב להימנע מתוספי Duplicate למיניהם שעלולים (בשימוש לא מושכל וזהיר) ליצור עמודים משוכפלים, וכמובן להקפיד שבכל עמוד מופיע תוכן ייחודי לו, ורק לו.

2. שימוש בכתובות קנוניות (Canonical URL's) – אותם קישורים שמוצבים בתוך ה head של האתר, מסמנים לגוגל ולמנועי החיפוש האחרים היכן נמצא התוכן המקורי. ישנם תוספים רבים לוורדפרס שמאפשרים עריכה של כתבות קנוניות ספציפית עבור כל עמוד באתר (לדוגמה Yoast SEO). אם התוכן המשוכפל אינו ניתן להסרה או למחיקה, השתמשו בכתובת קנונית שתצביע על העמוד המקורי אליו תרצו שגוגל תתייחס.

3. שימוש בהפניות 301 – בחלק מהמקרים, בעיקר מקרים בהם מנוע החיפוש של גוגל כבר אינדקס את התוכן המשוכפל והגיב אליו, כדאי לנקוט בגישה זו. היא מהירה יותר משימוש בכתובת קנונית ונקייה יותר (כי העמוד המשוכפל מפסיק להיסרק תוך פרק זמן לא ארוך) – פשוט בצעו הפניית 301 מהעמוד המשוכפל לעמוד המקורי.

4. קישור פנימי לעמוד המקורי – אם אין אפשרות לערוך את התוכן המשוכפל, להוסיף כתובת קנונית או לבצע הפניות 301, רצוי להוסיף קישור במקום בולט בעמוד המשוכפל, שיוביל לעמוד המקורי. בצורה כזו אנחנו מספקים מעין סימן לגוגל כי אנו יודעים שהתוכן משוכפל ומובילים אותו לעמוד המקורי.

מספר נקודות להתייחסות

חשוב לציין כי ההמלצה של גוגל היא לא לחסום את התוכן המשוכפל לאינדוקס – כלומר, אל תגדירו לו תגית noindex או תחסמו אותו באמצעות robots.txt. על מנוע החיפוש לדעת שהתוכן המשוכפל קיים ולהכיר אותו, ועל ידי שימוש באחת השיטות שציינו – עלינו לגרום לו להבין מהו העמוד המקורי.

בנוסף, ובהנחה שאיתרתם תוכן משוכפל באתר והוא ניתן למחיקה או לעריכה (כלומר – תוכן שנוצר על ידי המשתמש), טפלו בו בהקדם. במידה וגוגל כבר אינדקסה את השכפול, חשוב לעדכן אותה שהנושא טופל באמצעות הגשת מפת אתר מעודכנת בכלי המנהלים (כזו שאינה כוללת את העמוד המשוכפל).

אם מחקתם פוסט או עמוד מסויים לצורך העניין, ובמידה ומפת האתר שלכם נוצרת באמצעות תוסף וורדפרס כזה או אחר – מפת האתר תתעדכן אוטומטית ללא צורך בהתערבות שלכם.

נקודה אחרונה שנציין, היא כי אם ביצעתם הפניית 301 או הוספתם כתובת קנונית לעמוד המשוכפל, מומלץ להשתמש בכלי אחזר כמו גוגל (Fetch as Google) ולשלוח מחדש לאינדקס את העמוד המשוכפל וזאת על מנת ״לאלץ״ את גוגל להתייחס לשינוי בעמוד.

האם נקבל ״עונש״ מגוגל על כל תוכן משוכפל?

במילה אחת התשובה היא לא. אם תחשבו על התוכן ברשת האינטרנט כמכלול, כ 25% ממנו הוא בעצם תוכן משוכפל כך גוגל טוענים. לצורך הדוגמה חישבו על עמודים של ״הצהרת פרטיות״, עמודי ״תקנון״ או עמודים בסגנון, אלו עמודים שהתוכן שלהם מאד דומה בהמון אתרים אז האם זה נחשב תוכן משוכפל? אנשים אף מצוטטים אנשים אחרים רבות כאשר כותבים תוכן כזה או אחר, האם גוגל יכולה להתייחס לכל אלו כתוכן משוכפל? כמובן שלא.

אם גוגל הייתה מניחה כי כל מקרה של תוכן משוכפל שהזכרנו הוא סוג של ״ספאם״, השינויים שיחולו באיכות תוצאות החיפוש של גוגל יהיו דווקא נגטיבים, ובהקשר זה נוציא מן הכלל תוכן משוכפל שהוא ספאם המנופח במילות מפתח וכדומה. בדרך כלל – רק במקרים אלו גוגל שומרים לעצמם את הזכות ״להעניש״ (Penalty) את האתר ולפגוע בדירוגו בתוצאות החיפוש.

לא נרחיב מעבר לכך, אך הכוונה היא מעט להרגיע ולומר כי מנוע החיפוש של גוגל עובד בצורה חכמה יותר משנדמה לכם, כי לא הכל שחור או לבן וכי גוגל מנסה לתת מבט על האתר שלכם בעיניים אנושיות, על כל המשתמע מכך.

באותה נשימה נציין כי אין בנאמר סיבה להשאר שאננים ולבטח עדיף להמנע מאותן סיטואציות ולתקן אותן בהתאם לצורך, אם זה לטובת פשטות הבנת אתר הוורדפרס שלכם על ידי מנועי החיפוש ואם עבור פוטנציאל דירוג האתר וחווית משתמש נכונה.

תנו מבט על הדרך בסרטון בו Matt Cutts מסביר מעט על הדרך בה גוגל מתנהלת עם תוכן משוכפל:

סיכום ואמ;לק

במאמר הזה הצגנו מספר סיבות אפשריות להיווצרות של תוכן משוכפל באתרי וורדפרס הנובעות מבעיות טכניות והגדרות שגויות. הסיבות העיקריות לתוכן משוכפל נובעות משימוש בכמה כתובות שונות שמציגים את אותו העמוד (כשלמעשה במסד הנתונים של וורדפרס מדובר בעמוד אחד בלבד).

בנוסף הצגנו מספר פתרונות לתוכן משוכפל (למניעה וטיפול), שהעיקרי שבהם הוא שימוש בתגית "rel="canonical שתצביע על מיקומו של התוכן המקורי. במקרים אחרים, ניתן לנקוט בפתרונות נוספים כגון הפניות 301, קישורים פנימיים ועוד.

המסקנה שעליכם לקחת מפוסט זה היא שיש להקפיד ולהימנע מתוכן משוכפל באתר באמצעות מעקב שיטתי וקבוע אחרי הדפים המאונדקסים באתר והתרעות שונות בכלי המנהלים של גוגל לטובת קידום האתר ו SEO נכון באתרי וורדפרס.

איתי טאו
איתי טאו

איתי טאו, מנהל פרוייקטים בחברת WebGuru לקידום אתרים. בעל ניסיון רב בכתיבה עיתונאית ועריכת תוכן, ו-5 שנות ניסיון בקידום אתרים. אוהב וורדפרס, ואת השילוב המושלם שבין יצירת תוכן איכותי לקידום תחרותי בגוגל.

{ 2 תגובות… הוסף אחת }
  • לאה 16 במאי 2018, 17:20

    הי איתי,
    מאמר מאוד מעניין.
    אפשר להתייעץ איתך (אם אפשר בפרטי) על הנושא הזה, באתר של מישהו שאני עוזרת לו (תכנותית)?
    לאה

  • מיכאל ג 19 במאי 2018, 21:56

    רק רציתי להגיד שזה הבלוג היחיד שאני מנוי לעדכוני מאמרים שלו ואף פעם לא מצטער על זה! בלשון המעטה! תוכן איכותי, סידור נעים לעין ומושקע מאוד, מגיע לך לדעת!

    ותודה על המאמר כמובן!

    דרך אגב בעבר יצרתי אתר ושמתי לב שגוגל דווקא העדיפה את גרסאות התוכן ה"משוכפלות" בעוד שזה בעצם ארכיון הבלוג, גוגל בחרה בזה כגרסה העדיפה (ידוע לי כי אפשר לחסום את זה לסריקה). מה שמעניין הוא מה מוביל את גוגל לבחירה שלה, ככל הנראה היא הולכת לפי תאריך ההופעה הראשוני באינדקס שלה, אך במקרה זה שני הדפים פורסמו במקביל, והאלגוריתם החליט בסופו של דבר שגרסת הארכיון היא המקור. מעניין..

השאירו תגובה

פעימות
video-wordpress-outside-viewport
וידאו באתרי וורדפרס – עצירת וידאו מחוץ ל Viewport

נכון יהיה להפסיק ניגון וידאו באתרי וורדפרס כאשר אלו מחוץ ל Viewport. בפרוייקט האחרון שלי,...