לחפש כדי למצוא – ומה עוד אפשר לעשות עם ניתוח תכנים

אני יושבת עכשיו במלון דניאל, בכנס SharePoint Extreme השנתי של מיקרוסופט, בסדנה בנושא ניהול מסמכים, לקראת ההרצאה שאני מעבירה בנושא של text analytics, המוכר גם בשמו content analytics (להלן ניתוח תכנים),  והתועלות העסקיות והארגוניות שלו בתחום של ניהול מסמכים וניהול ידע. הפוסט הזה מתאר חלק ממה שאדבר עליו בהרצאה.

אני ממתינה להרצאה וכותבת את הפוסט

בעידן שבו כל ארגון מייצר כמויות אדירות של מידע ומסמכים, ניהול מסמכים הוא נושא שארגונים חייבים לתת לו מענה. הבעיה היא שמדובר בפעילות שחשובה לארגון, אבל לא תמיד חשובה – ובדרך כלל לא נוחה – למשתמש. הוא רוצה לעבוד כמו שהוא רגיל ושיעזבו אותו בשקט. זו, כמובן, בעיה מוכרת בכל תחום תוכנה, אבל בשונה ממערכות תפעוליות או עסקיות, כמו למשל CRM או ERP, ניהול מסמכים היא מערכת שאפשר להסתדר בלעדיה והמשתמשים יכולים לעשות את עבודתם גם בלעדיה. והם עושים… כדי שהמשתמשים ישתלבו וישתמשו במערכת ניהול המסמכים, השימוש בה צריך לתת להם ערך מוסף, ובעיקר – הוא צריך להיות user painless.

מבחינת הארגון אחת המטרות העיקריות של מערכת ניהול מסמכים היא לאפשר את האיתור של המידע בהקשר המתאים, וראיית תמונה שלמה של המידע המנוהל בארגון. כדי לעשות את זה, מערכות ניהול מסמכים מציעות כלים שונים שעזרתם מוסיפים מידע נוסף- meta data – על כל מסמך. החל מתאריך המסמך ושם הכותב, דרך הגדרה של סוג המסמך או קישור שלו ללקוח או מוצר של הארגון וכו’. ארגונים מסויימים מרחיקים לכת ומשתמשים ברשימות היררכיות של נושאים ברמת הארגון, המכונים “עץ נושאים ארגוני” במטרה שהמשתמשים ישייכו כל מסמך לנושא או הנושאים הרלוונטיים אליו. תיוג כזה, או הוספת מילות מפתח חופשיות, מספקים הרבה מידע נוסף על המסמך. למשל, אם תייקתי מסמך שמדבר על רגולציה בתחום הסלולר, הוא קשור לסלקום גם אם שמה לא מופיע כלל במסמך. הוספת מילת המפתח "סלקום" תשלים את הפער הזה.

הבעיה היא שהוספת ה-meta data למסמך, מתנגשת חזיתית עם הרצון שלנו לאפשר למשתמש לעבוד בפשטות. בארגונים רבים, ככל שהמשתמש צריך למלא יותר מידע (ולקבל יותר החלטות כשהוא עושה את זה), כך הוא נוטה יותר לוותר על השימוש במערכת מכל וכול, והארגון מפסיד פעמיים.

אחד הפתרונות החזקים לבעיה הזו, שעבר בשנים האחרונות מפנטזיה למציאות טכנולוגית, הוא בתחום ניתוח התכנים, באמצעות מנועי החיפוש.

בראשית היה החיפוש

החיפוש הוא אחת הדרכים להגיע למידע. השאלה האם החיפוש באמת נותן לנו את מה שאנחנו צריכים כדי להגיע למידע שאנחנו רוצים. המציאות היא שבמרבית מערכות המידע ומערכות ניהול המסמכים, כולל שרפוינט, החיפוש הבסיסי נותן שירות מאוד חלקי וחסר. למה?

הצלחה של מנוע חיפוש נמדדת על פי שני מדדים: דיוק (Precision) והחזר (Recall). דיוק הוא כמות הפריטים שאוחזרו שהם רלוונטיים למה שחיפש המשתמש. החזר הוא כמות הפריטים הרלוונטיים מתוך סה”כ הפריטים הרלוונטיים שקיימים. בדוגמה שבתמונה – הדיוק הוא 6 פריטים רלוונטיים מתוך 8 שאוחזרו. לכאורה, הצלחה רבה, 75% מהתוצאות הן רלוונטיות. ההחזר הוא 6 פריטים רלוונטיים שאוחזרו מתוך 11 פריטים רלוונטיים קיימים – רק קצת יותר מ-50% מהמידע הרלוונטי שקיים. פחות מוצלח, יש מידע שהמשתמש כלל לא מודע לו ולא הגיע אליו.

image

איך מגיעים לדיוק והחזר מירביים? הכשל נמצא בשאלה, או במחשבה שמדובר בעניין אבסולוטי. למעשה, הרלוונטיות נגזרת מהצורך של המשתמש וזה עשוי להשתנות ביחס למה שעושה המשתמש כעת וכן בין משתמש למשתמש. למשל, כאשר מנהל פרויקט מחפש “סטטוס פרויקט X” הוא מחפש מידע שקשור בהתנהלות ולוחות הזמנים של הפרויקט. כאשר אותה שאילתה נשאלת ע”י סמנכ”ל הכספים, הוא מתעניין רק בעמידה של הפרויקט ביעדים התקציביים.

הבעיה אם כך היא להשיג את הרלוונטיות למשתמש. נחלק את הבעיה ל-3 חלקים: השאילתה, התוכן והתוצאות.

טיפול בשאילתה עוזר לנו להבין את הצרכים של המשתמש. כלומר: פענוח השאילתה של המשתמש בהקשר הנכון. למשל על פי התפקיד שלו, העדפות שלו והתנהגות החיפוש הקודמת שלו באתר, ההקשר החברתי שלו ועוד. ההקשר עשוי להיות בטווח קצר (השאילתה הקודמת, המסמך הקודם וכו’), בינוני (מה עשה בשבוע האחרון) או ארוך (למשל הזנת העדפות משתמש או שימוש במידע ארגוני על המשתמש). חלק מהפענוח מתבצע ע”י איתור משמעויות בתוך הטקסט של השאילתה – החל מהיבטים מורפולוגיים של השפה וכלה בזיהוי הקשרים למילון מושגים של הארגון. אפשר גם להיעזר במשתמש לצורך זה, למשל ע”י שמציגים למשתמש מספר אפשרויות הקשורות לאותה מילה – בדוגמא כאן מתוך אתר Getty images המבוסס על FAST, מנוע החיפוש נותן לי תוצאות על חיפוש המילה “Kid” ומציע לי לסנן אותן על פי 3 משמעויות שונות שיש למילה הזו – וכך אוכל להפוך אותה ליותר רלוונטית עבורי.

image

מה שתיארתי בפסקה הקודמת, מתבסס על שילוב של ידע עסקי ולשוני בתהליך. חלק מכך מסופק ע”י מוצרים קיימים בשוק שמספקים את ההיבט הלשוני הנדרש, למשל מלינגו בעברית. אחרים מחייבים שילוב ידע ארגוני בתוך הלוגיקה של מנוע החיפוש. טעות נפוצה בארגונים היא המחשבה שאם כבר שילמו על הרישוי של מנוע חיפוש, או שיש להם מנוע חיפוש בשרפוינט, כל מה שצריך לעשות זה להפעיל את המנוע וזה יספיק. ובכן, לא – יש צורך להשקיע תכנון, מחשבה ולעיתים גם פיתוח.

ההיבט השני הוא הטיפול בתוכן. לניתוח תכנים ארבעה היבטים עיקריים: חילוץ ישויות – זיהוי מונחים או ערכים משמעותיים (בין היתר מול אותו עץ מידע ארגוני שהזכרתי); קטגוריזציה אוטומטית – קיבוץ מסמכים שקשורים לאותם נושאים; מיפוי קשרים – ניתוח שעשוי להתבצע גם אוטומטית, כאשר אותם מונחים מופיעים שוב ושוב ביחד וכך אפשר ללמוד על קשר משמעותי בניהם; וניתוח רגש – sentiment analysis – זיהוי של משמעויות הנובעות מהאופן שבו מתייחסים ומתארים את המידע בתוך המסמכים. יש הרבה יישומים חזקים מאוד ליכולות האלו בארגון.

מאוד מומלץ לבצע את הניתוח מול עץ נושאים ארגוני (תזאורוס או אונטולוגיה ארגוניים). העץ הזה יכול להבנות ידנית, או בשילוב של מידע שנלקח אוטומטית מתוך מאגרי מידע של הארגון, למשל רשימת לקוחות, קטלוג מוצרים או מבנה ארגוני. השלב הבא הוא הפעלת מנוע ניתוח התכנים לאינדוקס המידע במערכת וזיהוי הקשרים בין כל מסמך ובין מונחים בעץ הארגוני.

ניתוח תכנים ע”פ הגישות שתיארתי, מאפשר לשפר את האחזור של המנוע. למשל, אם משתמש חיפש מונח מסויים ואנחנו יודעים שהוא קשור בעץ הנושאים הארגוני למונח אחר ושניתוח הקשרים מחבר אותו למונח שלישי, אנחנו יכולים להרחיב את השאילתה כך שתכלול גם את המונחים האלו ותציג לו יותר תכנים מכפי שהיה מקבל אילו חיפשנו רק ע”י מה שכתב בשאילתה.

אגב, חיפוש הוא טכנולוגיה מאוד חזקה וחשובה, אבל היא לא מספקת. יש משתמשים שלא אוהבים לחפש. גם בהנחה שנספק להם שירותי חיפוש מעולים שמביאים להם תוצאות רלוונטיות, יש משתמשים רבים שמעדיפים לדפדף בעץ התיקיות. ניתוח תכנים יכול לספק פתרון גם לכך, אם ניתחנו את המידע וקישרנו אותו לעץ הנושאים הארגוני, הוא יכול לשמש כעץ תיקיות לוגי, שהמשתמשים יכולים לדפדף בתוכו, בדומה לעץ תיקיות.

השימוש בעץ נושאים ארגוני והניתוח של מסמכים לצורך קישור שלהם לעץ, הוא כלי תשתיתי חזק מאוד שיכול לספק המון יכולות לארגון. למשל, כאשר עומד לרשותנו ניתוח כזה, אפשר להפעיל חוקים עסקיים שונים כגון חוקים של בקרת איכות, או יצירת התראות עסקיות על המסמכים. אם יש אזורים או נושאים בעץ הארגוני שקשור אליהם מעט מידע, אפשר לזהות מקומות שבהם יש פערים במידע הארגוני – או פערים בנהלי העבודה הארגוניים והמידע משום מה לא מנוהל.

לבסוף טיפול בתוצאות – גם אם לא נותנים מענה מעמיק מאוד בהיבט השאילתה וניתוח התוכן, חשוב מאוד לטפל באופן שבו המשתמש מקבל את המידע אחרי החיפוש שביצע. צריך להתאים את המידע שמוצג על המסמכים (למשל להחליט האם אנחנו רוצים להציג טקסט מתוך המסמך שבו מופיעות מילים שחיפש, או להציג תקציר) ולוודא שמציגים רק מידע משמעותי ולא תוצאות חיפוש שלא מעניינות משתמשים, כמו למשל דפי בית בפורטל הארגוני.

יש לאפשר למשתמש לסנן ולמיין את תוצאות החיפוש. שירות מאוד חשוב הוא clustering – קיבוץ של תוצאות חיפוש ע”פ נתונים שונים. המשתמש יכול לבחור בנתון כזה ולסנן את תוצאת החיפוש כדי לקבל רק מסמכים שקשורים לנתון שבחר.  אם המשתמשים הזינו meta data למסמך, מומלץ להשתמש בו. אפשר להשתמש גם בפרמטרים אוטומטיים, לדוגמא פורמט או תאריך יצירת המסמך וכן בנתונים שעלו בניתוח הטקסטים.

לא לשכוח גם לטפל בחיפושים ללא תוצאות – חשוב שהמשתמש יבין שלא מדובר בתקלה, ויקבל כלים לשפר או להמשיך את החיפוש. למשל, אם השתמש בשאילתה שלו במונח מסויים, שהוא מקושר למונח אחר או יש לו מילה נרדפת, נוכל להציע לו לבצע את החיפוש בעברת המונח החלופי.

לא Plug & Play

מה שתיארתי לעיל, לא מתקבל out of the box ממנוע החיפוש, גם אם קנינו והתקנו מנוע חיפוש יקר ומתוחכם. כדי להגיע לתוצאות טובות ותועלות לארגון ולמשתמש, צריך להשקיע. לפעמים מדובר בהשקעה קטנה יחסית שמביאה תועלות מיידיות, כמו במקרה של התאמת תוצאות חיפוש. לפעמים מדובר בהשקעה משמעותית יותר, הן בצד הפיתוח והן בצד החשיבה העסקית או הארגונית. עם זאת, להשקעה כזו עשויות להיות תועלות גדולות מאוד לארגון וחשוב לזהות את המקומות שבהם ההשקעות יביאו תועלת גדולה.

מעניין? אם אתם רוצים לקבל מידע מפורט יותר, או מתעניינים בתרחישים עסקיים נוספים, אתם מוזמנים לפנות אלי במייל: edval@matrix.co.il.

מודעות פרסומת

חיה על 5 שעות שינה

עם התגית: , , , , , , , , , , ,
פורסם ב-טכנולוגיה אנושית

להשאיר תגובה

הזינו את פרטיכם בטופס, או לחצו על אחד מהאייקונים כדי להשתמש בחשבון קיים:

הלוגו של WordPress.com

אתה מגיב באמצעות חשבון WordPress.com שלך. לצאת מהמערכת / לשנות )

תמונת Twitter

אתה מגיב באמצעות חשבון Twitter שלך. לצאת מהמערכת / לשנות )

תמונת Facebook

אתה מגיב באמצעות חשבון Facebook שלך. לצאת מהמערכת / לשנות )

תמונת גוגל פלוס

אתה מגיב באמצעות חשבון Google+ שלך. לצאת מהמערכת / לשנות )

מתחבר ל-%s

לצערי פייסבוק מסתירים את רוב העדכונים מדפים שנרשמתם אליהם. כדי להבטיח את קבלת העדכונים, עליכם להכנס לעמוד ולבצע את הפעולות הבאות:
1. העמידו את סמן העכבר על הריבוע בצד הימני העליון של המסך שבו כתוב Liked. ייפתח תפריט.
2. בראש התפריט מוצגת האפשרות Get Notifications. סמנו אותה.

אין בעיה. הזינו את האימייל שלכם כדי להרשם לבלוג ולקבל עדכונים על רשומות חדשות האימייל.

הצטרפו אל 79 שכבר עוקבים אחריו

Creative Commons License התכנים בבלוג זה מופצים תחת רישיון ייחוס-איסור יצירות נגזרות 2.5 ישראל של Creative Commons, אלא אם צויין אחרת. לשימוש נא ליצור קשר במייל.

Add to Technorati Favorites

%d בלוגרים אהבו את זה: