למה כתיבה של בינה מלאכותית נשמעת רובוטית (ואיך לתקן את זה)

אתם מדביקים טיוטה מ-ChatGPT, מ-Claude או מ-Gemini, קוראים אותה שוב, ומשהו לא מסתדר. הדקדוק מושלם. העובדות בסדר. אבל זה נקרא נוקשה, שטוח, חלול באופן מוזר, כמו עלון פרסומת שכתבה ועדה שמעולם לא פגשה אתכם. אם הרגשתם את זה, אתם לא מדמיינים. כתיבה של בינה מלאכותית נשמעת רובוטית מסיבות שאפשר ממש לתת להן שם, וברגע שיודעים לתת להן שם, אפשר לתקן אותן תוך דקות.

המדריך הזה מפרק בדיוק למה כתיבה של בינה מלאכותית נשמעת רובוטית ומה לעשות בקשר לזה. נסתכל על הדפוסים הספציפיים שחושפים טקסט שנוצר על ידי מכונה, למה קוראים מוצאים אותם מרתיעים, למה גלאי בינה מלאכותית מסמנים בדיוק את אותם דפוסים, ואילו עריכות קונקרטיות גורמות לטקסט להישמע אנושי. שום דבר מזה לא דורש פרומפטים קסומים או זריקת הטיוטה לפח. רוב זה מסתכם בגיוון, בפירוט קונקרטי, ובנקודת מבט שהמודל לא יכול להמציא במקומכם.

יש לכם טיוטה שנקראת נוקשה? הדביקו אותה בכלי ההאנשה החינמי שלנו וצפו בה קולטת מקצב משפטים מגוון, משלב מדובר וטבעי, פעלים פשוטים יותר, ומילות קישור שחוקות שהוסרו, כך שהיא נקראת כמו שאדם באמת היה כותב. בלי הרשמה, בלי מלכודות. לא בטוחים עד כמה הטקסט שלכם באמת נקרא רובוטי? העבירו אותו קודם דרך גלאי הבינה המלאכותית החינמי שלנו כדי לראות אילו קטעים נשמעים שטוחים כמו של מכונה, ואז תקנו את המקומות האלה ביד או עם כלי ההאנשה. זו דרך מהירה לזהות את הדפוסים לפני שהקוראים שלכם יזהו אותם.

הסימנים המבניים: מקצב אחיד ומילים צפויות

הסיבה הגדולה ביותר לכך שכתיבה של בינה מלאכותית נשמעת רובוטית היא המקצב. בכתיבה אנושית יש את מה שבלשנים מכנים פרצנות (burstiness): משפט ארוך ומתפתל שאחריו בא משפט קצר. שבר משפט. ואז פסוקית באורך בינוני שחוזרת אל הנקודה. מודלי שפה, כשהם פועלים בברירת המחדל שלהם, נוטים להפיק משפטים באורך ובצורה דומים, זה אחרי זה, עד שהטקסט מתייצב על זמזום מונוטוני. שום דבר לא צורם, אבל שום דבר גם לא נחת.

הסימן השני הוא בחירת המילים. מודלים מאומנים לחזות את המילה הבאה הסבירה ביותר, ולכן הם נמשכים אל ניסוחים בטוחים ובתדירות גבוהה. חוקרים קוראים לזה תמיהה נמוכה (low perplexity): הטקסט לא מפתיע כמעט בשום מקום. לכן טיוטות של בינה מלאכותית נשענות על אותו מאגר קטן של מילים שנשמעות מרשימות. אם שמתם לב שביטויים כמו 'להעמיק', 'למנף', 'מרקם', 'עדות', 'נוף', 'תחום' ו'לנווט את המורכבויות של' צצים טיוטה אחרי טיוטה, זו התפלגות ההסתברויות שמדברת, לא כותב שעושה בחירה.

פתיחות המשפטים מחמירות את זה. פסקאות של בינה מלאכותית נוטות להתחיל באותו אופן, ב'בעולם המהיר של ימינו', או בצעדה אחידה של נושא-פועל-מושא שאף פעם לא משתנה. הערימו אורך משפט אחיד על אוצר מילים צפוי על פתיחות חוזרות, ותקבלו בדיוק את התחושה השטוחה והמלאכותית שגורמת לעיני הקורא להיזגג. התיקון הוא לא מילים מפוארות יותר. זה יותר שונות.

מילות קישור שחוקות, דקדוק נוקשה, וזהירות יתר

פתחו כמעט כל טיוטה של בינה מלאכותית ותמצאו את אותו רקמת חיבור: 'יתרה מכך', 'זאת ועוד', 'בנוסף', 'לסיכום', 'חשוב לציין ש'. מילות הקישור השחוקות האלה נכונות דקדוקית וכמעט אף פעם לא הדרך שבה אנשים באמת כותבים. כותבים אמיתיים מחברים רעיונות בעזרת פסיק, מקף, 'אבל', או פשוט המשפט הבא. כשכל פסקה מולחמת לקודמתה ב'זאת ועוד', התפרים נראים.

דקדוק שהוא פורמלי מדי נקרא רובוטי בפני עצמו. בעברית זה מתבטא בניסוח מסורבל ומרוחק, בהעדפה עקבית של הצורות הגבוהות על פני אלה שאדם היה אומר בשיחה. משלב מדובר וטבעי הוא אחד הסימנים המהירים ביותר לקול אנושי, והיעדרו גורם לטקסט להישמע כמו כתב ויתור משפטי. אותו דבר עם זהירות היתר: 'עשוי', 'עלול', 'עשוי פוטנציאלית', 'במקרים מסוימים' מפוזרים בכל מקום עד שהכתיבה לא מתחייבת לכלום.

ואז יש את כלל השלושה. מודלים אוהבים שלשות: 'ברור, תמציתי ומשכנע'; 'לרתק, ליידע ולעורר השראה'. שלשה אחת היא רטוריקה. חמש ברצף הן טיק עצבני. שלבו את ההרגלים האלה עם ניסוח כללי וחסר קול שיכול להתאים לכל נושא בעולם, ותקבלו טקסט שהוא טכנית על הנושא שלכם בזמן שהוא לא אומר שום דבר שרק אתם יכולים לומר. העמימות הזאת היא התחושה החלולה שקוראים מתארים אבל לעתים רחוקות מצליחים לתת לה שם.

מה קוראים שמים לב אליו מול מה שגלאים מסמנים

הנה החפיפה הכנה שרוב הכתבות מדלגות עליה. קוראים אנושיים וגלאי בינה מלאכותית מגיבים לאותם דפוסים בסיסיים; הם פשוט מתארים אותם אחרת. קורא אומר שהכתיבה מרגישה כללית, מכירתית או חלולה. גלאי מדווח על הסתברות גבוהה שהטקסט נוצר על ידי מכונה. שניהם קולטים פרצנות נמוכה, בחירת מילים צפויה, ומבנה נוסחתי. הקורא מרגיש את זה; הגלאי מודד את זה.

קוראים שמים לב לתסמינים שעל פני השטח: אין שום דבר קונקרטי לאחוז בו, אין עמדה אישית, מילות קישור שנשמעות כמו תבנית, נימה שהיא בטוחה בעצמה אבל ריקה באופן מוזר. גלאים מכמתים את המנגנון שמתחת, בעיקר תמיהה (עד כמה בחירות המילים מפתיעות) ופרצנות (עד כמה אורך המשפטים משתנה). נמוך בשניהם הוא החתימה הקלאסית של פלט בינה מלאכותית לא ערוך, ולכן טיוטה שמשעממת בן אדם בדרך כלל גם תיתפס בגלאי.

המסקנה המעשית מעודדת: תיקון הכתיבה כך שהיא באמת נקראת טוב יותר נוטה לעזור לשני הקהלים בבת אחת. זה לא עניין של תעתוע במערכת. כשאתם מוסיפים גיוון אמיתי, פרטים קונקרטיים ונקודת מבט אמיתית, הטקסט נעשה מרתק יותר עבור אנשים, וכתופעת לוואי טביעת האצבע הסטטיסטית שלו מפסיקה להיראות שטוחה כמו של מכונה. כתבו עבור האדם, והסימנים המבניים ידאגו לעצמם ברובם.

איך מתקנים את זה: מעבר עריכה קונקרטי

התחילו במקצב, כי הוא נותן את התועלת הגדולה ביותר במאמץ הקטן ביותר. עברו על הטיוטה וגוונו במכוון את אורך המשפטים. פרקו משפט ארוך אחד לשניים. אחדו שני קצרים. הכניסו משפט בן שלוש מילים כדי להדגיש. קראו את הפסקה ושאלו את עצמכם אם הפעימות מרגישות מכניות. אם כל משפט זורם בערך באותו אורך, האוזן שומעת מטרונום, ופרצנות היא בדיוק מה שחסר למטרונום.

אחר כך, צודו וגזרו. מחקו את 'יתרה מכך', 'זאת ועוד' ו'לסיכום', ואז בדקו אם הרעיונות עדיין מתחברים בלעדיהם; בדרך כלל כן. הוסיפו משלב מדובר וטבעי לאורך כל הטקסט. החליפו פעלים מנופחים בפשוטים: 'להשתמש' במקום 'למנף' ו'לעשות שימוש', 'לחקור' או 'לצלול לתוך' במקום 'להעמיק'. חסלו את השלשות הריקות. כל אחת מהעריכות האלה דוחפת את אוצר המילים הרחק מהמרכז הצפוי ולעבר האופן שבו אתם באמת מדברים.

לבסוף, הוסיפו את מה שמודל לא יכול: מהות ועמדה. החליפו טענה כללית אחת בדוגמה קונקרטית, מספר אמיתי, כלי ששמו נזכר, תרחיש ספציפי. הביעו דעה שהקורא יכול לחלוק עליה. ואז קראו את הכל בקול, כי האוזן שלכם תופסת נוקשות שהעין מדלגת עליה. אם משפט קשה לאמירה, הוא קשה לקריאה. המהלכים האלה, גיוון משפטים, גזירת מילות קישור, משלב מדובר, פרטים קונקרטיים, פעלים פשוטים וקול אמיתי, הם בדיוק מה שכלי האנשה טוב עושה באופן אוטומטי כשאין לכם זמן לעשות את המעבר ביד.

למה פרומפטים לבד רק לעתים נדירות מתקנים את זה

שאלה הוגנת: אי אפשר פשוט לומר למודל לכתוב כמו בן אדם? חלקית. פרומפטים טובים יותר עוזרים, ובקשה לגיוון באורך המשפטים, למשלב מדובר ולדמות ספציפית תשפר את הטיוטה הראשונה. אבל פרומפטים נלחמים בהתנהגות הליבה של המודל, שהיא לחזות את ההמשך הבטוח והסביר ביותר. בקשו אישיות ולעתים קרובות תקבלו את התפיסה של המודל לגבי אישיות, שהיא עוד דפוס שחוק במקום שלכם.

המגבלה העמוקה יותר היא שהמודל לא מכיר את הפרטים שלכם. הוא לא יכול לספק את המספר מהפרויקט שלכם עצמכם, את האנקדוטה מיום שלישי שעבר, או את הדעה הנחרצת שאתם באמת מחזיקים בה. אלה בדיוק המרכיבים שגורמים לכתיבה להרגיש חיה ובלתי ניתנת להחלפה, ואף פרומפט לא ממציא אותם יש מאין. פרומפטים יכולים להפוך טקסט של בינה מלאכותית לפחות רובוטי; הם לא יכולים להפוך אותו לשלכם. הפער הזה הוא באחריותכם לסגור.

כאן מעבר עריכה, ביד או עם כלי האנשה, מוכיח את ערכו. כלי האנשה מבנה מחדש את המקצב, מסלק את מילות הקישור השחוקות, מחזיר משלב מדובר, ומחליף מילים מנופחות בפשוטות באופן אוטומטי, מה שמטפל בדפוסים המכניים במהירות. אתם אז מוסיפים בשכבה את הפרטים והעמדה שרק לכם יש. המטרה לכל אורך הדרך נשארת אותה מטרה כנה: לא להפוך טקסט לבלתי ניתן לזיהוי או לנצח מערכת כלשהי, אלא להפוך כתיבה של בינה מלאכותית לקריאה, טבעית ואנושית באמת עבור האנשים שחשובים, הקוראים שלכם.

שאלות נפוצות

למה כתיבה של בינה מלאכותית נשמעת רובוטית אפילו כשהדקדוק מושלם?

דקדוק מושלם הוא חלק מהבעיה, לא מהפתרון. כתיבה של בינה מלאכותית נשמעת רובוטית בגלל דפוסים מבניים שאין להם שום קשר לתקינות: אורך משפט אחיד, בחירות מילים צפויות בעלות הסתברות גבוהה, פתיחות חוזרות, ומילות קישור שחוקות כמו 'יתרה מכך' ו'לסיכום'. כתיבה אנושית מגוונת את המקצב שלה ולוקחת סיכונים קטנים בבחירת המילים. טקסט ללא רבב אך שטוח הוא החתימה הקלאסית של בינה מלאכותית.

אילו מילים גורמות לטקסט להישמע כמו בינה מלאכותית?

יש מילים שמופיעות הרבה יותר בפלט של בינה מלאכותית מאשר בכתיבה אנושית טבעית. החשודים המיידיים הם 'להעמיק', 'למנף', 'מרקם', 'עדות', 'נוף', 'תחום', 'לנווט' ו'לעשות שימוש', בתוספת ביטויים כמו 'בעולם המהיר של ימינו' ו'חשוב לציין'. אף אחת מהן לא שגויה בפני עצמה, אבל הריכוז שלהן הוא סימן מובהק. החלפתן בשפה פשוטה וספציפית יותר היא אחת הדרכים המהירות ביותר לגרום לטקסט של בינה מלאכותית להישמע אנושי.

האם גלאי בינה מלאכותית וקוראים אנושיים שמים לב לאותם דברים?

במידה רבה כן, רק במונחים שונים. קוראים אומרים שהכתיבה מרגישה כללית, מכירתית או חלולה. גלאים מדווחים על הסתברות גבוהה שהטקסט נוצר על ידי מכונה. שניהם מגיבים לאותם דפוסים בסיסיים, בעיקר פרצנות נמוכה (מעט שונות באורך המשפטים) ותמיהה נמוכה (בחירות מילים צפויות מאוד). עריכה שבאמת משפרת את הקריאוּת עבור אנשים גם נוטה להפחית את הסימנים המבניים שגלאים מודדים.

איך אני גורם לטקסט של בינה מלאכותית להישמע יותר אנושי?

עשו מעבר עריכה ממוקד. גוונו את אורך המשפטים כך שהמקצב יהיה לא אחיד ולא מטרונומי. גזרו מילות קישור שחוקות כמו 'זאת ועוד' ו'לסיכום'. הוסיפו משלב מדובר וטבעי. החליפו פעלים מנופחים ('למנף', 'לעשות שימוש') בפשוטים ('להשתמש'). הוסיפו פרטים קונקרטיים, דוגמה או מספר אמיתי, ונקודת מבט אמיתית. ואז קראו את זה בקול כדי לתפוס נוקשות. כלי האנשה יכול להפוך את החלקים המכניים של המעבר הזה לאוטומטיים.

האם כלי האנשה יכול להפוך את הכתיבה שלי לבלתי ניתנת לזיהוי או להבטיח מעבר של גלאים?

שום כלי כנה לא צריך להבטיח את זה, ואנחנו לא מבטיחים. המטרה של כלי האנשה טוב היא לגרום לכתיבה להיקרא בטבעיות ולהישמע אנושית, לא להביס מערכת זיהוי כלשהי או לתת הבטחות. הוא מבנה מחדש את המקצב, מסיר מילות קישור נוסחתיות, מחזיר משלב מדובר, ומעדיף פעלים פשוטים כך שהטקסט באמת קריא יותר. שיפור הכתיבה עבור אנשים אמיתיים הוא העניין; טביעת אצבע סטטיסטית נקייה יותר היא תופעת לוואי, לא הבטחה.