เหตุผลที่ทำให้ Machine Learning ไม่ใช่คำตอบของการฉ้อโกงโฆษณาบนสมาร์ทโฟน
ศึกแย่งชิง user รายใหม่ๆเข้าแอปกำลังดุเดือด แถมในแอปสโตร์ยังมีตัวเลือกเป็นล้านๆ ทำให้ตอนนี้เงินทุกบาททุกสตางค์ที่นักการตลาดใช้เพื่อเรียกลูกค้าจึงมีความสำคัญยิ่งยวด และนักการตลาดต้องรู้ทันหากคิดจะต่อกรกับการฉ้อโกงโฆษณา โดยมีการประมาณว่า พอถึงปีค.ศ. 2022 มูลค่าของการฉ้อโกงโฆษณาอาจสูงถึง 44,000 ล้านดอลลาร์สหรัฐ แต่ผลกระทบของการฉ้อโกงโฆษณาไม่ใช่แค่เรื่องตัวเงินเท่านั้น แต่ยังมีเรื่องข้อมูลไม่ดี (bad data) ซึ่งสามารถส่งผลต่อแคมเปญไปอีกหลายปีข้างหน้า โดยจะบิดเบือนผลลัพธ์ และส่งผลต่อการตัดสินใจทางธุรกิจสำคัญๆ และการทำแคมเปญแบบไม่นับจำนวนผู้ชมซ้ำ (Unique Audience campaign) ในอนาคต
อย่างไรก็ตาม ดูเหมือนเราจะมีทางออก นั่นคือการเรียนรู้ของเครื่อง (machine learning หรือ ML) บรรดานักการตลาดสมาร์ทโฟนเล็งเห็นความก้าวหน้าของการนำ ML มาใช้ต่อกรกับการฉ้อโกงโฆษณา แต่ยังอีกนานกว่า ML จะพัฒนามาเป็นเครื่องมือที่ใช้งานง่ายและได้ผลทุกครั้ง อีกทั้งเรายังพบจุดอ่อนอีกมากมายที่จะต้องคอยระวังหากคิดจะใช้ ML มาช่วยจัดการกับการฉ้อโกงโฆษณา
ปัญหานั้นอยู่ที่ ML อาจเป็นวิธีที่ดีในการตรวจจับการฉ้อโกงโฆษณา แต่ตัวมันเองก็ยังไม่พร้อมที่จะทำหน้าที่ตัดสินใจว่าควรปฏิเสธจำนวนคนที่เข้าเว็บไซต์ใดบ้าง บทความนี้จะแสดงให้เห็นว่า เหตุใด ML จึงยังไม่พร้อมสำหรับการใช้งานในช่วงที่มีคนเข้าเว็บไซต์หนาแน่น
ปัญหาเกี่ยวกับ ML และการตรวจจับการฉ้อโกงโฆษณา
ML ไม่ใช่เครื่องมือที่จะสามารถใช้งานได้เลยในตอนนี้ ยังต้องใช้เวลากว่าโปรแกรม มันจะเรียนรู้และปรับตัวเอง หมายความว่า ML เหมาะจะใช้เพื่อการคัดกรองการปลอมแปลงอย่างครอบจักรวาล การนำ ML มาคัดกรองโดยเจาะจงประเภทใดประเภทหนึ่งนั้นสามารถสร้างปัญหาได้ user ตัวปลอมต้องถูกคัดออกจากชุดข้อมูลที่มี user ตัวจริงรวมอยู่ด้วย โฮสต์ทั้งหมดของ edge case ที่ไม่ชัดเจน ประกอบกับ ML ไม่สามารถใช้งานได้ดีในพื้นที่ที่มีความกำกวม
ยกตัวอย่างเช่น มิจฉาชีพสามารถ “ฟาร์ม” ข้อมูลจากอุปกรณ์ตัวจริงและนำไปสวมรอยพฤติกรรม user ตัวจริง ซึ่งรวมถึงการระบุแหล่งที่มาใดๆ ก็ตามที่ได้รับจาก SDK มิจฉาชีพยังใช้ข้อมูลต่างๆ ของ user ที่มีตัวตนจากอุปกรณ์ตัวจริง (เช่น การตั้งระบบ OS ไอดีของอุปกรณ์แอนดรอยด์ และการตั้งค่าให้สอดคล้องกับพื้นที่) โดยไม่ถูกตรวจพบ เพราะจากข้อมูลเชิงประวัติ user ก็เป็น user จริง อีกทั้งดังเช่นอัลกอริทึมของ ML จำแนกการโกงดังกล่าวได้ลำบาก
ท้ายที่สุด กิจกรรมของ user ตัวจริงอาจถูก ML จัดให้เป็นการฉ้อโกง เพราะ ML อาจมองว่าข้อมูลอุปกรณ์ของแท้เป็นการปลอมตัวที่ไม่แนบเนียน และประเด็นสำคัญก็คือ การที่ไม่รู้ว่าข้อมูลต่อยอดทางธุรกิจ หรือ data point ใดเป็นของจริงหรือของปลอมจะรบกวนการฝึกโครงข่ายประสาทเทียม (neural networks) ของ ML เราเห็นแล้วว่ามิจฉาชีพปลอมแปลงคำขอใด ๆ ได้เสมือนจริง ซึ่งรวมถึงระบบวัดผลของลูกค้าเอง ด้วยข้อมูลที่ดูเหมือนถูกต้องตามกฎหมาย ทำให้ยิ่งยากที่จะระบุตัว user ที่โดนปลอมแปลง แม้ว่าเราได้ติดตามพฤติกรรมของ user เหล่านั้นมาระยะหนึ่งแล้วก็ตาม
ทำความเข้าใจกับวิธีการตัดสินใจของ ML
มิจฉาชีพบางคนอาจทำพลาด (เช่น การสร้างปฏิสัมพันธ์ของ user ตัวปลอม ซึ่งถูกจับพิรุธได้ง่าย) แต่มิจฉาชีพสามารถเรียนรู้ได้ตลอดเวลาไม่ต่างกันกับอัลกอริทึม และการปลอมครั้งต่อๆ ไปอาจดูแนบเนียนมากยิ่งขึ้น ML อาจชะงักได้เมื่อต้องเผชิญกับสถานการณ์ใหม่ที่ไม่คุ้นเคย เรื่องนี้ทำให้เราเอาแน่เอานอนกับ ML ไม่ได้เมื่อต้องใช้งานจริง หากไม่มีการควบคุมดูแลและเขียนโปรแกรมอย่างเหมาะสม
จะทำหน้าที่ปฏิเสธการฉ้อโกงได้เต็มตัวนั้น โครงข่ายประสาทเทียม (หรือ neural network) จำเป็นต้องตัดสินใจ ณ ช่วงเวลาของการระบุแหล่งที่มาเมื่อมีการตัดสินใจด้านค่าใช้จ่ายก้อนใหญ่สำหรับแคมเปญหลัก ซึ่งเป็นช่วงเวลาหนึ่งที่ระบบจะรู้ข้อมูลเกี่ยวกับตัว user น้อยมาก อีกทั้งเพื่อต่อกรกับเรื่องนี้และเพื่อระบุว่า user นั้นชอบธรรมหรือไม่ ML จะพยายามตรวจจับรูปแบบที่ซับซ้อนมากขึ้นครอบคลุมชุดข้อมูลขนาดใหญ่ นั่นรวมไปถึงลักษณะต่าง ๆ ที่อาจดูคลุมเครือด้วย ท้ายที่สุด ML ก็จะสร้างชุดกฎเกณฑ์ที่ซับซ้อนมาก มาเพื่อระบุ identifier ที่ดูไม่น่าเกี่ยวข้องกันแต่มาจับกลุ่มจับคู่กัน จนวุ่นวายไปหมด
ด้วยแผนผังการตัดสินใจที่ซับซ้อนและเข้าใจยากเหล่านี้ ผู้ขายอุปกรณ์ป้องกันการโกงซึ่งอาศัย ML เพื่อใช้ปฏิเสธ อาจยอมให้กระบวนการตัดสินใจมีความโปร่งใสน้อยลง โดยไม่เคยอธิบายว่าพวกเขาทำอะไรไปหรือทำไปทำไม สิ่งเหล่านี้อาจมีแนวโน้มที่จะก่อปัญหาในการป้องกันการฉ้อโกงได้ในอนาคตได้
ทำไมความโปร่งใสจึงเป็นกุญแจสำคัญ
ท้ายที่สุดแล้วผู้ลงโฆษณาจะต้องยุติข้อพิพาทกับเครือข่ายเกี่ยวกับการฉ้อโกง และโดยทั่วไปแล้ว เครือข่ายจะขาดความสามารถในการผลิตซ้ำหรืออธิบายเหตุผลของการปฏิเสธ จึงต้องอ้างอิงจากคำพูดลูกค้า ลูกค้าเองจะอาศัยบริการกระบวนการระบุแหล่งที่มา attribution เพื่อให้ได้คำอธิบายเรื่องความคลาดเคลื่อนที่ซ่อนเร้นอยู่ แม้ว่าเรื่องนี้อาจนั่นอาจจะไม่ใช่เรื่องใหญ่ถ้าเกิดแค่นิดหน่อยในจำนวนคนที่เข้าเว็บไซต์ แต่ถ้าคุณต้องรับมือกับจำนวนมากมายคนที่เข้าเว็บไซต์และเป็นรายที่โดนสวมรอยมา เครือข่ายก็จะถามหาเหตุผลพร้อมรายละเอียดก่อนจึงจะปฏิเสธได้
หากผู้ให้บริการกระบวนการ attribution ไม่อาจให้ความกระจ่างได้ว่า ทำไมถึงปฏิเสธการระบุแหล่งที่มานี้ เรื่องนี้ก็จะกลายเป็นความคิดเห็นส่วนตัว ความคิดเห็นนี่อาจเถียงกันไม่รู้จบกัน และมักต้องแพ้เมื่อเจอข้อมูลไร้สีสันแต่มีข้อเท็จจริงยืนยันแน่นหนา อีกทั้งหากอุตสาหกรรมเริ่มต้นไปในทิศทางนี้ เราอาจจะพบกับสถานการณ์ที่เครือข่ายอาจพยายามแสดงการคัดกรองการฉ้อโกงทุก ๆ ครั้งให้เป็นแค่เพียงความคิดเห็นหนึ่งเท่านั้น เครือข่ายอาจมองการคัดกรองเพื่อขจัดการฉ้อโกงว่าเป็นแค่ความคิดเห็นหนึ่งเท่านั้น
ท้ายที่สุดแล้ว ML คือเครื่องมือที่ดีในการตรวจจับการฉ้อโกง แต่ตอนนี้ยังไม่ถึงขั้นที่เราจะใช้ ML ปฏิเสธการฉ้อโกงโฆษณา ในสถานการณ์ปัจจุบัน ML อาจมองข้าม edge case การตัดสินใจอาจถูก ML ปฏิเสธทั้งที่มีตรรกะและเหตุผล เราจึงต้องทำงานหนักเพื่อจะสร้างตัวกรองที่เหมาะสมแก่การยับยั้งการฉ้อโกง โดยไม่ปฏิเสธการดาวน์โหลดจากแหล่งต่าง ๆ ที่ชอบด้วยกฎหมาย

