ทุกวันนี้เราอาจได้ยินคำว่า “บิ๊กดาต้า” บ่อยครั้งด้วยความที่มันกลายมาเป็นศัพท์การตลาดที่บริษัทต่างๆ นำมาพูดกันอย่างออกหน้าออกตา ด้วยความหวังว่าจะทำให้ผลิตภัณฑ์ของตนเองดูเข้ากระแสและดึงดูดความสนใจได้มากขึ้น (ถึงแม้ในตอนนี้ดูจะแพ้คำว่า ‘บล็อกเชน’ ไปแล้วก็ตาม) การใช้ ‘บิ๊กดาต้า’ เช่นนี้หลายครั้งก็ไม่ได้ ‘บิ๊ก’ อย่างที่โฆษณาไว้ แต่เป็นการใช้ฐานข้อมูลทั่วๆ ไปซึ่งใหญ่หน่อยเท่านั้น (ซึ่งก็ไม่ผิด) หรือบางครั้งก็เป็นการใช้ในแบบ ‘เอาให้ใหญ่เข้าว่า’ เช่น เก็บข้อมูลไว้จำนวนมากๆ โดยไม่ได้สกัดคุณค่าจากข้อมูลเหล่านั้นออกมาอย่างเต็มเม็ดเต็มหน่วย
หนังสือ Everybody Lies : What the Internet can feel us about who we really are (ทุกคนเป็นนักโกหก: อินเตอร์เน็ตทำให้เราเข้าใจว่าพวกเราจริงๆ แล้วเป็นคนอย่างไร) เป็นหนังสือน่าสนใจอีกเล่มที่พูดถึงการใช้บิ๊กดาต้าเพื่อ ‘สกัดเอาคุณค่า’ ออกมาอย่างแท้จริง และอาจทำให้เราเห็นถึงขอบข่ายศักยภาพ รวมไปถึงความน่ากลัวของบิ๊กดาต้าหากเราสามารถใช้มันได้อย่างเต็มเม็ดเต็มหน่วย
Seth Stephen-Davidowitz ผู้เขียนหนังสือเล่มนี้เป็นอดีตนักวิทยาศาสตร์ข้อมูลของกูเกิล เขาจบปริญญาเอกจากมหาวิทยาลัยฮาร์วาร์ดด้วยงานวิจัยที่ว่าด้วยการใช้บิ๊กดาต้ามาเพื่อค้นหาพฤติกรรมหรือความเชื่อที่ซ่อนอยู่ข้างใต้ หนังสือเล่มนี้เป็นผลลัพธ์จากงานวิจัยของเขาใน Everybody Lies เซธใช้หลากหลายแหล่งข้อมูลอย่างไม่เกี่ยงงอน ตั้งแต่ข้อมูลการค้นหาของกูเกิล (อย่างเช่น Google Trends ที่สามารถบอกได้ว่าคำค้นหาคำไหนได้รับความนิยมพุ่งขึ้นสูงในช่วงใด) ข้อมูลจาก Pornhub เว็บหนังโป๊ชื่อดัง ข้อมูลจากเว็บการเมืองหัวร้อนอย่าง Stormfont ข้อมูลจากโซเชียลมีเดียอย่างเฟซบุ๊ก รวมไปถึงข้อมูลที่จัดเก็บไว้ในรูปแบบที่ไม่ใช่ดิจิทัล
จากข้อมูลเหล่านี้ เซธเผยให้เราเห็นถึงแนวโน้มที่อาจขัดแย้งกับความเชื่อดั้งเดิมหลายประการ เขาเชื่อว่าข้อมูลนั้นไม่เข้าข้างใคร และหากเราเชื่อในข้อมูล (และใช้มันอย่างถูกต้อง) ก็จะเห็นสิ่งที่เกิดขึ้นจริงได้ ตัวอย่างสิ่งที่เขาอ้างถึงในหนังสือ (ซึ่งบางงานเป็นงานศึกษาของเขาเอง บางงานอ้างจากนักวิจัยอื่น) เช่น
-การลงคะแนนเสียงเลือกทรัมป์อันนำมาซึ่งชัยชนะที่หลายคนอึ้งในสองปีก่อนหน้านั้น เมื่อนำมาเปรียบเทียบดูรัฐต่อรัฐ เขตต่อเขต ก็จะพบว่ารัฐหรือเขตที่มีการค้นหาคำเหยียดผิวในกูเกิลมากๆ ก็จะมีคะแนนเสียงเลือกทรัมป์มากเช่นกันเป็นส่วนใหญ่
-ความเชื่อว่าการพิมพ์ผิดแบบ Freudian Slip บ่งบอกถึงจิตเบื้องใต้ เช่น พิมพ์ว่า Penistrian แทน Pedestrian หรือ Lipstick เป็น Lipsdick นั้น เมื่อเทียบกับสถิติการพิมพ์ผิดทั่วไปแล้วไม่จริง นั่นคือ การพิมพ์ผิดที่อาจดูลามกหรือทะลึ่ง เป็นเรื่องความบังเอิญล้วนๆ ไม่เกี่ยวกับว่าใครจิตสกปรกหรือจิตสะอาด (เขาศึกษาเรื่องนี้โดยสร้างบอตให้พิมพ์ผิดในอัตราส่วนเท่าๆ กับมนุษย์ทั่วไป โดยใช้ข้อมูลจากไมโครซอฟท์เป็นตัวเปรียบเทียบ แล้วนำการพิมพ์ผิดที่ได้มาเทียบว่ามีความลามกมากน้อยเพียงใด ก็พบว่าบอตที่ไม่มีชีวิตจิตใจก็พิมพ์ผิดให้ดูเหมือนจะลามกได้เท่าๆ กับมนุษย์)
-บริษัท Premise เป็นบริษัทที่ศึกษาแนวโน้มเศรษฐกิจของประเทศที่กำลังพัฒนาโดยใช้วิธีที่เท่มาก นั่นคือการศึกษาด้วยภาพ พวกเขาจ้างคนให้ไปถ่ายภาพตามสถานที่ต่างๆ ตั้งแต่แถวปั๊มน้ำมันไปจนถึงผลไม้ในซุปเปอร์มาร์เก็ตซ้ำแล้วซ้ำเล่า เพื่อนำภาพที่ได้มาประมวลผลเป็นข้อมูล พวกเขาพบว่าภาพอาจบอกแนวโน้มทางเศรษฐกิจได้ก่อนที่ตัวเลขการประเมินอย่างเป็นทางการจะถูกคำนวณออกมาเสียอีก เช่น ภาพคิวรถต่อแถวเรียงกันที่ปั๊มน้ำมัน หรืออัตราส่วนผลไม้ที่ไม่สุกที่เพิ่มขึ้นนั้นบ่งชี้ถึงปัญหาทางเศรษฐกิจที่กำลังจะเกิดขึ้น ธนาคารโลกจ้างให้ Premise ลองตรวจสอบว่าความพยายามปราบปรามบุหรี่ใต้ดินในฟิลิปปินส์ของรัฐบาลได้ผลมากน้อยเท่าใด Premise ก็ตรวจสอบโดยการถ่ายรูปกล่องบุหรี่ตามพื้นถนน ซึ่งกล่องที่เป็นบุหรี่บนดินจะมีแสตมป์อากรแปะอยู่ ด้วยการถ่ายซ้ำแล้วซ้ำเล่าตามช่วงเวลาที่ผ่านไป Premise ก็พบว่าตลาดบุหรี่ใต้ดินในปี 2016 เล็กกว่าตลาดในปี 2015 อย่างเห็นได้ชัด ซึ่งอาจแสดงว่าความพยายามของรัฐบาลได้ผล
-จากการสำรวจผ่านแบบสอบถาม เคยมีการคำนวณออกมาว่าประชากรชายที่เป็นเกย์ในอเมริกามีเพียง 2 ถึง 3 เปอร์เซ็นต์เท่านั้น (ซึ่งตรงกับจำนวนประชากรชายที่ลงข้อมูลว่าตน ‘สนใจผู้ชาย’ในเฟซบุ๊ก ซึ่งอยู่ที่ 2.5 เปอร์เซ็นต์) แต่จากผลการค้นหาหนังโป๊ เซธพบตัวเลขที่ ‘น่าจะตรงกับความเป็นจริง’ มากกว่านั้น คืออยู่ที่ 5 เปอร์เซ็นต์นั่นแสดงว่ามีประชากรเกย์ราวครึ่งหนึ่งที่ไม่บอกว่าตนเป็นเกย์ต่อสาธารณะ เซธสามารถเทียบตามพื้นที่ได้ด้วยว่าในรัฐที่ยอมรับเกย์ได้น้อยกว่า การลงโฆษณาหาคู่นอนชั่วคราว (Casual Encounter) ในเว็บอย่างเครกลิสจะกลับมากกว่าในรัฐที่ยอมรับเกย์ด้วย
-การศึกษาในโรงเรียนระดับท็อปอาจไม่ได้ ‘เปลี่ยนชีวิต’ นักเรียนจากหน้ามือเป็นหลังมือ โดยศึกษาจากนักเรียนที่สอบ ‘เกือบติด’ โรงเรียนชั้นนำ กับนักเรียนที่สอบ ‘เกือบตก’ ในโรงเรียนเดียวกัน ในระยะยาวพบว่าโรงเรียนที่แตกต่างกันแทบไม่มีผลต่อรายได้และคะแนนสอบเข้ามหาวิทยาลัยในลำดับต่อมา (นั่นคือสาเหตุที่โรงเรียนดีๆ มีนักเรียนสอบติดมหาวิทยาลัยดังๆ มาก เป็นเพราะนักเรียนที่เก่งเลือกเข้าไปกระจุกตัวอยู่ในโรงเรียนดังกล่าวมากตั้งแต่แรก ตัวโรงเรียนเองไม่ได้มีผลให้นักเรียนเก่งขึ้นมากขนาดนั้น)
-ในการขอกู้เงิน หากผู้กู้เขียนเหตุผลโดยใช้คำว่า “ไม่มีดอกเบี้ย” “หลังหักภาษี” “จบการศึกษา” “ดอกเบี้ยต่ำ” แล้วละก็ เขาจะมีโอกาสคืนเงินสูงกว่าผู้ที่ใช้คำว่า “พระเจ้า” “จะจ่าย” “ขอบคุณ” “สัญญา” (promise) หรือ “โรงพยาบาล” มาก
นี่เป็นเพียงส่วนหนึ่งเท่านั้นที่บิ๊กดาต้าเผย ‘ความจริง’ ให้กับเราได้ (อย่างน้อยก็เป็นความจริงทางสถิติ) แต่เซธก็เตือนว่าการใช้บิ๊กดาต้านั้นต้องระมัดระวังเช่นกัน เช่น ไม่ควรใช้โดยคาดหวังว่าบิ๊กดาต้าจะให้คำตอบกับทุกอย่างได้ (เช่น ทำนายราคาหุ้น เพราะเมื่อมีการใช้บิ๊กดาต้าเพื่อทำนายราคาหุ้นกันมากๆ มันก็จะส่งผลกระทบต่อหุ้นกลับไปกลับมาอยู่ดี จนทำให้ผลลัพธ์ที่ทายไว้ตั้งแต่แรกนั้นไม่เที่ยง) หรือรัฐบาลก็ไม่ควรใช้บิ๊กดาต้ามาเพื่อตัดสินคนคนใดคนหนึ่ง (เช่น ใช้สถิติว่าคนผิวสีจะกลับไปก่อเหตุซ้ำมากกว่าคนผิวขาว จึงลงโทษคนผิวสีหนักกว่า เป็นต้น) แต่ควรใช้เพื่อดำเนินนโยบายตามพื้นที่มากกว่า
เขายังย้ำด้วยว่า เมื่อบิ๊กดาต้าอยู่ในมือของผู้มีอำนาจ มันก็จะกลายเป็นเครื่องมือครอบงำพวกเราอย่างน่ากลัว เช่น เมื่อกาสิโนรู้จักใช้บิ๊กดาต้า พวกเขาก็สามารถทำกำไรจากนักพนันได้มากที่สุดด้วยการรู้จักว่าต้องเอาเงินจากพวกเขาได้มากที่สุดเท่าไร พวกเขาจึงจะไม่เจ็บปวดจนไม่กลับมาเล่นพนันอีก (คือเอาให้มากที่สุด แต่ไม่เอาจนเข็ด) ในทางกลับกัน หากผู้บริโภคใช้ข้อมูลอย่างชาญฉลาด พวกเขาก็จะสามารถต่อกรกับผู้เล่นยักษ์ใหญ่ได้เช่นกัน เช่นใช้ระบบเปรียบเทียบราคาประกันเพื่อให้ได้ราคาที่สมเหตุสมผลที่สุด
“ความรู้คือพลัง” เป็นสำนวนที่ยังใช้ได้เสมอ หากเราใช้ข้อมูลที่มีมากขึ้นเรื่อยๆ ประกอบกับความเข้าใจอันเหมาะสม เราก็อาจมีความรู้หรือพลังมากพอที่จะดำเนินชีวิตอย่างประสบความสำเร็จได้ในสังคมที่ปัญหาทวีความซับซ้อนมากขึ้นอย่างเช่นในปัจจุบัน

