ในโลกของ “ปัญญาประดิษฐ์” หรือ “เอไอ” ที่ผ่านมา เน้นหนักไปในการพัฒนาขีดความสามารถด้านใดด้านหนึ่งของอัลกอริธึมคอมพิวเตอร์ให้มีขีดความสามารถได้ใกล้เคียงกับมนุษย์มากขึ้นเรื่อยๆ เช่นความสามารถในการมองเห็นแล้วเข้าใจภาพที่มองเห็นนั้นว่าคืออะไร หรือมีความสามารถในการจำแนกเสียงที่ได้ยินว่าเป็นเสียงอะไร รวมทั้งการเข้าใจตัวอักษรที่ประกอบขึ้นเป็นคำว่าหมายถึงอะไร ซึ่งถือกันว่าเป็น 3 ปัญหาหลักที่ท้าทายความสามารถของคอมพิวเตอร์ในปัจจุบัน
แต่ทั้งหมดนั้นเทียบเคียงได้กับคนเราที่มีความสามารถใช้สัมผัสใดสัมผัสหนึ่งเพียงอย่างเดียวในแต่ละครั้งเท่านั้น ต่างกับมนุษย์ตรงที่เราสามารถ “เข้าใจ” ได้เพียงแค่จากการอ่านว่า ม้ามีรูปลักษณะอย่างไร และมีเสียงร้องอย่างไร
นั่นคือเหตุผลที่ทำให้ทีมวิจัยด้านปัญญาประดิษฐ์ของ สถาบันเทคโนโลยีแห่งแมสซาชูเซตส์ (เอ็มไอที) และของกูเกิล พยายามพัฒนาอัลกอริธึมที่ทำให้คอมพิวเตอร์สามารถ “เชื่อมโยง” ความสามารถทั้ง 3 ด้านของเอไอเข้าด้วยกัน ถือเป็นก้าวใหม่ของปัญญาประดิษฐ์ ที่ทั้งสองทีมจัดทำรายงานออกมาเมื่อเร็วๆ นี้
ยูซุฟ อัยทาร์ นักวิจัยด้านเอไอของเอ็มไอที ใช้คำว่า “ประสาน” หรือ “เชื่อมโยง” มาอธิบายแนวความคิดหลักของเรื่องนี้ว่า ทำอย่างไรถึงจะให้คอมพิวเตอร์ที่ “ได้ยิน” เสียงเครื่องยนต์ สามารถนึกถึง “ภาพ” รถยนต์ได้เหมือนคนเรา หรือในกรณีของรถไร้คนขับ เมื่อได้ยินเสียงหวอของรถพยาบาลจะสามารถรู้ได้ว่า เสียงที่ว่าเป็นเสียงรถพยาบาล ที่มีรูปลักษณ์และหน้าที่จำเพาะ เพื่อเตรียมการให้ตัวรถไร้คนขับเองและรถใกล้เคียงหลีกทาง ชะลอ ไม่ให้เป็นอุปสรรคของรถพยาบาลดังกล่าวก่อนที่รถพยาบาลจะเข้ามาใน “พิสัย” ที่มองเห็น
ทีมของเอ็มไอที “ฝึก” “เครือข่ายประสาท” หรือ นิวรัล เน็ตเวิร์กของคอมพิวเตอร์ให้เข้าใจกระบวนการเชื่อมโยงดังกล่าว เริ่มด้วยการป้อนวิดีโอที่มีเสียงควบคู่อยู่ด้วย หลังจากที่เน็ตเวิร์กพบวัตถุและเสียงใดๆ ในวิดีโอ ก็จะพยายามระบุว่าวัตถุใดเชื่อมโยงกับเสียงใด เช่น ระบุว่าในจุดไหนที่คลื่นทำให้เกิดเสียงขึ้นมา เป็นต้น จากนั้นก็ป้อนภาพ พร้อมกับคำบรรยายภาพ ซึ่งแสดงถึงสถานการณ์เดียวกันให้กับอัลกอริธึม เพื่อให้เชื่อมโยงคำกับวัตถุในภาพและแอ๊กชั่นที่ถูกถ่ายภาพมา แรกสุดคอมพิวเตอร์จะระบุวัตถุทั้งหมดที่พบในภาพออกมา จากนั้นก็ระบุคำที่เกี่ยวข้องแล้วจับคู่คำกับวัตถุเข้าด้วยกัน
ทีมวิจัยอ้างว่าหลังผ่านการฝึกระยะหนึ่งแล้ว นิวรัลเน็ตเวิร์ก สามารถสร้างแนวคิดเชิงวัตถุวิสัยได้มากขึ้นว่าอะไรคือสิ่งที่มันเห็น ได้ยิน หรืออ่านอยู่ แม้ว่าจะยังไม่ดีเท่าที่คาดหวังก็ตาม
แต่ทั้งทีมวิจัยของเอ็มไอทีและกูเกิลเห็นตรงกันว่า แนวทางนี้จะพัฒนาเอไอให้มีศักยภาพสูงขึ้นได้อีกในไม่ช้าไม่นานนี้

