

Biology Beyond Nature | ภาคภูมิ ทรัพย์สุนทร
อภิมหาโมเดลสเกลจีโนม (2)
(ประวัติศาสตร์อุตสาหกรรมไบโอเทค)
ทีมวิจัยให้ปัญญาประดิษฐ์ที่ชื่อว่า EVO ไปเรียนรู้แบบแผนลำดับนิวคลีโอไทด์จากฐานข้อมูล OpenGenome ซึ่งประกอบด้วยข้อมูลจีโนมจากแบคทีเรียและอาร์เคียกว่าแปดหมื่นจีโนม จากไวรัสและพลาสมิดอีกว่าล้านจีโนม มีลำดับนิวคลีโอไทด์ในนั้นรวมกันถึงกว่าสามแสนล้านนิวคลีโอไทด์
กระบวนการเรียนรู้เป็นแบบ self-supervise learning คือทีมวิจัยไม่ได้บอก EVO ว่าดีเอ็นเอส่วนไหนทำหน้าที่อะไรเพียงแต่ให้ EVO หัดทำนายจากตัวอย่างดีเอ็นเอที่มีว่าลำดับนิวคลีโอไทด์ตัวถัดไปคือตัวอะไร (เหมือนกับการฝึก “เติมคำถัดไปในข้อความ” แบบที่พวก LLM ใช้กัน)
ทีมวิจัยลองเปรียบเทียบความสามารถของ StripedHyena กับของ Transformer หรือสถาปัตยกรรมโครงข่ายประสาทเทียมตัวอื่นๆ ที่นิยมใช้กัน
ทีมวิจัยพบว่า StripedHyena แสดงผลงานได้ดีที่สุดในการประยุกต์ใช้นี้ โดยสามารถจะเดานิวคลีโอไทด์ถัดไปได้แม่นยำกว่าเมื่อใช้พลังในการคำนวณเท่าๆ กัน
StripedHyena ก็เลยถูกเลือกให้เป็นสถาปัตยกรรมโครงข่ายประสาทเทียมตัวหลักของงานนี้

EVO ทำนายผลกระทบจากการกลายของอะมิโนบนโปรตีน
Cr.ณฤภรณ์ โสดา
ทีมวิจัยสาธิตการใช้ EVO ในการทำนายผลกระทบจากการกลายของอะมิโนต่อการทำงานของโปรตีน, ทำนายผลกระทบจากการกลายของนิวคลีโอไทด์ต่อการทำงานของอาร์เอ็นเอ และทำนายความสัมพันธ์ระหว่างลำดับนิวคลีโอไทด์ของสวิตช์ยีนบนดีเอ็นเอกับระดับการแสดงออกของยีน
ผลปรากฏว่า EVO สามารถทำนายสิ่งเหล่านี้ได้แม่นยำกว่าปัญญาประดิษฐ์ตัวอื่นๆ ก่อนหน้าที่ถูกสร้างและฝึกมาอย่างเจาะจงให้วิเคราะห์ฟังก์ชั่นของโปรตีน อาร์เอ็นเอ หรือสวิตช์ยีนบนดีเอ็นเอด้วยซ้ำ
ทั้งที่ EVO เพียงเรียนรู้จากข้อมูลจีโนมดีเอ็นเอปริมาณมหาศาลแถมยังเป็นการเรียนรู้แบบไม่ได้มีใครมาคอยบอกคอยเฉลยด้วยซ้ำว่าลำดับเบสแต่ละส่วนทำงานอะไร มันเพียงแค่จับทิศทางแบบแผนของลำดับนิวคลีโอไทด์ที่น่าจะเป็นจนสามารถทำนายได้ว่าอันไหนปกติ อันไหนผิดปกติมากน้อยแค่ไหน
ถ้าให้เปรียบกับการเรียนรู้ภาษาก็คือเหมือนคนที่อ่านหนังสือเยอะมากจนรู้แล้วว่าคำและประโยคควรจะมีหน้าตาและการจัดเรียงประมาณไหน บอกได้ว่าคำหรือประโยคไหนเขียนผิดหรืออยู่ผิดที่แม้ว่าจะไม่เคยได้รู้ความหมายจริงๆ ของคำและประโยคเหล่านั้น

EVO ออกแบบระบบ CRISPR/Cas และ Transposon ตัวใหม่
Cr.ณฤภรณ์ โสดา
ปัญญาประดิษฐ์ที่ทำงานด้านภาษา หรือLLM อย่าง ChatGPT ที่เรียนรู้ตัวอย่างข้อความภาษามนุษย์ปริมาณมหาศาลมาแล้วสามารถจะถูกเอามาฝึกฝน (fine-tuning) ต่อให้สนทนาถามตอบแต่งประโยคประพันธ์ข้อความใหม่ที่ใกล้เคียงกับภาษาที่มนุษย์ใช้สื่อสารกันจริงๆ ได้ เราก็เลยสามารถเอามันมาเขียนเรียงความ เพลง คำกลอน รายงาน บทความวิชาการ ฯลฯ ตามคำสั่งหรือ “Prompt” ตั้งต้นจากเราได้
ด้วยแนวคิดเดียวกันทีมวิจัยลองเอา EVO ซึ่งเรียนรู้ตัวอย่างลำดับนิวคลีโอไทด์ในจีโนมปริมาณมหาศาลมาฝึกฝนต่อให้สามารถออกแบบส่วนต่างๆ ในจีโนมตามคำสั่งของเรา
ตัวอย่างแรกที่ทีมวิจัยสาธิตคือการออกแบบระบบ CRISPR/Cas ตัวใหม่ที่ไม่เคยมีมาก่อนในธรรมชาติ
ทีมวิจัยเลือกตัวอย่างนี้นอกจากจะเป็นเพราะระบบ CRISPR/Cas สามารถถูกเอาไปประยุกต์ใช้ได้กว้างขวางในงานปรับแก้จีโนมแล้วโจทย์การออกแบบระบบนี้ยังยากเป็นพิเศษตรงที่มันต้องอาศัยการทำงานร่วมกันระหว่างโปรตีนที่ทำหน้าที่ตัดเป้าหมาย (เช่น เอนไซม์ Cas9, Cas12 หรือ Cas13) และอาร์เอ็นเอ (เช่น crRNA และ tracrRNA) ที่หน้าที่ระบุตำแหน่งในการตัด
ดังนั้น พวกปัญญาประดิษฐ์ที่ใช้ซึ่งถูกฝึกฝนมาด้วยข้อมูลโปรตีนหรืออาร์เอ็นเออย่างเดียวไม่สามารถเอามาทำงานตรงนี้ได้ต่างจาก EVO ที่ฝึกฝนมาจากข้อมูลทั้งจีโนม

EVO ถูกใช้ในการวิเคราะห์หน้าที่และออกแบบจีโนมใหม่
Cr.ณฤภรณ์ โสดา
ทีมวิจัยให้ EVO เรียนรู้เพิ่มเติมจากตัวอย่าง CRISPR/Cas กว่า 70,000 ตัวอย่างจากฐานข้อมูล และใช้ Prompt เป็นลำดับนิวคลีโอไทด์ตั้งต้นบริเวณยีนที่แสดงออกเอนไซม์ Cas
ทีมวิจัยพบว่า EVO สามารถออกแบบสร้างลำดับนิวคลีโอไทด์ส่วนที่เหลือของระบบ CRISPR/Cas ได้สอดคล้องกับลักษณะทั่วไปตามที่เรารู้จักในธรรมชาติแต่ก็แตกต่างจากของที่มีอยู่เดิม (ถ้าให้เปรียบเทียบกับ LLM อย่าง ChatGPT ก็คือการที่ปัญญาประดิษฐ์สามารถจะแต่งกลอน เพลง เรียงความ รายงาน ฯลฯ ที่ไม่มีใครเคยแต่งมาก่อนแต่ก็ยังถูกต้องตามฉันทลักษณ์และสำนวนเหมือนภาษาที่มนุษย์จริงๆ เขียน)
ทีมวิจัยเลือก CRISPR/Cas ที่ EVO ออกแบบมาเก้าตัว ลองเอามาสังเคราะห์และทดสอบการทำงานจริงในห้องแล็บ
ปรากฏว่าหนึ่งในนั้น (EvoCas9-1) สามารถตัดดีเอ็นเอตรงตามเป้าหมายที่ออกแบบไว้ได้
นอกจากนี้ ผลการทำนายโครงสร้างโปรตีนและอาร์เอ็นเอของ EvoCas9-1 ยังออกมาใกล้เคียงกับ CRISPR/Cas9 จากธรรมชาติแต่ก็มีลักษณะบางอย่าง เช่น ประจุบนพื้นผิวที่ต่างออกไปอย่างชัดเจน
ด้วยหลักการเดียวกันทีมวิจัยใช้ EVO ออกแบบระบบ transposon กลไกการตัดแปะและก๊อบปี้ชิ้นส่วนดีเอ็นเอระหว่างตำแหน่งต่างๆ บนจีโนม ถูกใช้อย่างแพร่หลายในการส่งดีเอ็นเอเข้าจีโนมหรือศึกษาหน้าที่ของยีน และก็ต้องอาศัยการประสานงานที่ซับซ้อนหลายขั้นตอนระหว่างเอนไซม์ ชิ้นดีเอ็นเอนำส่งและดีเอ็นเอเป้าหมาย
ทีมวิจัยเลือก transposon ที่ EVO ออกแบบมาใหม่สี่สิบกว่าตัว
และได้สิบกว่าตัวที่ทำงานตัดแปะและก๊อบปี้ชิ้นส่วนดีเอ็นเอสำเร็จในห้องแล็บ
ตัวอย่างการวิเคราะห์และออกแบบข้างต้นของ EVO แม้จะดูซับซ้อนแต่ก็ยังเป็นงานที่ยังไม่ต้องอาศัยความเข้าใจบริบทที่กว้างมากนัก
ขนาดความยาวของดีเอ็นเอที่แสดงออกมาเป็นโปรตีน อาร์เอ็นเอ สวิตช์ยีน CRISPR/Cas และ transposon อยู่ที่หลักพันนิวคลีโอไทด์ โจทย์ที่น่าสนใจยิ่งกว่านั้นคือ EVO ซึ่งถูกสร้างมาให้เหมาะกับการประมวลผลบริบทกว้างๆ ของดีเอ็นเอสายยาวๆ จะสามารถวิเคราะห์หน้าที่ความสำคัญของส่วนต่างๆ ในจีโนมหรือแม้แต่ออกแบบจีโนมใหม่ที่ไม่เคยมีอยู่ในธรรมชาติมาก่อนได้หรือไม่
ทีมวิจัยลองทดสอบ EVO กับผลการวิจัยก่อนหน้าว่าด้วยความจำเป็นของยีน (gene essentiality) บน 56 จีโนมแบคทีเรียและอีกสองจีโนมไวรัส ทีมวิจัยลองเปลี่ยนลำดับนิวคลีโอไทด์บนแต่ละยีนในจีโนมและให้ EVO ลองวิเคราะห์ว่าจีโนมนี้มีอะไรผิดแปลกไปจากที่จีโนมควรจะเป็นมากน้อยขนาดไหน
ผลปรากฏว่าถ้านิวคลีโอไทด์ที่เปลี่ยนไปโดนยีนจำเป็นตรงตำแหน่งสำคัญ EVO ก็จะพอบอกได้ว่า “จีโนมนี้มีอะไรแปร่งๆ นะ”
ยิ่งถ้า EVO มีขอบเขตบริบทประมวลข้อมูลที่กว้าง ความสามารถในการตรวจจับความแปร่งก็ยิ่งดีขึ้น
ดังนั้น แม้ว่า EVO จะไม่ได้ถูกสอนถูกฝึกมาโดยตรงว่ามียีนอะไรตรงไหนสำคัญบ้างแต่จากตัวอย่างที่มันเห็นมามหาศาลมันก็พอจะใบ้บอกเราได้ถึงความสำคัญของยีน ตำแหน่งบนยีน และผลกระทบที่อาจจะเกิดจากการกลายตรงตำแหน่งนั้น
จากนั้นทีมวิจัยลองให้ EVO ออกแบบจีโนมขึ้นมาใหม่เลยทั้งหมดโดยใช้ Prompt เป็นชนิดสปีชีส์ของแบคทีเรีย
จีโนมใหม่ที่ออกแบบมาขนาดหลักล้านเบสมีโครงสร้างการจัดเรียงยีนไล่ไปจนถึงการใช้รหัสพันธุกรรมใกล้เคียงกับจีโนมแบคทีเรียตามธรรมชาติ แต่ก็เป็นจีโนมที่ไม่เคยปรากฏมาก่อนในตัวอย่างข้อมูลที่ EVO เรียนรู้หรือในงานศึกษาใดๆ จากแบคทีเรียธรรมชาติ
ตอนหน้าเราจะมีสรุปกันว่าปัญญาประดิษฐ์ครอบจักรวาลอย่าง EVO ที่น่าจะวิเคราะห์และออกแบบสิ่งใดๆ ในจีโนมได้หมดยังมีข้อจำกัดอะไรบ้าง และจะสามารถเอาไปประยุกต์ใช้ในงานศึกษาชีวโมเลกุลพื้นและชีววิทยาสังเคราะห์ได้อย่างไร
รวมทั้งเราจะได้ดูตัวอย่างของ EVO2 ที่ไปไกลกว่าแค่จีโนมแบคทีเรียและไวรัส รวมเอาจีโนมยีสต์ รา พืช สัตว์และมนุษย์เอาไปในคลังความรู้ด้วย
สะดวก ฉับไว คุ้มค่า สมัครสมาชิกนิตยสารมติชนสุดสัปดาห์ได้ที่นี่https://t.co/KYFMEpsHWj
— MatichonWeekly มติชนสุดสัปดาห์ (@matichonweekly) July 27, 2022