LLM Safety

เรื่องสมมติที่เกิดขึ้นจริง


ในฝั่ง cybersecurity เราเริ่มใช้ AI ในการป้องกันมาพักนึงแล้ว และพบการโจมตีมากขึ้นเรื่อย ๆ รวมถึงเห็นภัยคุกคามใหม่ ๆ ที่เชื่อมโยงกับ AI ด้วยเหมือนกัน
ในทางบวก ฝั่งป้องกัน เราใช้ AI ช่วยในการ summarize logs เชื่อมโยง security events เพื่อ discovery การโจมตี discover สิ่งที่ rule-based ทำไม่ได้ หรือ overload มนุษย์มาก ๆ

ในทางลบ เราเห็น web crawlers / spiders ฝั่ง AI วิ่งเก็บข้อมูลหน้าเว็บหนักกว่าเดิม 5 – 10 เท่าจากปกติ ซึ่งมันกิน resources เด้อจ้า .. ทั้ง CPU, mem, egress ที่ต้องประมวลผลตอบสนอบขึ้นหมดเลย เท่ากับ pay-per-use/on-demand จะมีค่าใข้จ่ายขึ้นโดยไม่ได้ประโยชน์ทางตรงอะไรเลย

ในขณะที่ gen. AI ทุกค่าย พยายามใส่ safety ใน models เพือควบคุม responses ให้อยู่ในกรอบที่ปลอดภัยต่อผู้ใช้ เป็นกลาง มี bias น้อย ลดแรงกระตุ้นเชิงลบ (e.g., violence, extremist, discrimiate, misinform, propaganda,…) .. แต่เราห้ามคนสร้าง models without any safety ไม่ได้หรอกครับ ของพวกจะเอาไปใช้สร้าง response malicious intent ได้ ถ้า gen code ก็จะ gen malicious intent code ได้ obfuscation เก่ง reverse engineer เก่ง ฯลฯ

ในทางกลับกัน ไม่ใช่ว่า การปลด safety มันไม่ดีเสมอไป ในบางสถานการณ์ มันก็มีที่ใช้ มาถึงตรงนี้ คนที่ get ก็จะ get ทันทีว่า model ที่ปลด safety มันคืออาวุธ เป็นศักยภาพการรบและป้องกันประเทศใน 5th domain/cyberwarfare ได้ เป็นของที่จะหวังพึ่งมิตรประเทศอย่างเดียวไม่ได้ และประเทศนั้น ๆ อาจจะต้องสร้างเป็นของตัวเอง

กลับมาอีกฝั่งที่มี safety .. พอมี model safety พวก cybersecurity ก็พยายามทำ offensive bypass model safety ด้วยเหมือนกัน เรียกว่าเป็น LLM jailbreak .. เอาจริง ๆ ก็มีความพยายาม jailbreak กันตั้งแต่กำเนิด ChatGPT โน่นแหละ


ล่าสุด DeepSeek-R1 ก็เพิ่งโดนแหกไปครับ