BLOGS

Gen AI วัดผลยาก? ไม่จริง! แค่รู้เทคนิคเหล่านี้…

Suwat.T • 11/06/2025
Google Cloud Solutions Specialist

ในยุคที่ Generative AI Model หรือ LLM กำลังเข้ามามีบทบาทสำคัญในหลากหลายอุตสาหกรรม การวัดผล Gen AI หรือวัดประสิทธิภาพของโมเดลเหล่านี้จึงเป็นสิ่งจำเป็นอย่างยิ่ง เพื่อให้แน่ใจว่าโมเดลที่เราพัฒนาขึ้นนั้นมีคุณภาพและตอบโจทย์การใช้งานได้อย่างแท้จริง ในบทความนี้ เราจะมาพูดถึงคอนเซปวิธีการวัดประสิทธิภาพ LLM ตามแนวทางของ Google กันครับ

ทำไมต้องวัดผลโมเดล Generative AI?

ลองนึกภาพว่าเราสร้างหุ่นยนต์นักเขียนขึ้นมาตัวนึงนะครับ (Generative AI model) แล้วเราอยากรู้ว่าหุ่นยนต์ตัวนี้เขียนเก่งแค่ไหน เขียนรู้เรื่องไหม เขียนตรงประเด็นหรือเปล่า…? การวัดผลก็เหมือนกับการให้คะแนนหุ่นยนต์นักเขียนของเรานี่แหละครับโดยเหตุผลของการวัดผล Gen AI หรือโมเดล Generative AI คือ

  • เพื่อปรับปรุง: ถ้าเราไม่รู้ว่าหุ่นยนต์เขียนได้คะแนนเท่าไหร่ เราก็ไม่รู้ว่าต้องปรับปรุงตรงไหนถูกไหมครับ ? การวัดผลจะช่วยบอกเราว่าโมเดลเราเก่งแล้ว หรือต้องฝึกเพิ่มในเรื่องไหน
  • เพื่อเลือกโมเดลที่ดีที่สุด: สมมติว่าเรามีหุ่นยนต์นักเขียนหลายตัว เราจะรู้ได้ยังไงว่าตัวไหนเก่งสุด ? การวัดผลจะช่วยให้เราเปรียบเทียบประสิทธิภาพของแต่ละโมเดลได้
  • เพื่อตอบโจทย์ธุรกิจ: สุดท้ายแล้ว การวัดผลจะช่วยให้เรามั่นใจได้ว่าโมเดลที่เราเอาไปใช้ในธุรกิจของเราเนี่ย มันตอบโจทย์ความต้องการของเราจริง ๆ นะครับ

เกณฑ์ (Criteria) และ Metrics คืออะไร ?

ทีนี้มาดูเรื่อง Criteria กับ Metrics กันบ้าง

  • Criteria (เกณฑ์): คือ “หัวข้อ” หรือ “ด้าน” ที่เราต้องการวัดผล เช่น ถ้าเราวัดผลหุ่นยนต์นักเขียนของเรา เกณฑ์ที่เราอาจจะใช้วัดก็เช่น
    • ความกระชับ (Conciseness): เขียนได้ใจความ ไม่เยิ่นเย้อ
    • ความเกี่ยวข้อง (Relevance): เขียนตรงกับหัวข้อที่กำหนด
    • ความถูกต้อง (Correctness): ข้อมูลที่เขียนมาถูกต้อง
    • ความลื่นไหล (Fluency): อ่านแล้วลื่นหู เป็นธรรมชาติ
  • Metrics: คือ “คะแนน” ที่เราให้ในแต่ละเกณฑ์ เช่น ถ้าเราวัดความกระชับ เราอาจจะให้คะแนนตั้งแต่ 1 ถึง 5 โดยที่ 5 คือกระชับมาก และ 1 คือเยิ่นเย้อมาก

ประเภทของ Metrics ใน Vertex AI มีอะไรบ้าง ?

Vertex AI มี Metrics หลัก ๆ 2 แบบให้เราเลือกใช้ครับ

1. Model-based metrics:

  • เป็นการใช้โมเดล AI อีกตัว (judge model) มาเป็น “กรรมการ” ตัดสินผลงานของโมเดลเราส่วนใหญ่กรรมการที่เราใช้ก็คือ Gemini ซึ่งได้รับการฝึกฝนมาให้สามารถประเมินผลงานเขียน
    ได้เหมือนคน
  • Model-based metrics เนี่ย วัดได้ทั้งแบบ Pointwise และ Pairwise
    • Pointwise: กรรมการจะให้คะแนนผลงานของโมเดลเราเป็นชิ้น ๆ ไป เช่น ให้คะแนนเรียงความแต่ละฉบับ
    • Pairwise: กรรมการจะเปรียบเทียบผลงานของโมเดล 2 ตัว แล้วบอกว่าตัวไหนเขียนได้ดีกว่ากัน
  • หลักการทำงานของ Metrics ประเภทนี้คือ เราจะป้อน “โจทย์” (input prompts) และผลลัพธ์ที่ได้จากโมเดลเรา ไปให้ judge model (เช่น Gemini) ประเมิน
  • Judge model: จะให้คะแนนผลลัพธ์ของเรา โดยอิงตามเกณฑ์ที่เรากำหนด และให้เหตุผลว่าทำไมถึงให้คะแนนแบบนั้น (chain-of-thought) [1]

สนใจขับเคลื่อนธุรกิจของคุณด้วย AI หรือสนใจ Solutions อื่นๆ จาก Tangerine

ทีมผู้เชี่ยวชาญของเราพร้อมให้คำปรึกษาและออกแบบโซลูชันที่ตอบโจทย์ที่สุดสำหรับองค์กรของคุณ

ตัวอย่างการกำหนด Model-based Metrics

ในตัวอย่างนี้ เราต้องการประเมินว่าโมเดล Generative AI ของเราสร้างบทความได้ดีแค่ไหน โดยใช้ Model-based evaluation แบบ Pointwise โดยมีตัวอย่างการประเมิน “TEXT_QUALITY” หรือคุณภาพของข้อความกันครับ [2]

Example In the first example, consider evaluating a pointwise evaluation instance for TEXT_QUALITY. The score from the pointwise evaluation of TEXT_QUALITY metric is 4 (from a scale 1 to 5), which means the response is good. Furthermore, the explanation in the evaluation result shows why the judge model thinks the prediction deserves the score 4, and not a score that’s higher or lower.
Datasetprompt: “Summarize the following text in a way that a five-year-old can understand: Social Media Platform Faces Backlash Over Content Moderation Policies\nA prominent social media platform finds itself embroiled in controversy as users and content creators express discontent over its content moderation policies. Allegations of biased censorship, inconsistent enforcement, and suppression of certain viewpoints have sparked outrage among users who claim that the platform is stifling free speech. On the other hand, the platform asserts that its policies are designed to maintain a safe and inclusive online environment. This controversy raises broader questions about the role of social media in shaping public discourse and the responsibilities of platforms in curating online content.”response: “People are upset with a website because they think it’s not being fair with what people can post. Some people say the website is stopping them from saying what they want. But the website says it’s trying to keep everyone safe. This makes people wonder if websites should control what people can say online.”
Resultscore: 4,explanation: The summary in response follows the instruction to summarize the context in a way that a five-year old can understand. It is grounded in the context and provides important details in its summarization. However, the language used in the response is a bit verbose.
  • คำธิบาย
    • Prompt ในที่นี้คือการที่เราสั่งให้โมเดล Generative AI ทำการสรุปข้อความที่ซับซ้อน ให้กลายเป็นข้อความที่เด็กอายุ 5 ขวบเข้าใจได้ง่าย  ข้อความใน Prompt ให้สรุปมีเนื้อหาเกี่ยวกับแพลตฟอร์มโซเชียลมีเดียชื่อดังแห่งหนึ่ง กำลังเผชิญกับกระแสวิพากษ์วิจารณ์อย่างหนัก จากผู้ใช้งานและผู้สร้างคอนเทนต์ สาเหตุของกระแสวิจารณ์นี้ มาจากนโยบายการกลั่นกรองเนื้อหาของแพลตฟอร์ม ซึ่งมีข้อกล่าวหาว่ามีการเซ็นเซอร์ที่ไม่เป็นธรรม บังคับใช้กฎเกณฑ์ที่ไม่สม่ำเสมอ และปิดกั้นความคิดเห็นบางอย่าง  ผู้ใช้งานหลายคนแสดงความไม่พอใจ และบอกว่าแพลตฟอร์มนี้กำลังจำกัดเสรีภาพในการแสดงออก ในขณะที่ทางแพลตฟอร์มเองก็ยืนยันว่า นโยบายของตนนั้นมีจุดประสงค์เพื่อสร้างสภาพแวดล้อมออนไลน์ที่ปลอดภัยและครอบคลุมสำหรับทุกคน  สถานการณ์นี้ทำให้เกิดคำถามที่กว้างขึ้น เกี่ยวกับบทบาทของโซเชียลมีเดียในการกำหนดทิศทางของบทสนทนาในสังคม และความรับผิดชอบของแพลตฟอร์มในการดูแลเนื้อหาที่เผยแพร่ออนไลน์
  • Response (ผลลัพธ์)
    • ผลลัพธ์ที่ได้จากการให้โมเดล Generative AI สรุปข้อความข้างต้นออกมา คือข้อความนี้ครับ “มีคนไม่พอใจเว็บไซต์หนึ่ง เพราะคิดว่าเว็บไซต์นั้นไม่ยุติธรรมกับสิ่งที่คนโพสต์ได้ บางคนบอกว่าเว็บไซต์กำลังห้ามไม่ให้พวกเขาพูดในสิ่งที่อยากพูด แต่เว็บไซต์บอกว่าพยายามทำให้ทุกคนปลอดภัย เรื่องนี้ทำให้คนสงสัยว่าเว็บไซต์ควรควบคุมสิ่งที่คนพูดได้ไหม”
  • Result (ผลลัพธ์การประเมิน)
    • Score (คะแนน): Judge Model ให้คะแนนคุณภาพของบทสรุปนี้เท่ากับ 4 (จากคะแนนเต็ม 5)
    • Explanation (คำอธิบาย): คำอธิบายจาก Judge Model มีดังนี้
    • “บทสรุปนี้ทำตามคำสั่งในการสรุปเนื้อหาให้อยู่ในรูปแบบที่เด็กอายุ 5 ขวบเข้าใจได้ดี  บทสรุปนี้อิงกับเนื้อหาต้นฉบับ และให้รายละเอียดสำคัญในการสรุป อย่างไรก็ตาม ภาษาที่ใช้ในบทสรุปยังเยิ่นเย้อไปหน่อย”

2. Computation-based metrics:

  • วิธีนี้เป็นการใช้สูตรคณิตศาสตร์แทน AI อีกตัวมาคำนวณคะแนน โดยเปรียบเทียบผลงานของโมเดลเรากับ “เฉลย” หรือ “ข้อมูลอ้างอิง” เช่น การนับจำนวนคำที่ตรงกัน การวัดความคล้ายคลึงของประโยค หรือการคำนวณค่าความแม่นยำ
  • ตัวชี้วัด (Metrics) ที่ใช้ในวิธีนี้ เช่น Exact Match (ดูว่าคำตอบตรงกับต้นแบบเป๊ะ ๆ เลยไหม) หรือ BLEU (นิยมใช้วัดคุณภาพงานแปลภาษา โดยดูความคล้ายคลึงกับคำแปลต้นแบบ)
  • Metrics แบบนี้เหมาะกับงานที่มีข้อมูลอ้างอิงชัดเจน เช่น งานแปลภาษา หรือสรุปความ [3]

เลือกใช้ Metrics แบบไหนวัดผล Gen AI ดี ? 

วัดผล Gen AI

การเลือกว่าจะใช้ Model-based หรือ Computation-based metrics เนี่ย ขึ้นอยู่กับปัจจัยหลายอย่างครับ

  • ข้อมูลที่มี: ถ้าเรามีข้อมูลอ้างอิง (ground truth) ชัดเจน การใช้ Computation-based metrics ก็จะแม่นยำและประหยัดกว่า
  • ความซับซ้อนของงาน: ถ้างานที่เราทำมันซับซ้อน เช่น การเขียนบทความที่ต้องใช้ความคิดสร้างสรรค์ การใช้ Model-based metrics ก็อาจจะเหมาะสมกว่า เพราะมันสามารถประเมินคุณภาพในด้านต่าง ๆ ได้ละเอียดกว่า
  • งบประมาณและเวลา: Computation-based metrics จะเร็วกว่าและถูกกว่า Model-based metrics

เห็นไหมครับว่าเรื่องที่ดูเหมือนจะวัดผลยากอย่าง Generative AI จริง ๆ แล้วก็มีหลักการและเครื่องมือชัดเจนในการประเมินอยู่ ผมหวังว่าแนวคิดเรื่อง Model-based และ Computation-based metrics ที่นำมาแชร์วันนี้ จะช่วยให้ทุกคนเห็นภาพมากขึ้นว่าเราจะรู้ได้อย่างไรว่า AI ที่เราสร้างนั้น “เก่ง” จริง ๆ เพราะการเลือกใช้เกณฑ์วัดผลที่ถูกต้อง ไม่เพียงแต่จะช่วยให้เราพัฒนาโมเดลได้ตรงจุด แต่ยังทำให้มั่นใจได้ว่าเทคโนโลยีที่เราลงทุนไปจะสร้างผลลัพธ์ที่คุ้มค่ากลับมาสู่ธุรกิจของเราครับ

หากใครมีข้อสงสัยหรือต้องการพูดคุยในเรื่องของ Generative AI สามารถติดต่อทีมแทนเจอรีนได้เลยนะครับ คลิกเพื่อปรึกษาเรา

สอบถามข้อมูลเพิ่มเติม
Contact Form_TH Sources