ในตอนที่1 และ  ตอนที่2  ของชุดนี้ Machine Learning เราได้ตรวจสอบประสิทธิภาพของการนำการรู้จำเอนทิตีที่มีชื่อแบบอัตโนมัติไปใช้กับชุดเอกสารเบ็ดเตล็ดในระบบการจัดการเอกสารขององค์กร แนวคิดคือการใช้แมชชีนเลิร์นนิงและเทคนิคปัญญาประดิษฐ์เพื่อระบุและดึงชื่อบุคคลธรรมดาออกจากเอกสาร ซึ่งส่งผลให้รายชื่อบุคคลและตำแหน่งที่ชื่อบุคคลเหล่านั้นปรากฏในเอกสาร และสามารถเพิ่มข้อมูลดังกล่าวลงในเอกสารเป็นข้อมูลเมตา สามารถใช้เพื่อเชื่อมโยงข้อมูลหรือเพื่อให้ได้มาซึ่งความอ่อนไหวต่อ GDPR


เราเรียนรู้อะไรจนถึงตอนนี้?

ใน  ส่วนที่ 1 – การจดจำเอนทิตีด้วย Machine Learning –เราเปรียบเทียบโมเดลที่พร้อมใช้งานและได้รับการฝึกฝนล่วงหน้าสำหรับภาษาอังกฤษของ OpenNLP และ Stanford CoreNLP และฝึกฝนโมเดลของเราเองตามชุดข้อมูลที่มีคำอธิบายประกอบของเอกสาร 2,616 เอกสารที่มีชื่อบุคคลธรรมดา 23,462 ชื่อ แม้ว่าโมเดล Pre-trained ของ Standford CoreNLP จะทำคะแนนได้ดีกว่า OpenNLP อย่างมากสำหรับชุดข้อมูลในโลกแห่งความเป็นจริงของเรา แต่ผลลัพธ์ก็ยังไม่ดีพอสำหรับระบบอัตโนมัติทั้งหมด อย่างไรก็ตาม เราได้เรียนรู้ว่าความพยายามในการฝึกอบรมเพียงเล็กน้อย (โดยใช้เอกสารที่ติดฉลากมากถึง 2,000 ฉบับ) ช่วยเพิ่มประสิทธิภาพและจำกัดความแตกต่างระหว่าง OpenNLP และ CoreNLP โดยเฉพาะอย่างยิ่งสำหรับความแม่นยำ โดยได้ความแม่นยำสูงสุด 90/95% และการเรียกคืน 70/80%

ใน  ส่วนที่ II – การจดจำเอนทิตีด้วยการเรียนรู้ของเครื่อง: spaCy –เราได้เพิ่ม spaCy ในการเปรียบเทียบ spaCy เป็นไลบรารี NLP แบบโอเพ่นซอร์สฟรีสำหรับ Python ที่อ้างว่า “การประมวลผลภาษาธรรมชาติที่แข็งแกร่งและรวดเร็วอย่างเห็นได้ชัด” ตามเว็บไซต์ของพวกเขา มันเป็นดาวรุ่งพุ่งแรงในโลกของ NLP: “ในช่วงห้าปีนับตั้งแต่เปิดตัว spaCy ได้กลายเป็นมาตรฐานอุตสาหกรรมที่มีระบบนิเวศขนาดใหญ่” การใช้โมเดล spaCy ที่ฝึกไว้ล่วงหน้ากับข้อมูลเดียวกันอีกครั้งเผยให้เห็นประสิทธิภาพที่ค่อนข้างต่ำ (ความแม่นยำ 15%, การเรียกคืน 53%) แต่อีกครั้ง จำนวนการฝึกอบรมที่จำกัด (เอกสารที่ติดป้ายกำกับ 1.500 ฉบับที่ใช้ในการอัปเดตแบบจำลองล่วงหน้า) ช่วยเพิ่มประสิทธิภาพ (ความแม่นยำ 77%, การจำได้ 93%) ส่งผลให้ได้คะแนนที่ดีที่สุดสำหรับการเรียกคืนและคะแนนที่สมเหตุสมผลสำหรับความแม่นยำ ในแง่นั้น เราไม่สามารถพูดได้ว่า spaCy ทำงานได้ดีกว่า OpenNLP และ Stanford CoreNLP มันทำงานแตกต่างออกไป แต่ที่สำคัญที่สุด

ในส่วนที่สามนี้ เราเน้นการใช้วิธีการ/รูปแบบต่างๆ ร่วมกัน หรือที่เรียกว่าผู้เรียนทั้งมวล


บทนำสู่ผู้เรียนทั้งมวล

วิธีการ/โมเดลการเรียนรู้ของเครื่องใดๆ จะได้รับผลกระทบจากการประนีประนอมระหว่างความแม่นยำและการเรียกคืน กล่าวคือ การประเมินที่อ่อนเกินไป/ผ่อนคลายจะส่งผลให้เกิดผลบวกที่ผิดพลาดมากมาย – วัตถุที่ไม่สนใจ – ในขณะที่การประเมินที่ยากเกินไป/ แน่นจะส่งผลลบเท็จมากมาย – วัตถุที่น่าสนใจที่พลาดไป แม้แต่ตัวจำแนกประเภทที่เป็นมนุษย์ก็ยังต้องทนทุกข์จากการแลกเปลี่ยนนี้ และแทบไม่เคยไปถึงระดับความแม่นยำ 100% เลย (วัตถุที่ระบุทั้งหมดมีความเกี่ยวข้องจริงๆ) และการเรียกคืน 100% (ไม่พลาดวัตถุที่เกี่ยวข้อง)

อย่างไรก็ตาม เนื่องจากวิธีการ/แบบจำลองแมชชีนเลิร์นนิงทุกรูปแบบจะมีมุมมองที่แตกต่างกันในการจัดหมวดหมู่ (เนื่องจากตัวแยกประเภทของมนุษย์จะมีความคิดเห็นที่แตกต่างกัน) การผสมผสานระหว่างวิธีการ/แบบจำลองที่หลากหลายอาจให้ผลลัพธ์ที่ดีกว่า

ตัวอย่างเช่น ลองนึกภาพว่ามีความสนใจในโซลูชันที่มีความแม่นยำสูงสุด กล่าวคือ โซลูชันที่วัตถุที่ระบุทั้งหมดมีความสนใจและมีความเสี่ยงต่อการพลาดวัตถุที่น่าสนใจบางอย่าง ในตัวอย่างของเรา ชื่อบุคคลที่เสนอโดยแบบจำลองนั้นเป็นชื่อบุคคลจริง แต่ระบบจะพลาดชื่อบุคคลบางคน ในกรณีดังกล่าว เราสามารถเก็บเฉพาะชื่อบุคคลที่มีป้ายกำกับโดยวิธี/แบบจำลองหลายแบบเป็นชื่อบุคคล เท่านั้น ซึ่งเพิ่มความเป็นไปได้ที่ชื่อบุคคลนั้นจะเป็นจริง (ตามที่นางแบบอิสระหลายรายกล่าวไว้)

หรือลองนึกภาพว่ามีความสนใจในโซลูชันการเรียกคืนสูงสุด กล่าวคือ โซลูชันที่ไม่มีวัตถุที่น่าสนใจใด ๆ ที่พลาดโดยค่าใช้จ่ายในการระบุวัตถุที่ไม่สนใจ – ในตัวอย่างของเรา ชื่อบุคคลทั้งหมดที่มีอยู่ใน ระบบระบุชุดเอกสาร แต่บุคคลที่ระบุระบุบางส่วนถูกระบุอย่างผิดพลาดว่าเป็นชื่อของบุคคล ในกรณีนั้น เราสามารถรวมชื่อบุคคลทั้งหมดที่ถูกเปิดเผยโดยวิธีการ/แบบจำลองอย่างน้อยหนึ่งวิธี เพื่อเพิ่มโอกาสที่ชื่อบุคคลทั้งหมดจะถูกเปิดเผย

ในตัวอย่างสุดโต่งสองตัวอย่างนี้ เห็นได้ชัดว่าการผสมผสานวิธีการต่างๆ เข้าด้วยกันสามารถเพิ่มความแม่นยำและการเรียกคืนตามลำดับได้ แต่ค่าใช้จ่ายในการเรียกคืนและความแม่นยำลดลงตามลำดับ อย่างไรก็ตาม เมื่อมีความหลากหลายเพียงพอระหว่างวิธีการ/แบบจำลอง การรวมเข้าด้วยกันสามารถเพิ่มทั้งความแม่นยำและการเรียกคืนได้ในเวลาเดียวกัน (เมื่อเทียบกับการใช้วิธีการ/รุ่นเดียว)



ประเภทของผู้เรียนทั้งมวล

แนวคิดของการเรียนรู้ทั้งมวลคือการรวมวิธีการ/แบบจำลองต่างๆ เข้าด้วยกันเพื่อให้ได้ผลลัพธ์ที่ดีขึ้น เพื่อให้ได้ผลลัพธ์เดียว สามารถใช้การลงคะแนนได้ กล่าวคือ ขึ้นอยู่กับผลลัพธ์ของวิธีการ/เทคนิคหลายๆ วิธี การตัดสินใจขั้นสุดท้ายจะใช้เกณฑ์กับผลรวมของผลลัพธ์ ที่สามารถเป็นเสียงข้างมาก (อย่างน้อยครึ่งหนึ่งของวิธีการ/แบบจำลอง – หรือครึ่งบวกหนึ่ง – ต้องจัดประเภทวัตถุเป็นวัตถุที่น่าสนใจ) เกณฑ์เฉพาะ (วิธีการ / โมเดลขั้นต่ำ x ต้องจัดประเภทวัตถุเป็นวัตถุ ที่น่าสนใจ) หรือคะแนนรวมแบบถ่วงน้ำหนัก (ทุกวิธี/รุ่นสามารถมีความสำคัญ/น้ำหนักในการลงคะแนนที่แตกต่างกัน) ตัวอย่างเช่น หากมี 10 วิธี/รุ่นในการระบุชื่อบุคคลธรรมดา เราสามารถตัดสินใจได้ว่าต้องมีแบบจำลองอย่างน้อย 4 แบบเพื่อจำแนกคำเป็นชื่อบุคคลเพื่อจำแนกเป็นชื่อบุคคล

วิธีการเรียนทั้งมวล

เทคนิคผู้เรียนทั้งมวลทั่วไปสองแบบต่อไปนี้ใช้กลไกการลงคะแนนเสียงนี้:

  • การ บรรจุหีบห่อ : วิธีการเดียวกันนี้ได้รับการฝึกฝนเกี่ยวกับตัวอย่างข้อมูลที่เป็นอิสระต่างๆ กันเพื่อให้ได้แบบจำลองหลายแบบ และการลงคะแนนจะใช้เพื่อตัดสินในขั้นสุดท้าย (ตัวอย่างคลาสสิกคือฟอเรสต์สุ่ม ซึ่งเป็นการรวมกันของทรีการตัดสินใจหลายรายการ)
  • Boosting : ขั้นแรก โมเดลได้รับการฝึกอบรมเกี่ยวกับข้อมูล และโมเดลถัดไปจะถูกเพิ่มโดยเน้นกรณีที่การจัดประเภทผิดในโมเดลก่อนหน้า (เช่น โมเดลใหม่ได้รับการฝึกอบรมตามตัวอย่างข้อมูลใหม่เป็นหลัก – แต่ไม่เพียงแต่ – ที่มีการจัดประเภทที่ไม่ถูกต้อง กรณีของรุ่นก่อนหน้า) อีกครั้ง การลงคะแนนถูกนำมาใช้ในการตัดสินขั้นสุดท้าย (ความแตกต่างของการบรรจุถุงคือการที่การบรรจุถุงด้วยวิธี/แบบจำลองต่างๆ จะได้รับการฝึกอบรมควบคู่ไปกับชุดย่อยของข้อมูลอิสระหลายๆ ชุด ด้วยการเพิ่ม วิธีการ/รุ่นต่างๆ จะได้รับการฝึกแบบเรียงซ้อนตาม กรณีจำแนกผิดของรุ่นก่อนหน้า)

แนวทางทั่วไปอีกวิธีหนึ่ง (ไม่อิงจากการลงคะแนนเสียง) คือการฝึกโมเดลการเรียนรู้ของเครื่องโดยพิจารณาจากผลลัพธ์ของเทคนิค/แบบจำลองหลายแบบ:

  • การเรียง ซ้อน : วิธีการ/โมเดลหลายๆ วิธีแรกได้รับการฝึกฝนอย่างอิสระบนข้อมูลที่ติดฉลาก ถัดไป ผลลัพธ์ทั้งหมดจะถูกรวมเข้าด้วยกันส่งผลให้ชุดข้อมูลใหม่มีคุณสมบัติมากเท่ากับจำนวนวิธี/รุ่นที่ใช้ในขั้นตอนแรก โมเดลแมชชีนเลิร์นนิงใหม่ได้รับการฝึกฝนเกี่ยวกับข้อมูลนั้นเพื่อจัดหมวดหมู่ขั้นสุดท้าย นี่เป็นแนวทางสองขั้นตอน: ขั้นแรกให้ฝึกโมเดลการเรียนรู้ของเครื่องหลาย ๆ แบบควบคู่ไปกับข้อมูลต้นฉบับ ต่อไปฝึกโมเดลการเรียนรู้ของเครื่องเดียวเกี่ยวกับผลลัพธ์ของแบบจำลองทั้งหมดในระยะแรก

การจัดการศึกษาเปรียบเทียบ

จุดเริ่มต้นของผู้เรียนทั้งมวลคือการมีชุดวิธีการที่มีผลลัพธ์ที่หลากหลาย สำหรับกรณีของเรา เห็นได้ชัดว่าสามารถรวม OpenNLP, CoreNLP และ spaCy เพื่อสร้างผู้เรียนทั้งมวล อย่างไรก็ตาม ยิ่งผลลัพธ์มีความหลากหลายมากเท่าใด โอกาสที่จะได้รับผลลัพธ์ก็จะยิ่งดีขึ้นเท่านั้น ซึ่งหมายความว่าการรวมวิธีการ/แบบจำลองจำนวนมากขึ้นจะทำให้มีโอกาสในการปรับปรุงมากขึ้น

เพื่อให้ได้วิธีการต่างๆ มากกว่าสามวิธีภายใต้การศึกษา (OpenNLP, CoreNLP, spaCy) เราสามารถรับแบบจำลองได้หลายแบบจากวิธีเดียวกัน อันที่จริง วิธีการที่กำหนด (เช่น spaCy) สามารถพึ่งพาพารามิเตอร์หลายตัวเพื่อเป็นแนวทางในการรับแบบจำลองจากข้อมูลการฝึกอบรม การเปลี่ยนแปลงค่าที่เรียกว่า ‘พารามิเตอร์ไฮเปอร์พารามิเตอร์’ เหล่านี้ส่งผลให้เกิดผลลัพธ์ที่แตกต่างกัน ดังนั้น โดยการเล่นกับค่าไฮเปอร์พารามิเตอร์เหล่านี้ แบบจำลองหลายแบบสามารถสร้างได้จากเทคนิคพื้นฐานเดียวกัน

เราทดลองกับไฮเปอร์พารามิเตอร์สองตัวใน spaCy: (1) จำนวนการวนซ้ำที่ทำขึ้นเพื่อฝึกโมเดล (ตัวอย่างที่ติดฉลากจะถูกสับเปลี่ยนและนำเสนอหลายครั้งในระหว่างการฝึกอบรมเพื่อค้นหาพารามิเตอร์แบบจำลองที่เหมาะสมที่สุด) และ (2) อัตราการออกกลางคัน (เปอร์เซ็นต์ของเซลล์ประสาทที่ลดลง ระหว่างการฝึกเพื่อป้องกันการฟิตมากเกินไป – spaCy อิงจากโครงข่ายประสาทเทียม)

เราฝึกโมเดลจากชุดเอกสารของเราที่ประกอบด้วยเอกสารที่ติดฉลาก 1,500 ฉบับ โดยมีการทำซ้ำ 1, 2, 5, 10, 20 ครั้ง และอัตราการออกกลางคันที่ 40% และ 50% ส่งผลให้มี 10 รุ่นย่อยตาม spaCy เราใช้โมเดลที่ผ่านการฝึกอบรม 10 แบบในตัวอย่างการตรวจสอบของเราด้วยเอกสาร 200 ฉบับ (เป็นการตั้งค่าเดียวกันกับการทดสอบครั้งก่อนๆ ของเรา) และสังเกตว่าตัวแปรทุกรุ่นให้ผลลัพธ์ที่แตกต่างกันจริง ๆ กล่าวคือ ทุกรุ่นส่งผลให้ชุดของชื่อบุคคลที่ระบุตัวตนต่างกัน แต่รุ่น spaCy ทั้งหมดมีการเรียกคืนสูงและความแม่นยำที่สมเหตุสมผลเหมือนกัน (สอดคล้องกับผลลัพธ์ก่อนหน้าของเราสำหรับ spaCy)

ผลลัพธ์

อิงจากตัวแปร spaCy 10 แบบ และรวมกับโมเดล OpenNLP ผู้เรียนหลายกลุ่มได้รับมา

ในอีกด้านหนึ่ง กลไกการลงคะแนนแบบคลาสสิกถูกใช้เพื่อกำหนดการจัดประเภทขั้นสุดท้าย ส่งผลให้กลุ่มผู้เรียนเป็นกลุ่ม โดยที่คำถูกจัดประเภทเป็นชื่อบุคคล หากมีแบบจำลองอย่างน้อย 1, 2, 3 … 10 แบบ

ในทางกลับกัน ผู้เรียนทั้งมวลได้มาจากการใช้กลไก ‘การซ้อน’ ตามผลลัพธ์ของแบบจำลองทั้งหมดและผลลัพธ์ที่แท้จริง ฟอเรสต์สุ่มได้รับการฝึกอบรมเพื่อให้ได้การจำแนกขั้นสุดท้าย

ความแม่นยำและการเรียกคืนวิธีการทั้งมวล (การลงคะแนนและการซ้อน) f

หรือแบบฝึกสั่งทำพิเศษ (ฝึกบนเอกสาร 1,500 ฉบับ ตรวจสอบเอกสาร 200 ฉบับ)

สนใจรับคำปรึกษาด้านวางระบบจัดการเอกสารอิเล็กทรอนิกส์  EDMS บริการตรวจข้อสอบ นับคะแนน โดยทีมงานผู้เชี่ยวชาญจาก K&O ที่มีประสบการณ์มากว่า 15 ปี 

รวมถึงซอฟต์แวร์ระดับโลก ติดต่อ 0 2 – 8 6 0 – 6 6 5 9 หรือ E m a i l : c s @ k o . i n . t h 

สามารถติดต่อสอบถามได้โดยตรง เรามีแอดมินคอยคอบคำถาม 24 ชั้วโมงที่ Line OA

สอบถามได้สบายใจทั้ง เรื่องค่าบริการ ราคา และ งบประมาณ เพราะเป็นราคาที่สุด คุ้มที่สุด

ส า ม า ร ถ รั บ ช ม วี ดี โ อ ส า ธิ ต วิ ธี ก า ร ใช้ ง า น จ ริ ง ไ ด้ ที่ นี่

หากท่านมีความสนใจ บทความ หรือ Technology สามารถติดต่อได้ตามเบอร์ที่ให้ไว้ด้านล่างนี้
Tel.086-594-5494
Tel.095-919-6699

Leave a Reply

Your email address will not be published. Required fields are marked *