โครงข่ายประสาทเทียมคืออะไร โครงข่ายประสาทเทียม: พวกมันคืออะไร ใช้ที่ไหน มีโครงสร้างอย่างไร และทำหน้าที่อะไร? โครงข่ายประสาทเทียมคืออะไร


ปัญญาประดิษฐ์ โครงข่ายประสาทเทียม การเรียนรู้ของเครื่อง - แนวคิดยอดนิยมเหล่านี้หมายถึงอะไรจริงๆ สำหรับคนที่ไม่ได้ฝึกหัดส่วนใหญ่ซึ่งฉันเองก็เป็น พวกเขาดูเหมือนเป็นสิ่งที่มหัศจรรย์อยู่เสมอ แต่จริงๆ แล้ว แก่นแท้ของพวกเขาอยู่เพียงผิวเผิน ฉันมีความคิดที่จะเขียนด้วยภาษาง่ายๆ เกี่ยวกับโครงข่ายประสาทเทียมมานานแล้ว ค้นหาตัวคุณเองและบอกผู้อื่นว่าเทคโนโลยีนี้คืออะไร ทำงานอย่างไร พิจารณาประวัติความเป็นมาและแนวโน้มของเทคโนโลยีนี้ ในบทความนี้ฉันพยายามที่จะไม่เข้าไปในวัชพืช แต่เพื่อพูดคุยอย่างเรียบง่ายและเป็นที่นิยมเกี่ยวกับทิศทางที่มีแนวโน้มนี้ในโลกแห่งเทคโนโลยีชั้นสูง


ปัญญาประดิษฐ์ โครงข่ายประสาทเทียม การเรียนรู้ของเครื่อง - แนวคิดยอดนิยมเหล่านี้หมายถึงอะไรจริงๆ สำหรับคนที่ไม่ได้ฝึกหัดส่วนใหญ่ซึ่งฉันเองก็เป็น พวกเขาดูเหมือนเป็นสิ่งที่มหัศจรรย์อยู่เสมอ แต่จริงๆ แล้ว แก่นแท้ของพวกเขาอยู่เพียงผิวเผิน ฉันมีความคิดที่จะเขียนด้วยภาษาง่ายๆ เกี่ยวกับโครงข่ายประสาทเทียมมานานแล้ว ค้นหาด้วยตัวคุณเองและบอกผู้อื่นว่าเทคโนโลยีนี้คืออะไร ทำงานอย่างไร พิจารณาประวัติและแนวโน้มของมัน ในบทความนี้ฉันพยายามที่จะไม่เข้าไปในวัชพืช แต่เพื่อพูดคุยอย่างเรียบง่ายและเป็นที่นิยมเกี่ยวกับทิศทางที่มีแนวโน้มนี้ในโลกแห่งเทคโนโลยีชั้นสูง

ประวัติเล็กน้อย

เป็นครั้งแรกที่แนวคิดเกี่ยวกับโครงข่ายประสาทเทียม (ANN) เกิดขึ้นจากความพยายามที่จะจำลองกระบวนการของสมอง การสร้างแบบจำลองโครงข่ายประสาทเทียม McCulloch-Pitts ในปี 1943 ถือเป็นความก้าวหน้าครั้งสำคัญครั้งแรกในด้านนี้ นักวิทยาศาสตร์ได้พัฒนาแบบจำลองเซลล์ประสาทเทียมเป็นครั้งแรก พวกเขายังเสนอการออกแบบเครือข่ายขององค์ประกอบเหล่านี้เพื่อดำเนินการเชิงตรรกะ แต่ที่สำคัญที่สุด นักวิทยาศาสตร์ได้พิสูจน์แล้วว่าเครือข่ายดังกล่าวสามารถเรียนรู้ได้

ขั้นตอนสำคัญต่อไปคือการพัฒนาโดย Donald Hebb สำหรับอัลกอริทึมแรกสำหรับการคำนวณ ANN ในปี 1949 ซึ่งกลายเป็นพื้นฐานสำหรับหลายทศวรรษต่อมา ในปี 1958 Frank Rosenblatt พัฒนาพาร์เซปตรอน ซึ่งเป็นระบบที่เลียนแบบกระบวนการของสมอง ครั้งหนึ่ง เทคโนโลยีไม่มีระบบอะนาล็อกและยังคงเป็นพื้นฐานในโครงข่ายประสาทเทียม ในปีพ.ศ. 2529 นักวิทยาศาสตร์ชาวอเมริกันและโซเวียตได้ปรับปรุงวิธีการพื้นฐานในการฝึกเพอร์เซปตรอนแบบหลายชั้นโดยแยกจากกันเกือบจะพร้อมๆ กันอย่างมีนัยสำคัญ ในปี 2550 โครงข่ายประสาทเทียมประสบกับการเกิดใหม่ เจฟฟรีย์ ฮินตัน นักวิทยาศาสตร์คอมพิวเตอร์ชาวอังกฤษ พัฒนาอัลกอริธึมการเรียนรู้เชิงลึกสำหรับโครงข่ายประสาทเทียมหลายชั้นเป็นครั้งแรก ซึ่งปัจจุบันนี้ใช้เพื่อควบคุมยานพาหนะไร้คนขับ เป็นต้น

สั้น ๆ เกี่ยวกับสิ่งสำคัญ

ในความหมายทั่วไปของคำนี้ โครงข่ายประสาทเทียมเป็นแบบจำลองทางคณิตศาสตร์ที่ทำงานบนหลักการของโครงข่ายของเซลล์ประสาทในสิ่งมีชีวิตของสัตว์ ANN สามารถนำไปใช้ได้ทั้งในโซลูชันแบบตั้งโปรแกรมและฮาร์ดแวร์ เพื่อให้เข้าใจสิ่งต่าง ๆ ได้ง่ายขึ้น เซลล์ประสาทสามารถถูกมองว่าเป็นเซลล์ที่มีช่องอินพุตจำนวนมากและช่องเอาต์พุตหนึ่งช่อง วิธีการสร้างสัญญาณขาเข้าหลายสัญญาณเป็นสัญญาณเอาท์พุตจะถูกกำหนดโดยอัลกอริธึมการคำนวณ ค่าที่มีประสิทธิผลจะถูกส่งไปยังอินพุตของเซลล์ประสาทแต่ละอัน ซึ่งจะกระจายไปตามการเชื่อมต่อของเซลล์ประสาทภายใน (บทสรุป) ไซแนปส์มีพารามิเตอร์ตัวเดียว - น้ำหนักเนื่องจากข้อมูลอินพุตเปลี่ยนแปลงเมื่อย้ายจากเซลล์ประสาทหนึ่งไปยังอีกเซลล์หนึ่ง วิธีที่ง่ายที่สุดในการจินตนาการถึงหลักการทำงานของโครงข่ายประสาทเทียมคือการผสมสี เซลล์ประสาทสีน้ำเงิน เขียว และแดงมีน้ำหนักต่างกัน ข้อมูลของเซลล์ประสาทที่มีน้ำหนักมากกว่าจะมีความสำคัญในเซลล์ประสาทถัดไป

โครงข่ายประสาทเทียมนั้นเป็นระบบของเซลล์ประสาท (โปรเซสเซอร์) ดังกล่าวจำนวนมาก โดยแยกจากกัน โปรเซสเซอร์เหล่านี้ค่อนข้างเรียบง่าย (ง่ายกว่าโปรเซสเซอร์คอมพิวเตอร์ส่วนบุคคลมาก) แต่เมื่อเชื่อมต่อกับระบบที่ใหญ่กว่า เซลล์ประสาทก็สามารถทำงานที่ซับซ้อนมากได้

โครงข่ายประสาทเทียมสามารถตีความได้หลายวิธีขึ้นอยู่กับขอบเขตการใช้งาน ตัวอย่างเช่น จากมุมมองของการเรียนรู้ของเครื่อง ANN เป็นวิธีการรับรู้รูปแบบ จากมุมมองทางคณิตศาสตร์ นี่เป็นปัญหาที่มีหลายพารามิเตอร์ จากมุมมองของไซเบอร์เนติกส์ - แบบจำลองการควบคุมหุ่นยนต์แบบปรับตัว สำหรับปัญญาประดิษฐ์ ANN เป็นองค์ประกอบพื้นฐานสำหรับการสร้างแบบจำลองปัญญาธรรมชาติโดยใช้อัลกอริธึมการคำนวณ

ข้อได้เปรียบหลักของโครงข่ายประสาทเทียมเหนืออัลกอริธึมการคำนวณทั่วไปคือความสามารถในการเรียนรู้ ในความหมายทั่วไปของคำนี้ การเรียนรู้เป็นเรื่องเกี่ยวกับการค้นหาสัมประสิทธิ์การเชื่อมต่อที่ถูกต้องระหว่างเซลล์ประสาท รวมถึงการสรุปข้อมูลและการระบุการพึ่งพาที่ซับซ้อนระหว่างสัญญาณอินพุตและเอาต์พุต ในความเป็นจริง การฝึกอบรมโครงข่ายประสาทเทียมที่ประสบความสำเร็จหมายความว่าระบบจะสามารถระบุผลลัพธ์ที่ถูกต้องตามข้อมูลที่ไม่ได้อยู่ในชุดการฝึกอบรม

สถานการณ์ปัจจุบัน

และไม่ว่าเทคโนโลยีนี้จะมีแนวโน้มที่ดีเพียงใด ANN ยังห่างไกลจากความสามารถของสมองและความคิดของมนุษย์มากนัก อย่างไรก็ตาม โครงข่ายประสาทเทียมถูกนำมาใช้ในกิจกรรมของมนุษย์ในหลายด้านแล้ว จนถึงตอนนี้พวกเขาไม่สามารถตัดสินใจอย่างชาญฉลาดได้ แต่พวกเขาสามารถแทนที่บุคคลที่เขาต้องการก่อนหน้านี้ได้ ในการใช้งาน ANN ในด้านต่างๆ เราสามารถสังเกตได้: การสร้างระบบกระบวนการผลิตแบบเรียนรู้ด้วยตนเอง ยานพาหนะไร้คนขับ ระบบจดจำภาพ ระบบรักษาความปลอดภัยอัจฉริยะ หุ่นยนต์ ระบบตรวจสอบคุณภาพ อินเทอร์เฟซการโต้ตอบด้วยเสียง ระบบวิเคราะห์ และอื่นๆ อีกมากมาย การใช้โครงข่ายประสาทเทียมอย่างแพร่หลายนี้ เหนือสิ่งอื่นใด เกิดจากการเกิดขึ้นของวิธีการต่างๆ เพื่อเร่งการฝึกอบรม ANN

ทุกวันนี้ ตลาดสำหรับโครงข่ายประสาทเทียมมีขนาดใหญ่มาก - มีมูลค่าหลายพันล้านดอลลาร์ ตามที่แสดงในทางปฏิบัติ เทคโนโลยีโครงข่ายประสาทเทียมส่วนใหญ่ทั่วโลกมีความแตกต่างกันเพียงเล็กน้อย อย่างไรก็ตาม การใช้โครงข่ายประสาทเทียมเป็นกิจกรรมที่มีราคาแพงมาก ซึ่งโดยส่วนใหญ่แล้วสามารถทำได้โดยบริษัทขนาดใหญ่เท่านั้น การพัฒนา การฝึกอบรม และการทดสอบโครงข่ายประสาทเทียมต้องใช้พลังการประมวลผลขนาดใหญ่ และเห็นได้ชัดว่าผู้เล่นรายใหญ่ในตลาดไอทีมีสิ่งเหล่านี้มากมาย บริษัทหลักที่เป็นผู้นำการพัฒนาในด้านนี้คือแผนก Google DeepMind, แผนก Microsoft Research, IBM, Facebook และ Baidu

แน่นอนว่าทั้งหมดนี้เป็นสิ่งที่ดี: โครงข่ายประสาทเทียมกำลังพัฒนา ตลาดกำลังเติบโต แต่จนถึงขณะนี้ปัญหาหลักยังไม่ได้รับการแก้ไข มนุษยชาติล้มเหลวในการสร้างเทคโนโลยีที่มีความสามารถใกล้เคียงกับสมองของมนุษย์ด้วยซ้ำ เรามาดูความแตกต่างที่สำคัญระหว่างสมองมนุษย์และโครงข่ายประสาทเทียมกัน

เหตุใดโครงข่ายประสาทเทียมจึงยังห่างไกลจากสมองของมนุษย์?

ความแตกต่างที่สำคัญที่สุดซึ่งเปลี่ยนแปลงหลักการและประสิทธิภาพของระบบอย่างรุนแรงคือการส่งสัญญาณที่แตกต่างกันในโครงข่ายประสาทเทียมและในเครือข่ายทางชีวภาพของเซลล์ประสาท ความจริงก็คือใน ANN เซลล์ประสาทจะส่งค่าที่เป็นค่าจริงนั่นคือตัวเลข ในสมองของมนุษย์ แรงกระตุ้นจะถูกส่งด้วยแอมพลิจูดคงที่ และแรงกระตุ้นเหล่านี้เกือบจะเกิดขึ้นทันที สิ่งนี้นำไปสู่ข้อดีหลายประการของเครือข่ายเซลล์ประสาทของมนุษย์

ประการแรก สายการสื่อสารในสมองมีประสิทธิภาพและประหยัดมากกว่าสายสื่อสารใน ANN มาก ประการที่สองวงจรพัลส์ช่วยให้มั่นใจในการใช้งานเทคโนโลยีได้ง่าย: การใช้วงจรแอนะล็อกแทนกลไกการคำนวณที่ซับซ้อนก็เพียงพอแล้ว ท้ายที่สุดแล้ว เครือข่ายแบบพัลซิ่งจะมีภูมิคุ้มกันต่อการรบกวนทางเสียง จำนวนจริงอาจมีสัญญาณรบกวน ซึ่งเพิ่มโอกาสที่จะเกิดข้อผิดพลาด

บรรทัดล่าง

แน่นอนว่าในช่วงทศวรรษที่ผ่านมาการพัฒนาโครงข่ายประสาทเทียมมีความเจริญอย่างมาก สาเหตุหลักมาจากการที่กระบวนการฝึกอบรมของ ANN มีความรวดเร็วและง่ายขึ้นมาก สิ่งที่เรียกว่าโครงข่ายประสาทเทียม "ที่ได้รับการฝึกอบรมล่วงหน้า" ก็เริ่มได้รับการพัฒนาอย่างแข็งขันเช่นกัน ซึ่งสามารถเร่งกระบวนการแนะนำเทคโนโลยีให้เร็วขึ้นได้อย่างมาก และหากยังเร็วเกินไปที่จะบอกว่าวันหนึ่งโครงข่ายประสาทเทียมจะสามารถสร้างความสามารถของสมองมนุษย์ได้อย่างเต็มที่หรือไม่ ความน่าจะเป็นที่ในทศวรรษหน้า ANN จะสามารถแทนที่มนุษย์ในหนึ่งในสี่ของอาชีพที่มีอยู่ก็กำลังกลายเป็นเรื่องจริงมากขึ้น .

สำหรับผู้ที่ต้องการทราบข้อมูลเพิ่มเติม

  • มหาสงครามประสาท: สิ่งที่ Google กำลังทำอยู่จริงๆ
  • คอมพิวเตอร์เชิงความรู้สามารถเปลี่ยนแปลงอนาคตของเราได้อย่างไร

สวัสดีตอนบ่าย ฉันชื่อ Natalia Efremova เป็นนักวิทยาศาสตร์การวิจัยที่ NtechLab วันนี้ฉันจะพูดถึงประเภทของโครงข่ายประสาทเทียมและการใช้งาน

ก่อนอื่น ผมจะพูดสักสองสามคำเกี่ยวกับบริษัทของเรา บริษัทยังใหม่ หลายๆ คนอาจจะยังไม่รู้ว่าเราทำอะไร ปีที่แล้วเราชนะการแข่งขัน MegaFace นี่คือการแข่งขันจดจำใบหน้าระดับนานาชาติ ในปีเดียวกันนั้น บริษัท ของเราเปิดทำการนั่นคือเราอยู่ในตลาดมาประมาณหนึ่งปีแล้วหรือมากกว่านั้นอีกเล็กน้อย ดังนั้นเราจึงเป็นหนึ่งในบริษัทชั้นนำด้านการจดจำใบหน้าและการประมวลผลภาพไบโอเมตริกซ์

ส่วนแรกของรายงานของฉันจะมุ่งตรงไปยังผู้ที่ไม่คุ้นเคยกับโครงข่ายประสาทเทียม ฉันมีส่วนร่วมโดยตรงกับการเรียนรู้เชิงลึก ฉันทำงานด้านนี้มามากกว่า 10 ปี แม้ว่าจะดูเหมือนน้อยกว่าหนึ่งทศวรรษที่แล้วเล็กน้อย แต่เคยมีโครงข่ายประสาทเทียมพื้นฐานบางอย่างที่คล้ายคลึงกับระบบการเรียนรู้เชิงลึก

ในช่วง 10 ปีที่ผ่านมา การเรียนรู้เชิงลึกและการมองเห็นด้วยคอมพิวเตอร์ได้พัฒนาไปอย่างรวดเร็วอย่างไม่น่าเชื่อ ทุกสิ่งที่ทำซึ่งมีความสำคัญในพื้นที่นี้เกิดขึ้นในช่วง 6 ปีที่ผ่านมา

ฉันจะพูดถึงแง่มุมเชิงปฏิบัติ: ที่ไหน เมื่อไร อะไรที่จะใช้ในแง่ของการเรียนรู้เชิงลึกสำหรับการประมวลผลรูปภาพและวิดีโอ สำหรับการจดจำรูปภาพและใบหน้า เนื่องจากฉันทำงานในบริษัทที่ทำสิ่งนี้ ฉันจะบอกคุณเล็กน้อยเกี่ยวกับการจดจำอารมณ์และแนวทางที่ใช้ในเกมและหุ่นยนต์ นอกจากนี้ ฉันจะพูดถึงการประยุกต์ใช้การเรียนรู้เชิงลึกที่ไม่ได้มาตรฐาน ซึ่งเป็นสิ่งที่เพิ่งเกิดขึ้นจากสถาบันทางวิทยาศาสตร์และยังไม่ค่อยได้ใช้ในทางปฏิบัติ จะนำไปประยุกต์ได้อย่างไร และเหตุใดจึงนำไปใช้ได้ยาก

รายงานจะประกอบด้วยสองส่วน เนื่องจากคนส่วนใหญ่คุ้นเคยกับโครงข่ายประสาทเทียม ก่อนอื่นฉันจะอธิบายอย่างรวดเร็วว่าโครงข่ายประสาทเทียมทำงานอย่างไร โครงข่ายประสาทเทียมทางชีวภาพคืออะไร เหตุใดจึงสำคัญสำหรับเราที่จะรู้ว่ามันทำงานอย่างไร โครงข่ายประสาทเทียมคืออะไร และสถาปัตยกรรมใดบ้างที่ใช้ในพื้นที่ใด .

ฉันขอโทษทันที ฉันจะข้ามไปที่คำศัพท์ภาษาอังกฤษเล็กน้อยเพราะฉันไม่รู้ด้วยซ้ำว่ามันเรียกว่าอะไรในภาษารัสเซีย บางทีคุณก็เช่นกัน

ดังนั้นส่วนแรกของรายงานจะเน้นไปที่โครงข่ายประสาทเทียมแบบหมุนวน ฉันจะบอกคุณว่าเครือข่ายประสาทเทียม (CNN) และการจดจำภาพทำงานอย่างไรโดยใช้ตัวอย่างจากการจดจำใบหน้า ฉันจะบอกคุณเล็กน้อยเกี่ยวกับโครงข่ายประสาทเทียม (RNN) และการเรียนรู้แบบเสริมกำลังโดยใช้ตัวอย่างของระบบการเรียนรู้เชิงลึก

ในฐานะที่เป็นแอปพลิเคชันที่ไม่เป็นมาตรฐานของโครงข่ายประสาทเทียม ฉันจะพูดถึงวิธีการทำงานของ CNN ในด้านการแพทย์เพื่อจดจำภาพว็อกเซล โครงข่ายประสาทเทียมถูกใช้เพื่อรับรู้ความยากจนในแอฟริกาอย่างไร

โครงข่ายประสาทเทียมคืออะไร

ต้นแบบสำหรับการสร้างโครงข่ายประสาทเทียมคือโครงข่ายประสาทเทียมทางชีววิทยาที่แปลกประหลาดพอสมควร หลายท่านอาจรู้วิธีการเขียนโปรแกรมโครงข่ายประสาทเทียม แต่ผมคิดว่าบางคนไม่ทราบที่มาของมัน สองในสามของข้อมูลทางประสาทสัมผัสทั้งหมดที่มาถึงเรามาจากอวัยวะที่มองเห็นของการรับรู้ มากกว่าหนึ่งในสามของพื้นผิวสมองของเราถูกครอบครองโดยบริเวณการมองเห็นที่สำคัญที่สุดสองแห่ง ได้แก่ ทางเดินการมองเห็นด้านหลัง และทางเดินการมองเห็นหน้าท้อง

วิถีการมองเห็นด้านหลังเริ่มต้นในโซนการมองเห็นหลัก ที่กระหม่อมของเรา และดำเนินต่อไปด้านบน ในขณะที่วิถีการมองเห็นหน้าท้องเริ่มต้นที่ด้านหลังศีรษะและสิ้นสุดประมาณหลังใบหู การจดจำรูปแบบที่สำคัญทั้งหมดที่เกิดขึ้นกับเรา ทุกสิ่งที่มีความหมายที่เรารับรู้ เกิดขึ้นตรงนั้น หลังใบหู

ทำไมสิ่งนี้ถึงสำคัญ? เพราะบ่อยครั้งจำเป็นต้องเข้าใจโครงข่ายประสาทเทียม ประการแรก ทุกคนพูดถึงเรื่องนี้ และฉันคุ้นเคยกับเหตุการณ์นี้แล้ว และประการที่สอง ความจริงก็คือ พื้นที่ทั้งหมดที่ใช้ในโครงข่ายประสาทเทียมสำหรับการจดจำภาพ มาหาเราอย่างแม่นยำจากทางเดินการมองเห็นหน้าท้อง ซึ่งแต่ละส่วนเล็ก ๆ โซนรับผิดชอบหน้าที่ที่กำหนดไว้อย่างเคร่งครัด

ภาพมาหาเราจากเรตินา ผ่านชุดโซนการมองเห็น และสิ้นสุดในโซนขมับ

ในยุค 60 อันห่างไกลของศตวรรษที่ผ่านมา เมื่อการศึกษาพื้นที่การมองเห็นของสมองเพิ่งเริ่มต้น การทดลองครั้งแรกเกิดขึ้นกับสัตว์ เนื่องจากไม่มี fMRI ศึกษาสมองโดยใช้อิเล็กโทรดที่ฝังเข้าไปในบริเวณการมองเห็นต่างๆ

พื้นที่การมองเห็นแรกได้รับการศึกษาโดย David Hubel และ Torsten Wiesel ในปี 1962 พวกเขาทำการทดลองกับแมว แมวถูกแสดงวัตถุเคลื่อนไหวต่างๆ สิ่งที่เซลล์สมองตอบสนองคือสิ่งเร้าที่สัตว์รับรู้ได้ แม้ว่าในปัจจุบันจะมีการทดลองมากมายด้วยวิธีที่เข้มงวดเหล่านี้ แต่อย่างไรก็ตาม นี่เป็นวิธีที่มีประสิทธิภาพที่สุดในการค้นหาว่าเซลล์เล็กๆ ทุกเซลล์ในสมองของเรากำลังทำอะไรอยู่

ในทำนองเดียวกัน มีการค้นพบคุณสมบัติที่สำคัญอีกมากมายของพื้นที่การมองเห็น ซึ่งเราใช้ในการเรียนรู้เชิงลึกในขณะนี้ คุณสมบัติที่สำคัญที่สุดประการหนึ่งคือการเพิ่มขึ้นของลานรับสัญญาณของเซลล์ของเราเมื่อเราเคลื่อนจากบริเวณการมองเห็นปฐมภูมิไปยังสมองกลีบขมับ ซึ่งก็คือบริเวณการมองเห็นในระยะหลัง สนามรับคือส่วนหนึ่งของภาพที่ทุกเซลล์ในสมองของเราประมวลผล แต่ละเซลล์มีเขตข้อมูลของตนเอง คุณสมบัติเดียวกันนี้จะถูกเก็บรักษาไว้ในโครงข่ายประสาทเทียม ดังที่คุณคงทราบกันดีอยู่แล้ว

นอกจากนี้ เมื่อเขตข้อมูลเปิดกว้างเพิ่มขึ้น สิ่งเร้าที่ซับซ้อนที่โครงข่ายประสาทเทียมมักจะรับรู้ก็เพิ่มขึ้นเช่นกัน

ต่อไปนี้คุณจะเห็นตัวอย่างความซับซ้อนของสิ่งเร้า รูปร่างสองมิติต่างๆ ที่ตรวจพบในพื้นที่ V2, V4 และส่วนต่างๆ ของลานขมับในลิงแสม มีการทดลอง MRI หลายครั้งด้วย

ที่นี่คุณสามารถดูว่าการทดลองดังกล่าวดำเนินการอย่างไร นี่คือส่วน 1 นาโนเมตรของโซน IT cortex ของลิงเมื่อจดจำวัตถุต่างๆ โดยเน้นที่จุดนั้น

มาสรุปกัน คุณสมบัติที่สำคัญที่เราต้องการนำมาใช้จากพื้นที่การมองเห็นก็คือ ขนาดของช่องรับสัญญาณเพิ่มขึ้น และความซับซ้อนของวัตถุที่เราจดจำก็เพิ่มขึ้น

วิสัยทัศน์คอมพิวเตอร์

ก่อนที่เราจะเรียนรู้การนำสิ่งนี้ไปใช้กับคอมพิวเตอร์วิทัศน์ โดยทั่วไปแล้ว มันไม่เป็นเช่นนั้น ไม่ว่าในกรณีใด มันก็ไม่ได้ผลดีเท่ากับตอนนี้

เราถ่ายโอนคุณสมบัติทั้งหมดเหล่านี้ไปยังโครงข่ายประสาทเทียม และตอนนี้ก็ใช้งานได้แล้ว หากคุณไม่รวมการพูดนอกเรื่องเล็กน้อยในชุดข้อมูล ซึ่งฉันจะเล่าให้คุณฟังในภายหลัง

แต่ก่อนอื่น เล็กน้อยเกี่ยวกับเพอร์เซปตรอนที่ง่ายที่สุด มันยังถูกสร้างขึ้นในภาพและอุปมาของสมองของเราด้วย องค์ประกอบที่ง่ายที่สุดที่มีลักษณะคล้ายเซลล์สมองคือเซลล์ประสาท มีองค์ประกอบอินพุตที่โดยค่าเริ่มต้นจะจัดเรียงจากซ้ายไปขวา บางครั้งจากล่างขึ้นบน ด้านซ้ายเป็นส่วนอินพุตของเซลล์ประสาท ด้านขวาเป็นส่วนเอาต์พุตของเซลล์ประสาท

เพอร์เซพตรอนที่ง่ายที่สุดสามารถดำเนินการได้เฉพาะการดำเนินการที่ง่ายที่สุดเท่านั้น เพื่อที่จะคำนวณที่ซับซ้อนมากขึ้น เราจำเป็นต้องมีโครงสร้างที่มีเลเยอร์ที่ซ่อนอยู่มากขึ้น

ในกรณีของคอมพิวเตอร์วิทัศน์ เราต้องการเลเยอร์ที่ซ่อนอยู่มากกว่านี้ และจากนั้นระบบจะจดจำสิ่งที่เห็นได้อย่างมีความหมาย

ดังนั้น ฉันจะบอกคุณว่าเกิดอะไรขึ้นระหว่างการจดจำภาพโดยใช้ตัวอย่างใบหน้า

สำหรับเราดูภาพนี้แล้วบอกว่าเห็นหน้าองค์จริงค่อนข้างจะธรรมดา อย่างไรก็ตาม ก่อนปี 2010 นี่เป็นงานที่ยากอย่างเหลือเชื่อสำหรับคอมพิวเตอร์วิทัศน์ ผู้ที่เคยจัดการกับปัญหานี้มาก่อนเวลานี้คงรู้ดีว่ามันยากแค่ไหนในการอธิบายวัตถุที่เราต้องการค้นหาในภาพโดยไม่ต้องใช้คำพูด

เราจำเป็นต้องทำเช่นนี้ในวิธีทางเรขาคณิต อธิบายวัตถุ อธิบายความสัมพันธ์ของวัตถุ ว่าส่วนต่างๆ เหล่านี้มีความสัมพันธ์กันอย่างไร จากนั้นหาภาพนี้บนวัตถุ เปรียบเทียบพวกมัน และรับสิ่งที่เราจำได้ไม่ดี ปกติแล้วจะดีกว่าการพลิกเหรียญเล็กน้อย ดีกว่าระดับโอกาสเล็กน้อย

นี่ไม่ใช่วิธีการทำงานในขณะนี้ เราแบ่งรูปภาพของเราออกเป็นพิกเซลหรือเป็นแพตช์: 2x2, 3x3, 5x5, 11x11 พิกเซล - ตามที่สะดวกสำหรับผู้สร้างระบบที่พวกเขาทำหน้าที่เป็นเลเยอร์อินพุตไปยังโครงข่ายประสาทเทียม

สัญญาณจากเลเยอร์อินพุตเหล่านี้จะถูกส่งจากเลเยอร์หนึ่งไปอีกเลเยอร์หนึ่งโดยใช้ไซแนปส์ แต่ละเลเยอร์มีค่าสัมประสิทธิ์เฉพาะของตัวเอง เราจึงถ่ายทอดจากชั้นหนึ่งไปอีกชั้นหนึ่ง จากชั้นหนึ่งไปอีกชั้นหนึ่ง จนกระทั่งเราพบว่าเราจำใบหน้าได้

ตามอัตภาพ ชิ้นส่วนทั้งหมดเหล่านี้สามารถแบ่งออกเป็นสามคลาส เราจะแสดงพวกมัน X, W และ Y โดยที่ X คือรูปภาพอินพุตของเรา Y คือชุดป้ายกำกับ และเราต้องรับน้ำหนักของเรา เราจะคำนวณ W ได้อย่างไร?

เมื่อพิจารณาค่า X และ Y ของเราแล้ว นี่ดูเหมือนง่าย อย่างไรก็ตาม สิ่งที่ระบุด้วยเครื่องหมายดอกจันนั้นเป็นการดำเนินการแบบไม่เชิงเส้นที่ซับซ้อนมาก ซึ่งน่าเสียดายที่ไม่มีการผกผัน แม้จะมีองค์ประกอบที่กำหนด 2 องค์ประกอบ แต่ก็เป็นเรื่องยากมากที่จะคำนวณ ดังนั้นเราจึงต้องค่อยๆ ลองผิดลองถูก โดยการเลือกน้ำหนัก W ตรวจสอบให้แน่ใจว่าข้อผิดพลาดลดลงมากที่สุดเท่าที่จะเป็นไปได้ โดยควรให้มีค่าเท่ากับศูนย์

กระบวนการนี้เกิดขึ้นซ้ำๆ โดยลดอย่างต่อเนื่องจนกว่าจะพบค่าน้ำหนัก W ที่เหมาะกับเราอย่างเพียงพอ

อย่างไรก็ตาม ไม่ใช่เครือข่ายประสาทเดียวที่ฉันทำงานด้วยมีข้อผิดพลาดเป็นศูนย์ แต่มันทำงานได้ค่อนข้างดี

นี่เป็นเครือข่ายแรกที่ชนะการแข่งขัน ImageNet ระดับนานาชาติในปี 2555 นี่คือสิ่งที่เรียกว่า AlexNet นี่คือเครือข่ายที่ประกาศตัวเองเป็นครั้งแรกว่ามีโครงข่ายประสาทเทียมแบบม้วนอยู่ และตั้งแต่นั้นมาโครงข่ายประสาทเทียมแบบม้วนก็ไม่เคยละทิ้งตำแหน่งในการแข่งขันระดับนานาชาติทั้งหมด

แม้ว่าเครือข่ายนี้จะค่อนข้างเล็ก (มีเพียง 7 เลเยอร์ที่ซ่อนอยู่) แต่ก็มีเซลล์ประสาท 650,000 ตัวพร้อมพารามิเตอร์ 60 ล้านตัว เพื่อที่จะเรียนรู้ซ้ำๆ เพื่อค้นหาน้ำหนักที่จำเป็น เราจำเป็นต้องมีตัวอย่างมากมาย

โครงข่ายประสาทเทียมเรียนรู้จากตัวอย่างรูปภาพและป้ายกำกับ เช่นเดียวกับที่เราถูกสอนในวัยเด็กว่า "นี่คือแมว และนี่คือสุนัข" โครงข่ายประสาทเทียมได้รับการฝึกฝนเกี่ยวกับรูปภาพจำนวนมาก แต่ความจริงก็คือจนถึงปี 2010 ไม่มีชุดข้อมูลขนาดใหญ่พอที่จะสอนพารามิเตอร์จำนวนหนึ่งให้จดจำภาพได้

ฐานข้อมูลที่ใหญ่ที่สุดที่มีอยู่ก่อนเวลานี้ ได้แก่ PASCAL VOC ซึ่งมีวัตถุเพียง 20 หมวดหมู่ และ Caltech 101 ซึ่งได้รับการพัฒนาที่สถาบันเทคโนโลยีแคลิฟอร์เนีย อันสุดท้ายมี 101 หมวด และนั่นก็เยอะมาก ผู้ที่ไม่สามารถค้นหาวัตถุของตนในฐานข้อมูลใด ๆ เหล่านี้ได้จะต้องเสียค่าใช้จ่ายในฐานข้อมูลซึ่งฉันจะบอกว่าเป็นเรื่องที่เจ็บปวดอย่างมาก

อย่างไรก็ตามในปี 2010 ฐานข้อมูล ImageNet ปรากฏขึ้นซึ่งมีรูปภาพ 15 ล้านภาพแบ่งออกเป็น 22,000 หมวดหมู่ สิ่งนี้ช่วยแก้ปัญหาของเราในการฝึกอบรมโครงข่ายประสาทเทียม ตอนนี้ใครก็ตามที่มีที่อยู่ทางวิชาการสามารถไปที่เว็บไซต์ของฐานได้อย่างง่ายดาย ขอเข้าถึง และรับฐานนี้สำหรับการฝึกอบรมโครงข่ายประสาทเทียมของตน ในความคิดของฉันพวกเขาตอบสนองค่อนข้างเร็วในวันถัดไป

เมื่อเทียบกับชุดข้อมูลก่อนหน้านี้ นี่เป็นฐานข้อมูลที่มีขนาดใหญ่มาก

ตัวอย่างแสดงให้เห็นว่าทุกสิ่งที่เกิดขึ้นก่อนหน้านี้ไม่มีนัยสำคัญเพียงใด พร้อมกับฐาน ImageNet การแข่งขัน ImageNet ก็ปรากฏขึ้น ซึ่งเป็นความท้าทายระดับนานาชาติที่ทุกทีมที่ประสงค์จะแข่งขันสามารถเข้าร่วมได้

ปีนี้เครือข่ายที่ชนะถูกสร้างขึ้นในประเทศจีน โดยมี 269 เลเยอร์ ฉันไม่รู้ว่ามีพารามิเตอร์กี่ตัว ฉันสงสัยว่าก็มีมากเช่นกัน

สถาปัตยกรรมเครือข่ายประสาทเชิงลึก

ตามอัตภาพสามารถแบ่งออกเป็น 2 ส่วน คือผู้ที่เรียนและผู้ที่ไม่เรียน

สีดำหมายถึงส่วนเหล่านั้นที่ไม่สามารถเรียนรู้ได้ ส่วนเลเยอร์อื่นๆ ทั้งหมดสามารถเรียนรู้ได้ มีคำจำกัดความมากมายเกี่ยวกับสิ่งที่อยู่ภายในแต่ละเลเยอร์การบิดเบี้ยว หนึ่งในสัญลักษณ์ที่ได้รับการยอมรับคือชั้นหนึ่งที่มีส่วนประกอบสามส่วนแบ่งออกเป็นระยะการบิด ระยะตัวตรวจจับ และระยะการรวมตัว

ฉันจะไม่ลงรายละเอียด จะมีรายงานอีกมากมายที่จะกล่าวถึงรายละเอียดวิธีการทำงานนี้ ฉันจะบอกคุณด้วยตัวอย่าง

เนื่องจากผู้จัดงานขอไม่บอกสูตรหลายสูตร ผมเลยโยนทิ้งหมดเลย

ดังนั้น รูปภาพที่ป้อนเข้าจึงอยู่ในเครือข่ายของเลเยอร์ต่างๆ ซึ่งสามารถเรียกว่าฟิลเตอร์ที่มีขนาดแตกต่างกันและความซับซ้อนที่แตกต่างกันขององค์ประกอบที่พวกเขาจดจำได้ ตัวกรองเหล่านี้ประกอบขึ้นเป็นดัชนีหรือชุดคุณลักษณะของตนเอง ซึ่งจะเข้าสู่ตัวแยกประเภท โดยปกติจะเป็น SVM หรือ MLP - perceptron หลายชั้น แล้วแต่จำนวนใดจะสะดวกสำหรับคุณ

ในลักษณะเดียวกับโครงข่ายประสาทเทียมทางชีววิทยา วัตถุที่มีความซับซ้อนต่างกันจะได้รับการยอมรับ เมื่อจำนวนเลเยอร์เพิ่มขึ้น ทุกอย่างจะสูญเสียการติดต่อกับคอร์เทกซ์ เนื่องจากมีโซนในโครงข่ายประสาทเทียมจำนวนจำกัด 269 ​​​​หรือหลายโซนของนามธรรม ดังนั้นมีเพียงการเพิ่มความซับซ้อน จำนวนองค์ประกอบ และฟิลด์ที่รับเท่านั้นที่จะคงอยู่

หากเราดูตัวอย่างการจดจำใบหน้า สนามรับของชั้นแรกจะเล็ก จากนั้นใหญ่ขึ้นอีกเล็กน้อย ใหญ่ขึ้น และอื่นๆ จนกระทั่งในที่สุดเราก็สามารถจดจำใบหน้าทั้งหมดได้

จากมุมมองของสิ่งที่อยู่ภายในตัวกรองของเรา ขั้นแรกจะมีแท่งเอียงบวกสีเล็กน้อย จากนั้นส่วนของใบหน้า จากนั้นแต่ละเซลล์ของเลเยอร์จะจดจำใบหน้าทั้งหมด

มีคนที่อ้างว่าบุคคลนั้นจดจำได้ดีกว่าเครือข่ายอยู่เสมอ นี่เป็นเรื่องจริงเหรอ?

ในปี 2014 นักวิทยาศาสตร์ตัดสินใจทดสอบว่าเราจดจำได้ดีแค่ไหนเมื่อเปรียบเทียบกับโครงข่ายประสาทเทียม พวกเขาใช้เครือข่ายที่ดีที่สุด 2 แห่งในขณะนี้ - AlexNet และเครือข่ายของ Matthew Ziller และ Fergus และเปรียบเทียบกับการตอบสนองของส่วนต่าง ๆ ของสมองของลิงแสม ซึ่งได้รับการสอนให้จดจำวัตถุบางอย่างด้วย วัตถุเหล่านี้มาจากโลกของสัตว์เพื่อไม่ให้ลิงสับสน และมีการทดลองเพื่อดูว่าใครจะจดจำได้ดีกว่ากัน

เนื่องจากเป็นไปไม่ได้ที่จะได้รับการตอบสนองที่ชัดเจนจากลิง จึงมีการฝังอิเล็กโทรดเข้าไปในลิง และวัดการตอบสนองของเซลล์ประสาทแต่ละตัวโดยตรง

ปรากฎว่าภายใต้สภาวะปกติ เซลล์สมองตอบสนองเช่นเดียวกับโมเดลที่ทันสมัยในขณะนั้น นั่นคือเครือข่ายของ Matthew Ziller

อย่างไรก็ตาม ด้วยความเร็วในการแสดงวัตถุที่เพิ่มขึ้นและปริมาณของสัญญาณรบกวนและวัตถุในภาพที่เพิ่มขึ้น ความเร็วในการจดจำและคุณภาพของสมองของเราและสมองของไพรเมตจึงลดลงอย่างมาก แม้แต่โครงข่ายประสาทเทียมแบบหมุนที่ง่ายที่สุดก็สามารถจดจำวัตถุได้ดีขึ้น นั่นคือโครงข่ายประสาทเทียมอย่างเป็นทางการทำงานได้ดีกว่าสมองของเรา

ปัญหาคลาสสิกของโครงข่ายประสาทเทียมแบบบิด

จริงๆแล้วมีไม่มากพวกมันอยู่ในสามคลาส งานต่างๆ เช่น การระบุวัตถุ การแบ่งส่วนความหมาย การจดจำใบหน้า การจดจำส่วนของร่างกายมนุษย์ การตรวจจับขอบความหมาย การเน้นวัตถุที่สนใจในภาพ และการเน้นพื้นผิวปกติ สามารถแบ่งคร่าวๆ ได้เป็น 3 ระดับ: จากงานระดับต่ำสุดไปจนถึงงานระดับสูงสุด

ใช้รูปภาพนี้เป็นตัวอย่าง มาดูกันว่าแต่ละงานทำอะไรได้บ้าง

  • การกำหนดขอบเขต- นี่เป็นงานระดับต่ำสุดที่มีการใช้งานโครงข่ายประสาทเทียมแบบคลาสสิกอยู่แล้ว
  • การกำหนดเวกเตอร์ให้เป็นปกติช่วยให้เราสามารถสร้างภาพสามมิติขึ้นมาใหม่จากภาพสองมิติได้
  • ความโดดเด่น การระบุวัตถุที่สนใจ- นี่คือสิ่งที่บุคคลจะให้ความสนใจเมื่อดูภาพนี้
  • การแบ่งส่วนความหมายช่วยให้คุณสามารถแบ่งวัตถุออกเป็นคลาสต่างๆ ตามโครงสร้างของวัตถุโดยไม่ต้องรู้อะไรเกี่ยวกับวัตถุเหล่านี้ นั่นคือ ก่อนที่วัตถุจะได้รับการยอมรับด้วยซ้ำ
  • การเน้นขอบเขตความหมาย- เป็นการเลือกขอบเขตโดยแบ่งออกเป็นชั้นเรียน
  • เน้นส่วนต่างๆ ของร่างกายมนุษย์.
  • และงานระดับสูงสุดก็คือ การรับรู้วัตถุด้วยตนเองซึ่งตอนนี้เราจะพิจารณาใช้ตัวอย่างการจดจำใบหน้า

การจดจำใบหน้า

สิ่งแรกที่เราทำคือเรียกใช้เครื่องตรวจจับใบหน้าเหนือรูปภาพเพื่อค้นหาใบหน้า ต่อไป เราจะทำให้ใบหน้าเป็นมาตรฐาน และเรียกใช้เพื่อประมวลผลเป็นโครงข่ายประสาทเทียม หลังจากนั้นเราจะได้ชุดหรือเวกเตอร์ของคุณสมบัติที่ไม่ซ้ำใคร อธิบายลักษณะของใบหน้านี้

จากนั้นเราสามารถเปรียบเทียบเวกเตอร์คุณลักษณะนี้กับเวกเตอร์คุณลักษณะทั้งหมดที่จัดเก็บไว้ในฐานข้อมูลของเรา และรับการอ้างอิงถึงบุคคลใดบุคคลหนึ่ง ชื่อของเขา หรือโปรไฟล์ของเขา - ทุกสิ่งที่เราสามารถเก็บไว้ในฐานข้อมูล

นี่คือวิธีการทำงานของผลิตภัณฑ์ FindFace ของเรา - เป็นบริการฟรีที่ช่วยคุณค้นหาโปรไฟล์ผู้คนในฐานข้อมูล VKontakte

นอกจากนี้เรายังมี API สำหรับบริษัทที่ต้องการทดลองใช้ผลิตภัณฑ์ของเรา เราให้บริการการตรวจจับใบหน้า การยืนยัน และการระบุตัวตนผู้ใช้

ตอนนี้เราได้พัฒนา 2 สถานการณ์ ประการแรกคือการระบุตัวตนการค้นหาบุคคลในฐานข้อมูล อย่างที่สองคือการยืนยัน นี่เป็นการเปรียบเทียบรูปภาพสองรูปที่มีความน่าจะเป็นที่แน่นอนว่านี่คือบุคคลคนเดียวกัน นอกจากนี้ เรากำลังพัฒนาการจดจำอารมณ์ การจดจำรูปภาพในวิดีโอ และการตรวจจับความมีชีวิตชีวา ซึ่งเป็นการทำความเข้าใจว่าบุคคลที่อยู่หน้ากล้องหรือรูปถ่ายยังมีชีวิตอยู่

สถิติบางอย่าง. เมื่อระบุตัวตน เมื่อค้นหาภาพถ่ายกว่า 10,000 ภาพ เรามีความแม่นยำประมาณ 95% ขึ้นอยู่กับคุณภาพของฐานข้อมูล และความแม่นยำในการตรวจสอบ 99% นอกจากนี้ อัลกอริธึมนี้ยังทนต่อการเปลี่ยนแปลงได้มาก เราไม่จำเป็นต้องมองกล้อง เราอาจมีวัตถุกีดขวางได้ เช่น แว่นตา แว่นกันแดด เครา หน้ากากทางการแพทย์ ในบางกรณี เราสามารถเอาชนะความท้าทายอันน่าทึ่งด้านการมองเห็นด้วยคอมพิวเตอร์ด้วยแว่นตาและหน้ากากได้

ค้นหาได้เร็วมาก ใช้เวลา 0.5 วินาทีในการประมวลผลภาพถ่าย 1 พันล้านภาพ เราได้พัฒนาดัชนีการค้นหาด่วนที่ไม่ซ้ำใคร นอกจากนี้เรายังสามารถทำงานกับภาพคุณภาพต่ำที่ได้รับจากกล้องวงจรปิดได้อีกด้วย เราสามารถประมวลผลทั้งหมดนี้ได้แบบเรียลไทม์ คุณสามารถอัปโหลดรูปภาพผ่านอินเทอร์เฟซเว็บ ผ่าน Android, iOS และค้นหาผู้ใช้ 100 ล้านคนและรูปภาพ 250 ล้านรูป

อย่างที่ฉันบอกไปแล้วว่าเราเป็นที่หนึ่งในการแข่งขัน MegaFace ซึ่งเป็นอะนาล็อกสำหรับ ImageNet แต่สำหรับการจดจำใบหน้า ดำเนินการมาหลายปีแล้ว ปีที่แล้วเราเป็นทีมที่ดีที่สุดใน 100 ทีมจากทั่วโลก รวมถึง Google ด้วย

โครงข่ายประสาทเทียมที่เกิดซ้ำ

เราใช้โครงข่ายประสาทเทียมแบบเกิดซ้ำเมื่อการรับรู้เพียงภาพไม่เพียงพอ ในกรณีที่เป็นสิ่งสำคัญสำหรับเราในการรักษาความสม่ำเสมอ เราต้องการลำดับสิ่งที่เกิดขึ้น เราใช้โครงข่ายประสาทเทียมแบบธรรมดา

ซึ่งใช้สำหรับการรู้จำภาษาธรรมชาติ การประมวลผลวิดีโอ หรือแม้แต่ใช้สำหรับการรู้จำภาพด้วย

ฉันจะไม่พูดถึงการรู้จำภาษาธรรมชาติ - หลังจากรายงานของฉัน จะมีอีกสองภาษาที่จะมุ่งเป้าไปที่การรู้จำภาษาธรรมชาติ ดังนั้นฉันจะพูดถึงการทำงานของเครือข่ายที่เกิดซ้ำโดยใช้ตัวอย่างการจดจำอารมณ์

โครงข่ายประสาทเทียมที่เกิดซ้ำคืออะไร? สิ่งนี้ใกล้เคียงกับโครงข่ายประสาทเทียมทั่วไป แต่มีข้อเสนอแนะ เราต้องการคำติชมเพื่อส่งสถานะก่อนหน้าของระบบไปยังอินพุตของโครงข่ายประสาทเทียมหรือไปยังเลเยอร์บางส่วน

สมมติว่าเราประมวลผลอารมณ์ แม้แต่ในการยิ้ม - หนึ่งในอารมณ์ที่ง่ายที่สุด - ยังมีหลายช่วงเวลา: ตั้งแต่การแสดงออกทางสีหน้าที่เป็นกลางไปจนถึงช่วงเวลาที่เรายิ้มเต็มที่ พวกเขาติดตามกันตามลำดับ เพื่อให้เข้าใจสิ่งนี้ได้ดี เราต้องสามารถสังเกตได้ว่าสิ่งนี้เกิดขึ้นได้อย่างไร และถ่ายโอนสิ่งที่อยู่ในเฟรมก่อนหน้าไปยังขั้นตอนต่อไปของระบบ

ในปี 2005 ในการแข่งขัน Emotion Recognition in the Wild ทีมงานจากมอนทรีออลได้นำเสนอระบบที่เกิดซ้ำเพื่อการจดจำอารมณ์โดยเฉพาะ ซึ่งดูเรียบง่ายมาก มีเลเยอร์แบบหมุนวนเพียงไม่กี่ชั้นและใช้งานได้กับวิดีโอโดยเฉพาะ ในปีนี้พวกเขายังเพิ่มการจดจำเสียงและข้อมูลแบบเฟรมต่อเฟรมที่ได้รับจากเครือข่ายประสาทเทียม ข้อมูลสัญญาณเสียงที่มีการทำงานของเครือข่ายประสาทที่เกิดซ้ำ (พร้อมสถานะส่งคืน) และได้รับรางวัลที่หนึ่งในการแข่งขัน

การเรียนรู้แบบเสริมกำลัง

โครงข่ายประสาทเทียมชนิดต่อไปซึ่งใช้บ่อยมากในช่วงหลังๆ นี้ แต่ไม่ได้รับการประชาสัมพันธ์มากเท่ากับ 2 ประเภทก่อนหน้านี้ คือ การเรียนรู้แบบเสริมกำลังเชิงลึก

ความจริงก็คือในสองกรณีก่อนหน้านี้เราใช้ฐานข้อมูล เรามีข้อมูลจากใบหน้า หรือข้อมูลจากรูปภาพ หรือข้อมูลที่มีอารมณ์จากวิดีโอ ถ้าเราไม่มีสิ่งนี้ ถ่ายไม่ได้ เราจะสอนหุ่นยนต์ให้หยิบสิ่งของได้อย่างไร? เราทำสิ่งนี้โดยอัตโนมัติ - เราไม่รู้ว่ามันทำงานอย่างไร อีกตัวอย่างหนึ่ง: การรวบรวมฐานข้อมูลขนาดใหญ่ในเกมคอมพิวเตอร์เป็นเรื่องยาก และไม่จำเป็น เพราะสามารถทำได้ง่ายกว่ามาก

ทุกคนคงเคยได้ยินเกี่ยวกับความสำเร็จของการเรียนรู้แบบเสริมกำลังเชิงลึกใน Atari และ Go

ใครเคยได้ยินอาตาริบ้าง? มีคนได้ยินแล้ว โอเค ฉันคิดว่าทุกคนเคยได้ยินเกี่ยวกับ AlphaGo มาก่อน ดังนั้นฉันจะไม่บอกคุณด้วยซ้ำว่าเกิดอะไรขึ้นที่นั่น

เกิดอะไรขึ้นที่ Atari? สถาปัตยกรรมของโครงข่ายประสาทเทียมนี้แสดงอยู่ทางด้านซ้าย เธอเรียนรู้จากการเล่นกับตัวเองเพื่อรับรางวัลสูงสุด รางวัลสูงสุดคือผลลัพธ์ที่เร็วที่สุดเท่าที่จะเป็นไปได้ของเกมด้วยคะแนนสูงสุดที่เป็นไปได้

ที่มุมขวาบนคือเลเยอร์สุดท้ายของโครงข่ายประสาทเทียม ซึ่งแสดงสถานะทั้งหมดของระบบ ซึ่งเล่นกับตัวเองเป็นเวลาเพียงสองชั่วโมงเท่านั้น ผลลัพธ์ที่ต้องการของเกมพร้อมรางวัลสูงสุดจะแสดงเป็นสีแดง และผลลัพธ์ที่ไม่พึงประสงค์จะแสดงเป็นสีน้ำเงิน เครือข่ายสร้างสาขาหนึ่งและเคลื่อนผ่านเลเยอร์ที่ได้รับการฝึกอบรมไปยังสถานะที่ต้องการบรรลุ

ในด้านวิทยาการหุ่นยนต์ สถานการณ์จะแตกต่างออกไปเล็กน้อย ทำไม ที่นี่เรามีปัญหาหลายประการ ประการแรก เราไม่มีฐานข้อมูลมากนัก ประการที่สอง เราต้องประสานงานสามระบบในคราวเดียว: การรับรู้ของหุ่นยนต์ การกระทำของมันด้วยความช่วยเหลือของผู้ควบคุมและความทรงจำ - สิ่งที่ทำในขั้นตอนก่อนหน้าและวิธีการดำเนินการ โดยทั่วไปทั้งหมดนี้เป็นเรื่องยากมาก

ความจริงก็คือ ไม่ใช่เครือข่ายประสาทเดียวแม้แต่การเรียนรู้เชิงลึกในขณะนี้ ที่สามารถรับมือกับงานนี้ได้อย่างมีประสิทธิภาพเพียงพอ ดังนั้นการเรียนรู้เชิงลึกจึงเป็นเพียงส่วนหนึ่งของสิ่งที่หุ่นยนต์ต้องทำ ตัวอย่างเช่น เมื่อเร็วๆ นี้ Sergei Levin ได้จัดเตรียมระบบที่สอนหุ่นยนต์ให้จับสิ่งของต่างๆ

นี่คือการทดลองที่เขาทำกับแขนหุ่นยนต์ 14 แขนของเขา

เกิดอะไรขึ้นที่นี่? ในแอ่งเหล่านี้ที่คุณเห็นตรงหน้า มีสิ่งของต่างๆ มากมาย เช่น ปากกา ยางลบ แก้วมัคเล็กและใหญ่ ผ้าขี้ริ้ว เนื้อสัมผัสต่างกัน ความแข็งต่างกัน ยังไม่ชัดเจนว่าจะสอนหุ่นยนต์ให้จับพวกมันได้อย่างไร เป็นเวลาหลายชั่วโมงหรือหลายสัปดาห์ หุ่นยนต์ที่ถูกฝึกให้จับวัตถุเหล่านี้ได้ และฐานข้อมูลก็ถูกรวบรวมเกี่ยวกับเรื่องนี้

ฐานข้อมูลเป็นการตอบสนองด้านสิ่งแวดล้อมประเภทหนึ่งที่เราต้องสะสมเพื่อให้สามารถฝึกหุ่นยนต์ให้ทำบางอย่างในอนาคตได้ ในอนาคต หุ่นยนต์จะเรียนรู้จากสถานะของระบบชุดนี้

แอปพลิเคชันโครงข่ายประสาทเทียมที่ไม่ได้มาตรฐาน

น่าเสียดายที่นี่คือจุดสิ้นสุดแล้ว ฉันมีเวลาไม่มาก ฉันจะบอกคุณเกี่ยวกับโซลูชันที่ไม่ได้มาตรฐานที่มีอยู่ในปัจจุบันและตามการคาดการณ์จำนวนมากจะมีการใช้งานบางอย่างในอนาคต

เมื่อไม่นานมานี้ นักวิทยาศาสตร์จากมหาวิทยาลัยสแตนฟอร์ด ได้คิดค้นการประยุกต์ใช้โครงข่ายประสาทเทียมของ CNN ที่ผิดปกติมาก เพื่อทำนายความยากจน พวกเขาทำอะไร?

แนวคิดนี้ง่ายมากจริงๆ ความจริงก็คือในแอฟริกา ระดับความยากจนนั้นเกินกว่าขอบเขตที่คิดได้และนึกไม่ถึงทั้งหมด พวกเขาไม่มีความสามารถในการรวบรวมข้อมูลประชากรทางสังคมด้วยซ้ำ ดังนั้นตั้งแต่ปี 2548 เราจึงไม่มีข้อมูลเกี่ยวกับสิ่งที่เกิดขึ้นที่นั่นเลย

นักวิทยาศาสตร์รวบรวมแผนที่กลางวันและกลางคืนจากดาวเทียมและป้อนเข้ากับโครงข่ายประสาทเทียมในช่วงเวลาหนึ่ง

โครงข่ายประสาทเทียมได้รับการกำหนดค่าไว้ล่วงหน้าบน ImageNet นั่นคือเลเยอร์แรกของตัวกรองได้รับการกำหนดค่าเพื่อให้สามารถจดจำบางสิ่งที่เรียบง่าย เช่น หลังคาบ้าน เพื่อค้นหาการตั้งถิ่นฐานบนแผนที่ในเวลากลางวัน เมื่อเทียบกับแผนที่ในเวลากลางคืน การส่องสว่างในพื้นที่เดียวกันของพื้นผิว เพื่อบอกว่าประชากรต้องใช้เงินเท่าไรในการส่องสว่างบ้านของตนในตอนกลางคืนเป็นอย่างน้อย

ที่นี่คุณจะเห็นผลลัพธ์ของการคาดการณ์ที่สร้างโดยโครงข่ายประสาทเทียม การคาดการณ์ถูกสร้างขึ้นด้วยความละเอียดที่แตกต่างกัน และคุณจะเห็นว่าเฟรมสุดท้าย ข้อมูลจริงที่รวบรวมโดยรัฐบาลอูกันดาในปี 2548

คุณจะเห็นว่าโครงข่ายประสาทเทียมคาดการณ์ได้ค่อนข้างแม่นยำ แม้ว่าจะมีการเปลี่ยนแปลงเล็กน้อยตั้งแต่ปี 2548 ก็ตาม

แน่นอนว่ามีผลข้างเคียงเกิดขึ้น นักวิทยาศาสตร์ที่มีส่วนร่วมในการเรียนรู้เชิงลึกมักจะประหลาดใจเสมอเมื่อพบผลข้างเคียงต่างๆ ตัวอย่างเช่น เครือข่ายได้เรียนรู้ที่จะจดจำน้ำ ป่าไม้ สถานที่ก่อสร้างขนาดใหญ่ ถนน ทั้งหมดนี้ไม่มีครู และไม่มีฐานข้อมูลที่สร้างไว้ล่วงหน้า โดยทั่วไปแล้วเป็นอิสระอย่างสมบูรณ์ มีชั้นบางชั้นที่ทำปฏิกิริยา เช่น กับถนน

และแอปพลิเคชันสุดท้ายที่ฉันอยากจะพูดถึงคือการแบ่งส่วนความหมายของภาพ 3 มิติในทางการแพทย์ โดยทั่วไป การถ่ายภาพทางการแพทย์เป็นสาขาที่ซับซ้อนซึ่งดำเนินการได้ยากมาก

มีสาเหตุหลายประการสำหรับเรื่องนี้

  • เรามีฐานข้อมูลน้อยมาก การค้นหาภาพสมองไม่ใช่เรื่องง่าย โดยเฉพาะภาพสมองที่เสียหาย และไม่สามารถนำภาพนั้นมาจากที่ใดก็ได้
  • แม้ว่าเราจะมีภาพดังกล่าว เราก็ต้องพาแพทย์และบังคับให้เขาวางภาพหลายชั้นทั้งหมดด้วยตนเอง ซึ่งใช้เวลานานมากและไม่มีประสิทธิภาพอย่างยิ่ง แพทย์บางคนไม่มีทรัพยากรที่จะทำเช่นนี้ได้
  • ต้องใช้ความแม่นยำสูงมาก ระบบการแพทย์ไม่สามารถทำผิดพลาดได้ ตัวอย่างเช่น เมื่อจดจำได้ แมวไม่ได้รับการยอมรับ - ไม่ใช่เรื่องใหญ่อะไร และถ้าเราไม่รู้จักเนื้องอก มันก็ไม่ดีอีกต่อไป ข้อกำหนดสำหรับความน่าเชื่อถือของระบบมีความเข้มงวดเป็นพิเศษที่นี่
  • รูปภาพอยู่ในองค์ประกอบสามมิติ - voxels ไม่ใช่พิกเซล ซึ่งนำความซับซ้อนเพิ่มเติมมาสู่นักพัฒนาระบบ
แต่ปัญหานี้เกิดขึ้นได้อย่างไรในกรณีนี้? CNN เป็นแบบสตรีมคู่ ส่วนหนึ่งประมวลผลความละเอียดปกติมากกว่า ส่วนอีกส่วนหนึ่งประมวลผลความละเอียดแย่ลงเล็กน้อยเพื่อลดจำนวนเลเยอร์ที่เราต้องฝึก ด้วยเหตุนี้ เวลาที่ต้องใช้ในการฝึกอบรมเครือข่ายจึงลดลงเล็กน้อย

ใช้ที่ไหน: ระบุความเสียหายหลังจากการกระแทก, มองหาเนื้องอกในสมอง, วิทยาโรคหัวใจเพื่อดูว่าหัวใจทำงานอย่างไร

นี่คือตัวอย่างในการกำหนดปริมาตรของรก

มันทำงานได้ดีโดยอัตโนมัติ แต่ยังไม่ดีพอที่จะออกสู่การผลิต ดังนั้นจึงเพิ่งเริ่มต้นเท่านั้น มีบริษัทสตาร์ทอัพหลายแห่งที่สร้างระบบการมองเห็นทางการแพทย์ดังกล่าว โดยทั่วไปในอนาคตอันใกล้นี้จะมีสตาร์ทอัพด้าน Deep Learning จำนวนมาก พวกเขากล่าวว่าผู้ร่วมทุนได้จัดสรรงบประมาณให้กับสตาร์ทอัพการเรียนรู้เชิงลึกในช่วงหกเดือนที่ผ่านมามากกว่าในช่วง 5 ปีที่ผ่านมา

พื้นที่นี้กำลังพัฒนาอย่างแข็งขัน มีทิศทางที่น่าสนใจมากมาย เราอยู่ในช่วงเวลาที่น่าสนใจ หากคุณมีส่วนร่วมในการเรียนรู้เชิงลึก อาจถึงเวลาที่คุณจะต้องเปิดสตาร์ทอัพของคุณเอง

ฉันคงจะสรุปมันไว้ตรงนี้ ขอบคุณมาก.

โครงข่ายประสาทเทียมคือกลุ่มของเซลล์ประสาทที่มีปฏิสัมพันธ์ระหว่างกัน สามารถรับ ประมวลผล และสร้างข้อมูลได้ จินตนาการได้ยากพอๆ กับการทำงานของสมองมนุษย์ โครงข่ายประสาทเทียมในสมองของเราทำงานเพื่อให้คุณอ่านข้อความนี้ได้ในตอนนี้ เซลล์ประสาทของเราจดจำตัวอักษรและแปลงเป็นคำได้

โครงข่ายประสาทเทียมก็เหมือนกับสมอง เดิมทีมันถูกตั้งโปรแกรมเพื่อทำให้กระบวนการคำนวณที่ซับซ้อนบางอย่างง่ายขึ้น ปัจจุบันโครงข่ายประสาทเทียมมีความเป็นไปได้มากขึ้น บางส่วนอยู่ในสมาร์ทโฟนของคุณ อีกส่วนหนึ่งได้บันทึกไว้ในฐานข้อมูลที่คุณเปิดบทความนี้แล้ว ทั้งหมดนี้เกิดขึ้นได้อย่างไรและทำไม โปรดอ่านต่อ

มันเริ่มต้นอย่างไร

ผู้คนต้องการเข้าใจว่าจิตใจของบุคคลมาจากไหนและสมองทำงานอย่างไร ในช่วงกลางศตวรรษที่ผ่านมา โดนัลด์ เฮบบ์ นักประสาทวิทยาชาวแคนาดา ได้ตระหนักถึงสิ่งนี้ Hebb ศึกษาปฏิสัมพันธ์ของเซลล์ประสาทซึ่งกันและกัน ตรวจสอบหลักการที่พวกมันรวมกันเป็นกลุ่ม (ในแง่วิทยาศาสตร์ - วงดนตรี) และเสนออัลกอริทึมแรกทางวิทยาศาสตร์สำหรับการฝึกอบรมโครงข่ายประสาทเทียม

ไม่กี่ปีต่อมา นักวิทยาศาสตร์ชาวอเมริกันกลุ่มหนึ่งได้สร้างแบบจำลองโครงข่ายประสาทเทียมที่สามารถแยกแยะรูปทรงสี่เหลี่ยมออกจากรูปทรงอื่นๆ ได้

โครงข่ายประสาทเทียมทำงานอย่างไร?

นักวิจัยพบว่าโครงข่ายประสาทเทียมคือกลุ่มของชั้นของเซลล์ประสาท ซึ่งแต่ละชั้นมีหน้าที่รับผิดชอบในการรับรู้เกณฑ์เฉพาะ เช่น รูปร่าง สี ขนาด พื้นผิว เสียง ปริมาตร ฯลฯ ปีแล้วปีเล่า ซึ่งเป็นผลมาจากเซลล์ประสาทนับล้าน การทดลองและการคำนวณมากมาย การเพิ่มเติมได้ถูกเพิ่มเข้าไปในเครือข่ายเลเยอร์ใหม่และเลเยอร์ใหม่ของเครือข่ายที่ง่ายที่สุด พวกเขาทำงานผลัดกัน ตัวอย่างเช่น วิธีแรกกำหนดว่าสี่เหลี่ยมจัตุรัสนั้นเป็นสี่เหลี่ยมจัตุรัสหรือไม่ ส่วนที่สองจะเข้าใจว่าสี่เหลี่ยมจัตุรัสนั้นเป็นสีแดงหรือไม่ ส่วนที่สามจะคำนวณขนาดของสี่เหลี่ยมจัตุรัส และอื่นๆ ไม่ใช่สี่เหลี่ยมจัตุรัส ไม่ใช่สีแดง และรูปร่างที่มีขนาดไม่เหมาะสมจะจบลงในกลุ่มเซลล์ประสาทใหม่และจะถูกสำรวจโดยพวกมัน

โครงข่ายประสาทเทียมคืออะไรและทำอะไรได้บ้าง?

นักวิทยาศาสตร์ได้พัฒนาโครงข่ายประสาทเทียมเพื่อให้สามารถแยกแยะระหว่างภาพ วิดีโอ ข้อความ และคำพูดที่ซับซ้อนได้ ปัจจุบันมีโครงข่ายประสาทเทียมหลายประเภท โดยจะจัดประเภทตามสถาปัตยกรรม - ชุดของพารามิเตอร์ข้อมูลและน้ำหนักของพารามิเตอร์เหล่านี้ ซึ่งถือเป็นลำดับความสำคัญที่แน่นอน ด้านล่างนี้คือบางส่วนของพวกเขา

โครงข่ายประสาทเทียมแบบ Convolutional

เซลล์ประสาทถูกแบ่งออกเป็นกลุ่ม แต่ละกลุ่มจะคำนวณคุณลักษณะที่กำหนดให้กับมัน ในปี 1993 Yann LeCun นักวิทยาศาสตร์ชาวฝรั่งเศสได้แสดงให้โลกเห็น LeNet 1 ซึ่งเป็นโครงข่ายประสาทเทียมแบบม้วนแรกที่สามารถจดจำตัวเลขที่เขียนบนกระดาษด้วยมือได้อย่างรวดเร็วและแม่นยำ ดูด้วยตัวคุณเอง:

ในปัจจุบัน โครงข่ายประสาทเทียมแบบหมุนวนใช้เพื่อจุดประสงค์ด้านมัลติมีเดียเป็นหลัก โดยทำงานกับกราฟิก เสียง และวิดีโอ

โครงข่ายประสาทเทียมที่เกิดซ้ำ

เซลล์ประสาทจะจดจำข้อมูลตามลำดับและสร้างการดำเนินการเพิ่มเติมตามข้อมูลนี้ ในปี 1997 นักวิทยาศาสตร์ชาวเยอรมันได้ปรับเปลี่ยนเครือข่ายที่เกิดซ้ำที่ง่ายที่สุดให้เป็นเครือข่ายที่มีหน่วยความจำระยะสั้นระยะยาว จากนั้นจึงพัฒนาเครือข่ายที่มีเซลล์ประสาทที่เกิดซ้ำซึ่งควบคุมได้

ปัจจุบัน ด้วยความช่วยเหลือของเครือข่ายดังกล่าว ข้อความถูกเขียนและแปล บอทได้รับการตั้งโปรแกรมให้ดำเนินการสนทนาที่มีความหมายกับมนุษย์ และมีการสร้างโค้ดเพจและโปรแกรม

การใช้โครงข่ายประสาทเทียมประเภทนี้เป็นโอกาสในการวิเคราะห์และสร้างข้อมูล รวบรวมฐานข้อมูล และแม้แต่การคาดการณ์

ในปี 2558 SwiftKey ได้เปิดตัวคีย์บอร์ดตัวแรกของโลกที่ทำงานบนโครงข่ายประสาทเทียมที่เกิดซ้ำพร้อมเซลล์ประสาทที่ควบคุม จากนั้นระบบจะให้คำแนะนำขณะพิมพ์ตามคำสุดท้ายที่ป้อน เมื่อปีที่แล้ว นักพัฒนาได้ฝึกฝนโครงข่ายประสาทเทียมเพื่อศึกษาบริบทของข้อความที่กำลังพิมพ์ และคำแนะนำก็มีความหมายและมีประโยชน์:

โครงข่ายประสาทเทียมแบบรวม (convolutional + recurrent)

โครงข่ายประสาทเทียมดังกล่าวสามารถเข้าใจสิ่งที่อยู่ในภาพและอธิบายได้ และในทางกลับกัน: วาดภาพตามคำอธิบาย ตัวอย่างที่โดดเด่นที่สุดแสดงให้เห็นโดย Kyle MacDonald ผู้ซึ่งใช้โครงข่ายประสาทเทียมในการเดินเล่นรอบเมืองอัมสเตอร์ดัม เครือข่ายสามารถระบุสิ่งที่อยู่ข้างหน้าได้ทันที และเกือบจะทุกครั้ง:

โครงข่ายประสาทเทียมมีการเรียนรู้ด้วยตนเองอย่างต่อเนื่อง โดยผ่านกระบวนการนี้:

1. Skype ได้นำเสนอความสามารถในการแปลพร้อมกัน 10 ภาษา ซึ่งในจำนวนนี้มีทั้งภาษารัสเซียและญี่ปุ่นซึ่งบางประเภทก็ยากที่สุดในโลก แน่นอนว่าคุณภาพของการแปลต้องมีการปรับปรุงอย่างจริงจัง แต่ความจริงที่ว่าตอนนี้คุณสามารถสื่อสารกับเพื่อนร่วมงานจากญี่ปุ่นเป็นภาษารัสเซียและมั่นใจได้ว่าคุณจะเข้าใจได้นั้นสร้างแรงบันดาลใจ

2. ยานเดกซ์สร้างอัลกอริธึมการค้นหาสองแบบโดยใช้โครงข่ายประสาทเทียม: "Palekh" และ "Korolev" วิธีแรกช่วยค้นหาไซต์ที่เกี่ยวข้องมากที่สุดสำหรับข้อความค้นหาความถี่ต่ำ “ปาเล็ค” ศึกษาส่วนหัวของหน้าและเปรียบเทียบความหมายกับความหมายของข้อความค้นหา Korolev ปรากฏตัวตาม Palekh อัลกอริทึมนี้ประเมินไม่เพียงแต่ชื่อเรื่องเท่านั้น แต่ยังรวมถึงเนื้อหาข้อความทั้งหมดของหน้าด้วย การค้นหามีความแม่นยำมากขึ้น และเจ้าของไซต์เริ่มเข้าถึงเนื้อหาของหน้าอย่างชาญฉลาดมากขึ้น

3. เพื่อนร่วมงาน SEO จาก Yandex ได้สร้างโครงข่ายประสาทเทียมทางดนตรี: ประกอบด้วยบทกวีและเขียนเพลง กลุ่มประสาทมีชื่อเรียกในเชิงสัญลักษณ์ว่า Neurona และมีอัลบั้มแรกอยู่แล้ว:

4. Google Inbox ใช้โครงข่ายประสาทเทียมเพื่อตอบกลับข้อความ การพัฒนาเทคโนโลยีกำลังดำเนินไปอย่างเต็มตัว และในปัจจุบัน เครือข่ายกำลังศึกษาการติดต่อสื่อสารและสร้างทางเลือกในการตอบสนองที่เป็นไปได้ คุณไม่ต้องเสียเวลาพิมพ์และไม่ต้องกลัวที่จะลืมข้อตกลงสำคัญบางประการ

5. YouTube ใช้โครงข่ายประสาทเทียมเพื่อจัดอันดับวิดีโอ และตามหลักการสองประการพร้อมกัน: โครงข่ายประสาทเทียมอันหนึ่งศึกษาวิดีโอและปฏิกิริยาของผู้ชมต่อวิดีโอเหล่านั้น ส่วนอีกอันหนึ่งดำเนินการวิจัยเกี่ยวกับผู้ใช้และความชอบของพวกเขา ด้วยเหตุนี้วิดีโอแนะนำของ YouTube จึงตรงประเด็นอยู่เสมอ

6. Facebook กำลังทำงานอย่างแข็งขันกับ DeepText AI ซึ่งเป็นโปรแกรมการสื่อสารที่เข้าใจศัพท์แสงและทำความสะอาดแชทที่มีภาษาลามกอนาจาร

7. แอปอย่าง Prisma และ Fabby ที่สร้างบนโครงข่ายประสาทเทียม สร้างรูปภาพและวิดีโอ:

Colorize คืนสีให้กับภาพถ่ายขาวดำ (เซอร์ไพรส์คุณย่า!)

MakeUp Plus คัดสรรลิปสติกที่สมบูรณ์แบบสำหรับสาวๆ จากหลากหลายแบรนด์จริง ไม่ว่าจะเป็น Bobbi Brown, Clinique, Lancome และ YSL ที่ดำเนินธุรกิจอยู่แล้ว


8.
Apple และ Microsoft อัปเกรดระบบประสาท Siri และ Contana อย่างต่อเนื่อง ตอนนี้พวกเขากำลังดำเนินการตามคำสั่งของเราเท่านั้น แต่ในอนาคตอันใกล้นี้พวกเขาจะเริ่มดำเนินการ: ให้คำแนะนำและคาดหวังความปรารถนาของเรา

มีอะไรอีกรอเราอยู่ในอนาคต?

โครงข่ายประสาทเทียมที่เรียนรู้ด้วยตนเองสามารถแทนที่ผู้คนได้ โดยจะเริ่มจากนักเขียนคำโฆษณาและผู้ตรวจทาน หุ่นยนต์กำลังสร้างข้อความที่มีความหมายและไม่มีข้อผิดพลาดอยู่แล้ว และพวกเขาทำได้เร็วกว่าคนมาก พวกเขาจะดำเนินการต่อด้วยพนักงานคอลเซ็นเตอร์ ฝ่ายสนับสนุนด้านเทคนิค ผู้ดูแล และผู้ดูแลเพจสาธารณะบนโซเชียลเน็ตเวิร์ก โครงข่ายประสาทเทียมสามารถเรียนรู้สคริปต์และทำซ้ำด้วยเสียงได้แล้ว แล้วพื้นที่อื่นๆล่ะ?

ภาคเกษตรกรรม

โครงข่ายประสาทเทียมจะถูกนำไปใช้ในอุปกรณ์พิเศษ ผู้เก็บเกี่ยวจะขับเคลื่อนอัตโนมัติ สแกนพืช และศึกษาดิน ส่งข้อมูลไปยังโครงข่ายประสาทเทียม เธอจะตัดสินใจว่าจะรดน้ำ ใส่ปุ๋ย หรือฉีดพ่นป้องกันสัตว์รบกวนหรือไม่ แทนที่จะมีพนักงานหลายสิบคน คุณจะต้องมีผู้เชี่ยวชาญสูงสุดสองคน ได้แก่ หัวหน้างานและช่างเทคนิค

ยา

ขณะนี้ Microsoft กำลังทำงานอย่างแข็งขันเพื่อสร้างวิธีรักษาโรคมะเร็ง นักวิทยาศาสตร์มีส่วนร่วมในการเขียนโปรแกรมทางชีวภาพ - พวกเขากำลังพยายามทำให้กระบวนการเกิดและการพัฒนาของเนื้องอกเป็นดิจิทัล เมื่อทุกอย่างเรียบร้อยดีโปรแกรมเมอร์จะสามารถหาวิธีปิดกั้นกระบวนการดังกล่าวได้และยาจะถูกสร้างขึ้นโดยการเปรียบเทียบ

การตลาด

การตลาดมีความเป็นส่วนตัวสูง ขณะนี้โครงข่ายประสาทเทียมสามารถกำหนดได้ภายในไม่กี่วินาทีว่าจะแสดงเนื้อหาใดแก่ผู้ใช้รายใดและราคาเท่าใด ในอนาคต การมีส่วนร่วมของนักการตลาดในกระบวนการจะลดลงเหลือน้อยที่สุด: โครงข่ายประสาทเทียมจะคาดการณ์การค้นหาตามข้อมูลพฤติกรรมของผู้ใช้ สแกนตลาด และมอบข้อเสนอที่เหมาะสมที่สุดตามเวลาที่บุคคลคิดจะซื้อ

อีคอมเมิร์ซ

อีคอมเมิร์ซจะถูกนำไปใช้ทุกที่ คุณไม่จำเป็นต้องไปที่ร้านค้าออนไลน์โดยใช้ลิงก์อีกต่อไป: คุณสามารถซื้อทุกสิ่งที่คุณเห็นได้ในคลิกเดียว ตัวอย่างเช่น คุณกำลังอ่านบทความนี้ในหลายปีให้หลัง คุณชอบลิปสติกในภาพหน้าจอจากแอปพลิเคชัน MakeUp Plus มาก (ดูด้านบน) คุณคลิกที่มันและตรงไปที่รถเข็น หรือชมวิดีโอเกี่ยวกับ Hololens รุ่นล่าสุด (แว่นตามิกซ์เรียลลิตี้) แล้วสั่งซื้อโดยตรงจาก YouTube ได้ทันที

ในเกือบทุกสาขา ผู้เชี่ยวชาญที่มีความรู้หรืออย่างน้อยก็เข้าใจโครงสร้างของโครงข่ายประสาทเทียม การเรียนรู้ของเครื่อง และระบบปัญญาประดิษฐ์จะได้รับการพิจารณาเป็นพิเศษ เราจะอยู่เคียงข้างหุ่นยนต์ และยิ่งเรารู้เกี่ยวกับสิ่งเหล่านี้มากเท่าไร ชีวิตของเราก็จะสงบมากขึ้นเท่านั้น

ป.ล. Zinaida Falls เป็นโครงข่ายประสาทเทียมของยานเดกซ์ที่เขียนบทกวี ให้คะแนนงานที่เครื่องจักรเขียนหลังจากได้รับการฝึกโดย Mayakovsky (การสะกดและเครื่องหมายวรรคตอนยังคงอยู่):

« นี้»

นี้
แค่ทุกอย่าง
บางสิ่งบางอย่าง
ในอนาคต
และพลัง
คนนั้น
เป็นทุกสิ่งในโลกหรือไม่
มีเลือดอยู่ทั่ว
จัดการกับแต่ละอื่น ๆ
เริ่มอ้วน
รุ่งโรจน์เพื่อ
ที่ดิน
มีเสียงปังในจะงอยปาก

น่าประทับใจใช่ไหม?

ปัญหาของปัญญาประดิษฐ์และโครงข่ายประสาทเทียมกำลังได้รับความนิยมมากขึ้นกว่าที่เคย ผู้ใช้จำนวนมากหันมาหาเรามากขึ้นโดยมีคำถามเกี่ยวกับวิธีการทำงานของโครงข่ายประสาทเทียม มันคืออะไร และหลักการทำงานของพวกเขาคืออะไร?

คำถามเหล่านี้พร้อมกับความนิยมก็มีความซับซ้อนอย่างมากเช่นกัน เนื่องจากกระบวนการเหล่านี้เป็นอัลกอริธึมการเรียนรู้ของเครื่องที่ซับซ้อนซึ่งออกแบบมาเพื่อวัตถุประสงค์ที่หลากหลาย ตั้งแต่การวิเคราะห์การเปลี่ยนแปลงไปจนถึงการสร้างแบบจำลองความเสี่ยงที่เกี่ยวข้องกับการกระทำบางอย่าง

โครงข่ายประสาทเทียมคืออะไรและมีประเภทใดบ้าง?

คำถามแรกที่เกิดขึ้นสำหรับผู้ที่สนใจคือ Neural Network คืออะไร? ในคำจำกัดความคลาสสิก นี่คือลำดับหนึ่งของเซลล์ประสาทที่เชื่อมต่อกันด้วยไซแนปส์ โครงข่ายประสาทเทียมเป็นแบบจำลองทางชีววิทยาที่เรียบง่าย

โปรแกรมที่มีโครงสร้างโครงข่ายประสาทเทียมช่วยให้เครื่องวิเคราะห์ข้อมูลอินพุตและจดจำผลลัพธ์ที่ได้รับจากแหล่งที่แน่นอนได้ ต่อจากนั้น วิธีการดังกล่าวทำให้สามารถดึงผลลัพธ์จากหน่วยความจำที่สอดคล้องกับชุดข้อมูลปัจจุบันได้ หากมีอยู่แล้วในประสบการณ์รอบเครือข่าย

หลายๆ คนมองว่าโครงข่ายประสาทเทียมเป็นเหมือนสมองของมนุษย์ ในอีกด้านหนึ่ง การตัดสินนี้ถือได้ว่าใกล้เคียงกับความจริง แต่ในทางกลับกัน สมองของมนุษย์เป็นกลไกที่ซับซ้อนเกินกว่าจะเป็นไปได้ที่จะสร้างมันขึ้นมาใหม่ด้วยความช่วยเหลือของเครื่องจักรแม้จะเป็นเพียงเศษเสี้ยวของ เปอร์เซ็นต์ ประการแรก โครงข่ายประสาทเทียมคือโปรแกรมที่ใช้หลักการของสมอง แต่ไม่มีทางเป็นแบบอะนาล็อก

โครงข่ายประสาทเทียมคือกลุ่มเซลล์ประสาท ซึ่งแต่ละเซลล์ประสาทรับข้อมูล ประมวลผล และส่งไปยังเซลล์ประสาทอื่น เซลล์ประสาทแต่ละตัวจะประมวลผลสัญญาณในลักษณะเดียวกันทุกประการ

แล้วคุณจะได้ผลลัพธ์ที่แตกต่างกันอย่างไร? มันคือทั้งหมดที่เกี่ยวกับไซแนปส์ที่เชื่อมต่อเซลล์ประสาทเข้าด้วยกัน เซลล์ประสาทหนึ่งตัวสามารถมีไซแนปส์จำนวนมากที่ช่วยเสริมกำลังหรือลดสัญญาณ และพวกมันมีความสามารถในการเปลี่ยนลักษณะเฉพาะของมันเมื่อเวลาผ่านไป

เป็นพารามิเตอร์ที่เลือกอย่างถูกต้องของไซแนปส์ซึ่งทำให้สามารถรับผลลัพธ์ที่ถูกต้องของการแปลงข้อมูลอินพุตที่เอาต์พุต

เมื่อกำหนดในแง่ทั่วไปว่าโครงข่ายประสาทเทียมคืออะไร เราสามารถระบุประเภทหลักของการจำแนกประเภทได้ ก่อนที่จะดำเนินการจำแนกประเภทต่อไป จำเป็นต้องแนะนำการชี้แจงประการหนึ่ง แต่ละเครือข่ายมีเซลล์ประสาทชั้นแรกเรียกว่าเลเยอร์อินพุต

มันไม่ได้ทำการคำนวณหรือการแปลงใด ๆ หน้าที่ของมันเป็นเพียงสิ่งเดียวเท่านั้น: การรับและกระจายสัญญาณอินพุตไปยังเซลล์ประสาทอื่น ๆ นี่เป็นเลเยอร์เดียวที่ใช้ร่วมกับโครงข่ายประสาทเทียมทุกประเภท โครงสร้างเพิ่มเติมคือเกณฑ์สำหรับการแบ่งส่วนหลัก

  • โครงข่ายประสาทเทียมชั้นเดียว นี่คือโครงสร้างสำหรับการโต้ตอบของเซลล์ประสาท ซึ่งหลังจากที่ข้อมูลอินพุตเข้าสู่เลเยอร์อินพุตแรกแล้ว ผลลัพธ์สุดท้ายจะถูกถ่ายโอนไปยังเลเยอร์เอาท์พุตทันที ในกรณีนี้ จะไม่พิจารณาอินพุตเลเยอร์แรก เนื่องจากไม่ได้ดำเนินการใดๆ นอกเหนือจากการรับและการแจกจ่าย ซึ่งได้กล่าวไว้ข้างต้นแล้ว และชั้นที่สองจะทำการคำนวณและประมวลผลที่จำเป็นทั้งหมดและสร้างผลลัพธ์สุดท้ายทันที เซลล์ประสาทอินพุตจะถูกรวมเข้ากับเลเยอร์หลักโดยไซแนปส์ที่มีค่าสัมประสิทธิ์การถ่วงน้ำหนักที่แตกต่างกัน เพื่อให้มั่นใจในคุณภาพของการเชื่อมต่อ
  • โครงข่ายประสาทเทียมหลายชั้น ตามที่ชัดเจนจากคำจำกัดความ โครงข่ายประสาทเทียมประเภทนี้ นอกเหนือจากเลเยอร์อินพุตและเอาท์พุตแล้ว ยังมีเลเยอร์ระดับกลางอีกด้วย จำนวนของพวกเขาขึ้นอยู่กับความซับซ้อนของเครือข่ายเอง มันคล้ายกับโครงสร้างของโครงข่ายประสาทเทียมทางชีววิทยาอย่างใกล้ชิดมากขึ้น เครือข่ายประเภทนี้ได้รับการพัฒนาเมื่อไม่นานมานี้ ก่อนหน้านั้น กระบวนการทั้งหมดถูกนำมาใช้โดยใช้เครือข่ายชั้นเดียว ดังนั้นวิธีแก้ปัญหาดังกล่าวจึงมีความเป็นไปได้มากกว่ารุ่นก่อนมาก ในกระบวนการประมวลผลข้อมูล แต่ละชั้นกลางแสดงถึงขั้นตอนกลางของการประมวลผลและการกระจายข้อมูล

ขึ้นอยู่กับทิศทางของการกระจายข้อมูลผ่านไซแนปส์จากเซลล์ประสาทหนึ่งไปยังอีกเซลล์ประสาทหนึ่ง เครือข่ายยังสามารถจำแนกได้เป็นสองประเภท

  • เครือข่ายการแพร่กระจายโดยตรงหรือทิศทางเดียว นั่นคือ โครงสร้างที่สัญญาณเคลื่อนที่อย่างเคร่งครัดจากเลเยอร์อินพุตไปยังเลเยอร์เอาท์พุต การเคลื่อนที่ของสัญญาณในทิศทางตรงกันข้ามเป็นไปไม่ได้ การพัฒนาดังกล่าวค่อนข้างแพร่หลายและปัจจุบันประสบความสำเร็จในการแก้ปัญหา เช่น การจดจำ การคาดการณ์ หรือการจัดกลุ่ม
  • เครือข่ายที่มีการตอบรับหรือเกิดซ้ำ เครือข่ายดังกล่าวอนุญาตให้สัญญาณเคลื่อนที่ไม่เพียงแต่ในทิศทางไปข้างหน้าเท่านั้น แต่ยังไปในทิศทางตรงกันข้ามด้วย สิ่งนี้ให้อะไร? ในเครือข่ายดังกล่าว ผลลัพธ์ของเอาท์พุตสามารถส่งคืนไปยังอินพุทโดยอิงจากสิ่งนี้ ผลลัพธ์ของเซลล์ประสาทจะถูกกำหนดโดยน้ำหนักและสัญญาณอินพุต และเสริมด้วยเอาต์พุตก่อนหน้า ซึ่งจะถูกส่งกลับไปยังอินพุตอีกครั้ง เครือข่ายดังกล่าวมีลักษณะเฉพาะด้วยการทำงานของหน่วยความจำระยะสั้นโดยพิจารณาจากสัญญาณที่ถูกกู้คืนและเสริมระหว่างการประมวลผล

สิ่งเหล่านี้ไม่ใช่ตัวเลือกเดียวในการจัดประเภทเครือข่าย

พวกเขาสามารถแบ่งออกเป็นเนื้อเดียวกันและลูกผสมตามประเภทของเซลล์ประสาทที่ประกอบเป็นเครือข่าย และยังมีการเชื่อมโยงแบบเฮเทอโรแอสโซซิเอทีฟหรือการเชื่อมโยงอัตโนมัติ ขึ้นอยู่กับวิธีการฝึกอบรมแบบเครือข่าย โดยมีหรือไม่มีครูก็ได้ คุณยังสามารถจำแนกเครือข่ายตามวัตถุประสงค์ได้

โครงข่ายประสาทเทียมใช้ที่ไหน?

โครงข่ายประสาทเทียมถูกใช้เพื่อแก้ไขปัญหาต่างๆ หากเราพิจารณางานตามระดับความซับซ้อน โปรแกรมคอมพิวเตอร์ทั่วไปก็เหมาะสำหรับการแก้ปัญหาที่ง่ายที่สุดเช่นกัน
ปัญหาที่ซับซ้อนที่ต้องการการพยากรณ์อย่างง่ายหรือการแก้สมการโดยประมาณ จะใช้โปรแกรมที่ใช้วิธีการทางสถิติ

แต่งานในระดับที่ซับซ้อนยิ่งขึ้นนั้นต้องใช้แนวทางที่แตกต่างไปจากเดิมอย่างสิ้นเชิง สิ่งนี้ใช้โดยเฉพาะกับการจดจำรูปแบบ การรู้จำคำพูด หรือการทำนายที่ซับซ้อน ในหัวของบุคคล กระบวนการดังกล่าวเกิดขึ้นโดยไม่รู้ตัว นั่นคือในขณะที่จดจำและจดจำภาพ บุคคลนั้นไม่ทราบว่ากระบวนการนี้เกิดขึ้นได้อย่างไร จึงไม่สามารถควบคุมได้

มันเป็นปัญหาเหล่านี้อย่างแน่นอนที่โครงข่ายประสาทเทียมช่วยแก้ไขนั่นคือมันถูกสร้างขึ้นเพื่อดำเนินกระบวนการที่อัลกอริทึมไม่เป็นที่รู้จัก

ดังนั้นโครงข่ายประสาทเทียมจึงถูกนำมาใช้กันอย่างแพร่หลายในด้านต่อไปนี้:

  • การรับรู้และทิศทางนี้ปัจจุบันกว้างที่สุด
  • การคาดการณ์ขั้นตอนต่อไป คุณลักษณะนี้ใช้ได้กับการซื้อขายและตลาดหุ้น
  • การจำแนกข้อมูลอินพุตตามพารามิเตอร์ ฟังก์ชันนี้ดำเนินการโดยโรบอตเครดิต ซึ่งสามารถตัดสินใจในการอนุมัติสินเชื่อให้กับบุคคล โดยอาศัยชุดอินพุตของพารามิเตอร์ที่แตกต่างกัน

ความสามารถของโครงข่ายประสาทเทียมทำให้ได้รับความนิยมอย่างมาก พวกเขาสามารถสอนได้หลายอย่าง เช่น การเล่นเกม การจดจำเสียงบางอย่าง และอื่นๆ จากข้อเท็จจริงที่ว่าเครือข่ายเทียมถูกสร้างขึ้นบนหลักการของเครือข่ายทางชีววิทยา พวกเขาสามารถสอนกระบวนการทั้งหมดที่บุคคลดำเนินการโดยไม่รู้ตัวได้

เซลล์ประสาทและไซแนปส์คืออะไร?

แล้วเซลล์ประสาทคืออะไรในแง่ของโครงข่ายประสาทเทียม? แนวคิดนี้อ้างอิงถึงหน่วยที่ทำการคำนวณ รับข้อมูลจากเลเยอร์อินพุตของเครือข่าย ทำการคำนวณอย่างง่าย ๆ และป้อนไปยังเซลล์ประสาทถัดไป

เครือข่ายประกอบด้วยเซลล์ประสาทสามประเภท: อินพุต ซ่อนเร้น และเอาต์พุต ยิ่งไปกว่านั้น หากเครือข่ายเป็นแบบชั้นเดียว ก็จะไม่มีเซลล์ประสาทที่ซ่อนอยู่ นอกจากนี้ยังมีหน่วยต่างๆ มากมายที่เรียกว่า เซลล์ประสาทแทนที่ และเซลล์ประสาทบริบท

เซลล์ประสาทแต่ละอันมีข้อมูลสองประเภท: อินพุตและเอาต์พุต ในกรณีนี้ ข้อมูลอินพุตของเลเยอร์แรกจะเท่ากับข้อมูลเอาต์พุต ในกรณีอื่น ข้อมูลทั้งหมดของเลเยอร์ก่อนหน้าจะเข้าสู่อินพุตของเซลล์ประสาท จากนั้นจะผ่านกระบวนการทำให้เป็นมาตรฐาน กล่าวคือ ค่าทั้งหมดที่อยู่นอกช่วงที่ต้องการจะถูกแปลงโดยฟังก์ชันการเปิดใช้งาน

ตามที่กล่าวไว้ข้างต้น ไซแนปส์คือการเชื่อมต่อระหว่างเซลล์ประสาท ซึ่งแต่ละเซลล์ประสาทจะมีระดับน้ำหนักของตัวเอง ต้องขอบคุณคุณสมบัตินี้ที่ข้อมูลอินพุตเปลี่ยนแปลงไปในระหว่างกระบวนการส่งข้อมูล ในระหว่างการประมวลผล ข้อมูลที่ส่งโดยไซแนปส์ที่มีน้ำหนักมากจะมีความสำคัญ

ปรากฎว่าผลลัพธ์ไม่ได้รับอิทธิพลจากเซลล์ประสาท แต่โดยไซแนปส์ที่ให้น้ำหนักชุดหนึ่งแก่ข้อมูลอินพุต เนื่องจากเซลล์ประสาทเองก็ทำการคำนวณเหมือนกันทุกครั้ง

ในกรณีนี้ น้ำหนักจะถูกตั้งค่าแบบสุ่ม

แผนการทำงานของโครงข่ายประสาทเทียม

หากต้องการจินตนาการถึงหลักการทำงานของโครงข่ายประสาทเทียม ไม่จำเป็นต้องมีทักษะพิเศษใดๆ เลเยอร์อินพุตของเซลล์ประสาทได้รับข้อมูลบางอย่าง มันถูกส่งผ่านไซแนปส์ไปยังเลเยอร์ถัดไป โดยแต่ละไซแนปส์มีค่าสัมประสิทธิ์น้ำหนักของตัวเอง และแต่ละเซลล์ประสาทถัดไปสามารถมีไซแนปส์ที่เข้ามาได้หลายไซแนปส์

เป็นผลให้ข้อมูลที่เซลล์ประสาทถัดไปได้รับคือผลรวมของข้อมูลทั้งหมด โดยแต่ละข้อมูลคูณด้วยค่าสัมประสิทธิ์น้ำหนักของมันเอง ค่าผลลัพธ์จะถูกแทนที่ในฟังก์ชันการเปิดใช้งานและรับข้อมูลเอาต์พุต ซึ่งจะถูกส่งต่อไปจนกว่าจะถึงเอาต์พุตสุดท้าย การเปิดตัวเครือข่ายครั้งแรกไม่ได้ให้ผลลัพธ์ที่ถูกต้อง เนื่องจากเครือข่ายยังไม่ได้รับการฝึกอบรม

ฟังก์ชั่นการเปิดใช้งานใช้เพื่อทำให้ข้อมูลอินพุตเป็นมาตรฐาน มีฟังก์ชั่นดังกล่าวมากมาย แต่มีหลายฟังก์ชั่นหลักที่ใช้กันอย่างแพร่หลายที่สุด ความแตกต่างที่สำคัญคือช่วงของค่าที่ใช้งาน

  • ฟังก์ชันเชิงเส้น f(x) = x ซึ่งเป็นฟังก์ชันที่ง่ายที่สุดที่เป็นไปได้ ใช้สำหรับการทดสอบโครงข่ายประสาทเทียมที่สร้างขึ้นหรือส่งข้อมูลในรูปแบบดั้งเดิมเท่านั้น
  • Sigmoid ถือเป็นฟังก์ชันการเปิดใช้งานที่พบบ่อยที่สุดและมีรูปแบบ f(x) = 1 / 1+e-×; ยิ่งกว่านั้นช่วงของค่าคือตั้งแต่ 0 ถึง 1 เรียกอีกอย่างว่าฟังก์ชันลอจิสติก
  • ในการครอบคลุมค่าลบ จะใช้แทนเจนต์ไฮเปอร์โบลิก F(x) = e²× - 1 / e²× + 1 - นี่คือรูปแบบของฟังก์ชันนี้และช่วงที่มีคือตั้งแต่ -1 ถึง 1 หากโครงข่ายประสาทเทียมไม่ได้จัดเตรียมไว้สำหรับการใช้ค่าลบก็แสดงว่า ไม่ควรใช้

เพื่อให้เครือข่ายมีข้อมูลที่จะใช้งาน จำเป็นต้องมีชุดการฝึกอบรม

การบูรณาการเป็นเครื่องวัดที่เพิ่มขึ้นตามแต่ละชุดการฝึก

ยุคสมัยเป็นตัวบ่งชี้การฝึกโครงข่ายประสาทเทียม โดยตัวบ่งชี้นี้จะเพิ่มขึ้นในแต่ละครั้งที่เครือข่ายผ่านวงจรของชุดการฝึกครบชุด

ดังนั้น เพื่อฝึกเครือข่ายอย่างถูกต้อง คุณจะต้องดำเนินการชุดต่างๆ โดยเพิ่มตัวบ่งชี้ยุคอย่างสม่ำเสมอ

ข้อผิดพลาดจะถูกระบุในระหว่างการฝึกอบรม นี่คือเปอร์เซ็นต์ความแตกต่างระหว่างผลลัพธ์ที่ได้รับและผลลัพธ์ที่ต้องการ ตัวบ่งชี้นี้ควรลดลงเมื่อตัวบ่งชี้ยุคเพิ่มขึ้น มิฉะนั้นจะมีข้อผิดพลาดของนักพัฒนาอยู่ที่ไหนสักแห่ง

bias neuron คืออะไร และมีไว้เพื่ออะไร?

ในโครงข่ายประสาทเทียมมีเซลล์ประสาทอีกประเภทหนึ่ง - เซลล์ประสาทแทนที่ มันแตกต่างจากเซลล์ประสาทประเภทหลักตรงที่อินพุตและเอาท์พุตของมันมีค่าเท่ากันไม่ว่าในกรณีใดก็ตาม ยิ่งไปกว่านั้น เซลล์ประสาทดังกล่าวไม่มีอินพุตไซแนปส์

การจัดเรียงเซลล์ประสาทดังกล่าวเกิดขึ้นหนึ่งชั้นต่อชั้น และไม่มากไปกว่านี้ และพวกมันไม่สามารถเชื่อมต่อกันเองได้ ไม่แนะนำให้วางเซลล์ประสาทดังกล่าวบนเลเยอร์เอาท์พุต

พวกเขามีไว้เพื่ออะไร? มีสถานการณ์ที่โครงข่ายประสาทเทียมไม่สามารถหาวิธีแก้ปัญหาที่ถูกต้องได้เนื่องจากจุดที่ต้องการนั้นอยู่ไกลเกินเอื้อม นี่เป็นเหตุผลว่าทำไมเซลล์ประสาทดังกล่าวจึงจำเป็นต้องสามารถเปลี่ยนพื้นที่คำจำกัดความได้

นั่นคือน้ำหนักของไซแนปส์จะเปลี่ยนส่วนโค้งของกราฟฟังก์ชัน ในขณะที่เซลล์ประสาทแทนที่ทำให้เกิดการเปลี่ยนแปลงไปตามแกนพิกัด X เพื่อให้โครงข่ายประสาทเทียมสามารถจับภาพพื้นที่ที่ไม่สามารถเข้าถึงได้โดยไม่ต้องมีการเปลี่ยนแปลง ในกรณีนี้สามารถเลื่อนได้ทั้งไปทางขวาและทางซ้าย เซลล์ประสาทแบบเลื่อนมักจะไม่ทำเครื่องหมายตามแผนผัง น้ำหนักของเซลล์ประสาทจะถูกนำมาพิจารณาเป็นค่าเริ่มต้นเมื่อคำนวณค่าอินพุต

นอกจากนี้ เซลล์ประสาทอคติยังช่วยให้คุณได้ผลลัพธ์ในกรณีที่เซลล์ประสาทอื่นๆ ทั้งหมดสร้าง 0 เป็นพารามิเตอร์เอาท์พุต ในกรณีนี้ ไม่ว่าไซแนปส์จะมีน้ำหนักเท่าใด ค่านี้จะถูกส่งไปยังแต่ละเลเยอร์ถัดไปอย่างแน่นอน

การมีเซลล์ประสาทแทนที่จะช่วยให้คุณสามารถแก้ไขสถานการณ์และรับผลลัพธ์ที่แตกต่างออกไป ความเป็นไปได้ของการใช้ displacement neuron ถูกกำหนดโดยการทดสอบเครือข่ายที่มีและไม่มีเซลล์ประสาท และเปรียบเทียบผลลัพธ์

แต่สิ่งสำคัญคือต้องจำไว้ว่าการสร้างโครงข่ายประสาทเทียมนั้นไม่เพียงพอเพื่อให้บรรลุผล นอกจากนี้ยังต้องได้รับการฝึกอบรมซึ่งต้องใช้แนวทางพิเศษและมีอัลกอริธึมของตัวเองด้วย กระบวนการนี้แทบจะเรียกได้ว่าไม่ง่ายนักเนื่องจากการนำไปปฏิบัติต้องใช้ความรู้และความพยายาม

ขอแสดงความนับถือ Nastya Chekhova

ดังนั้นโครงข่ายประสาทเทียมจึงรับตัวเลขสองตัวเป็นอินพุตและจะต้องส่งออกตัวเลขอื่นนั่นคือคำตอบ ตอนนี้เกี่ยวกับโครงข่ายประสาทเทียมเอง

โครงข่ายประสาทเทียมคืออะไร?


โครงข่ายประสาทเทียมคือลำดับของเซลล์ประสาทที่เชื่อมต่อกันด้วยไซแนปส์ โครงสร้างของโครงข่ายประสาทเทียมมาถึงโลกแห่งการเขียนโปรแกรมตรงจากชีววิทยา ด้วยโครงสร้างนี้ เครื่องจึงสามารถวิเคราะห์และจดจำข้อมูลต่างๆ ได้ โครงข่ายประสาทเทียมไม่เพียงแต่สามารถวิเคราะห์ข้อมูลขาเข้าเท่านั้น แต่ยังสามารถสร้างข้อมูลจากหน่วยความจำได้อีกด้วย สำหรับผู้ที่สนใจ อย่าลืมชมวิดีโอ 2 รายการจาก TED Talks: วิดีโอ 1 , วิดีโอ 2- กล่าวอีกนัยหนึ่ง โครงข่ายประสาทเทียมคือเครื่องตีความสมองมนุษย์ ซึ่งมีเซลล์ประสาทหลายล้านเซลล์ส่งข้อมูลในรูปแบบของแรงกระตุ้นทางไฟฟ้า

โครงข่ายประสาทเทียมมีกี่ประเภท?

ในตอนนี้ เราจะพิจารณาตัวอย่างเกี่ยวกับประเภทพื้นฐานของโครงข่ายประสาทเทียม - เครือข่ายฟีดฟอร์เวิร์ด (ต่อไปนี้จะเรียกว่าเครือข่ายฟีดฟอร์เวิร์ด) นอกจากนี้ในบทความต่อๆ ไป ผมจะแนะนำแนวคิดเพิ่มเติมและบอกคุณเกี่ยวกับเครือข่ายประสาทที่เกิดซ้ำ SPR ตามชื่อคือเครือข่ายที่มีการเชื่อมต่อตามลำดับของชั้นประสาท ซึ่งข้อมูลจะไหลไปในทิศทางเดียวเท่านั้น

โครงข่ายประสาทเทียมมีไว้เพื่ออะไร?

โครงข่ายประสาทเทียมใช้ในการแก้ปัญหาที่ซับซ้อนซึ่งต้องใช้การคำนวณเชิงวิเคราะห์คล้ายกับที่สมองของมนุษย์ทำ การใช้งานโครงข่ายประสาทเทียมที่พบบ่อยที่สุดคือ:

การจำแนกประเภท- การกระจายข้อมูลตามพารามิเตอร์ ตัวอย่างเช่น คุณจะได้รับข้อมูลจากกลุ่มคน และคุณต้องตัดสินใจว่าคนไหนควรให้เครดิต และคนไหนไม่ให้เครดิต งานนี้สามารถทำได้โดยโครงข่ายประสาทเทียม การวิเคราะห์ข้อมูล เช่น อายุ ความสามารถในการชำระหนี้ ประวัติเครดิต ฯลฯ

การทำนาย- ความสามารถในการทำนายขั้นตอนต่อไป เช่น การขึ้นหรือลงของหุ้นตามสถานการณ์ในตลาดหุ้น

การยอมรับ- ปัจจุบันมีการใช้โครงข่ายประสาทเทียมอย่างแพร่หลายที่สุด ใช้ใน Google เมื่อคุณค้นหารูปภาพหรือในกล้องโทรศัพท์เมื่อตรวจพบตำแหน่งใบหน้าของคุณและไฮไลต์ใบหน้าของคุณ และอื่นๆ อีกมากมาย

ตอนนี้ เพื่อทำความเข้าใจว่าโครงข่ายประสาทเทียมทำงานอย่างไร มาดูส่วนประกอบและพารามิเตอร์ของมันกันดีกว่า

เซลล์ประสาทคืออะไร?

เซลล์ประสาทเป็นหน่วยคำนวณที่รับข้อมูล ทำการคำนวณอย่างง่าย ๆ และส่งต่อไป แบ่งออกเป็นสามประเภทหลัก: อินพุต (สีน้ำเงิน) ซ่อน (สีแดง) และเอาต์พุต (สีเขียว) นอกจากนี้ยังมีเซลล์ประสาทแทนที่และเซลล์ประสาทบริบท ซึ่งเราจะพูดถึงในบทความถัดไป ในกรณีที่โครงข่ายประสาทเทียมประกอบด้วยเซลล์ประสาทจำนวนมาก จะมีการแนะนำคำว่าเลเยอร์ ดังนั้นจึงมีเลเยอร์อินพุตที่รับข้อมูล เลเยอร์ที่ซ่อนอยู่ n เลเยอร์ (โดยปกติจะไม่เกิน 3) ที่ประมวลผลข้อมูล และเลเยอร์เอาต์พุตที่เอาต์พุตผลลัพธ์ เซลล์ประสาทแต่ละตัวมี 2 พารามิเตอร์หลัก: ข้อมูลอินพุตและข้อมูลเอาต์พุต ในกรณีของเซลล์ประสาทอินพุต: input=output ส่วนที่เหลือ ฟิลด์อินพุตประกอบด้วยข้อมูลทั้งหมดของเซลล์ประสาททั้งหมดจากเลเยอร์ก่อนหน้า หลังจากนั้นจะถูกทำให้เป็นมาตรฐานโดยใช้ฟังก์ชันการเปิดใช้งาน (สำหรับตอนนี้ ลองจินตนาการว่าเป็น f(x)) และจบลงที่ฟิลด์เอาต์พุต


สิ่งสำคัญที่ต้องจำเซลล์ประสาทนั้นทำงานโดยมีตัวเลขอยู่ในช่วง [-1,1] แต่คุณถามว่าจะประมวลผลตัวเลขที่อยู่นอกช่วงนี้ได้อย่างไร ณ จุดนี้ คำตอบที่ง่ายที่สุดคือการหาร 1 ด้วยตัวเลขนั้น กระบวนการนี้เรียกว่าการทำให้เป็นมาตรฐานและมักใช้ในโครงข่ายประสาทเทียม เพิ่มเติมเกี่ยวกับเรื่องนี้ในภายหลัง

ไซแนปส์คืออะไร?


ไซแนปส์คือการเชื่อมต่อระหว่างสองเซลล์ประสาท ไซแนปส์มี 1 พารามิเตอร์ - น้ำหนัก ด้วยเหตุนี้ ข้อมูลอินพุตจึงเปลี่ยนไปเมื่อมีการส่งจากเซลล์ประสาทหนึ่งไปยังอีกเซลล์ประสาทหนึ่ง สมมติว่ามีเซลล์ประสาท 3 อันที่ส่งข้อมูลไปยังเซลล์ประสาทถัดไป จากนั้นเราก็มีน้ำหนัก 3 อันที่สอดคล้องกับเซลล์ประสาทแต่ละอัน สำหรับเซลล์ประสาทที่มีน้ำหนักมากกว่า ข้อมูลนั้นจะมีความสำคัญในเซลล์ประสาทถัดไป (เช่น การผสมสี) ในความเป็นจริงชุดของน้ำหนักของโครงข่ายประสาทเทียมหรือเมทริกซ์น้ำหนักนั้นเป็นสมองชนิดหนึ่งของทั้งระบบ ต้องขอบคุณน้ำหนักเหล่านี้ที่ข้อมูลอินพุตได้รับการประมวลผลและกลายเป็นผลลัพธ์

สิ่งสำคัญที่ต้องจำว่าในระหว่างการเริ่มต้นโครงข่ายประสาทเทียม น้ำหนักจะถูกวางไว้ในลำดับแบบสุ่ม

โครงข่ายประสาทเทียมทำงานอย่างไร?


ตัวอย่างนี้แสดงส่วนหนึ่งของโครงข่ายประสาทเทียม โดยที่ตัวอักษรที่ฉันหมายถึงเซลล์ประสาทอินพุต ตัวอักษร H หมายถึงเซลล์ประสาทที่ซ่อนอยู่ และตัวอักษร w หมายถึงน้ำหนัก สูตรแสดงว่าข้อมูลที่ป้อนคือผลรวมของข้อมูลที่ป้อนทั้งหมดคูณด้วยน้ำหนักที่สอดคล้องกัน จากนั้นเราจะให้ 1 และ 0 เป็นอินพุต ให้ w1=0.4 และ w2 = 0.7 ข้อมูลอินพุตของเซลล์ประสาท H1 จะเป็นดังนี้: 1*0.4+0*0.7=0.4 ตอนนี้เรามีอินพุตแล้ว เราสามารถรับเอาต์พุตได้โดยการเสียบอินพุตเข้ากับฟังก์ชันการเปิดใช้งาน (เพิ่มเติมในภายหลัง) เมื่อได้ผลงานแล้วเราก็ส่งต่อครับ ดังนั้นเราจึงทำซ้ำทุกเลเยอร์จนกระทั่งถึงเซลล์ประสาทเอาท์พุต เมื่อเปิดตัวเครือข่ายดังกล่าวเป็นครั้งแรก เราจะเห็นว่าคำตอบนั้นยังห่างไกลจากความถูกต้อง เนื่องจากเครือข่ายไม่ได้รับการฝึกอบรม เพื่อปรับปรุงผลลัพธ์เราจะฝึกเธอ แต่ก่อนที่เราจะเรียนรู้วิธีการทำเช่นนี้ เรามาแนะนำคำศัพท์และคุณสมบัติของโครงข่ายประสาทเทียมกันก่อน

ฟังก์ชั่นการเปิดใช้งาน

ฟังก์ชั่นการเปิดใช้งานเป็นวิธีหนึ่งในการทำให้ข้อมูลอินพุตเป็นมาตรฐาน (เราพูดถึงเรื่องนี้ก่อนหน้านี้) นั่นคือถ้าคุณมีอินพุตจำนวนมากโดยส่งผ่านฟังก์ชันการเปิดใช้งาน คุณจะได้เอาต์พุตในช่วงที่คุณต้องการ มีฟังก์ชันการเปิดใช้งานค่อนข้างมาก ดังนั้นเราจะพิจารณาฟังก์ชันพื้นฐานที่สุด: Linear, Sigmoid (Logistic) และ Hyperbolic tangent ความแตกต่างที่สำคัญคือช่วงของค่า

ฟังก์ชันเชิงเส้น


แทบไม่เคยใช้ฟังก์ชันนี้เลย ยกเว้นเมื่อคุณต้องการทดสอบโครงข่ายประสาทเทียมหรือส่งค่าโดยไม่มีการแปลง

ซิกมอยด์


นี่คือฟังก์ชันการเปิดใช้งานที่พบบ่อยที่สุดและช่วงของค่าคือ นี่คือที่ที่แสดงตัวอย่างส่วนใหญ่บนเว็บ และบางครั้งเรียกว่าฟังก์ชันลอจิสติก ดังนั้น หากในกรณีของคุณมีค่าลบ (เช่น หุ้นสามารถขึ้นได้ไม่เพียงแต่ขึ้นเท่านั้น แต่ยังลงได้อีกด้วย) คุณจะต้องมีฟังก์ชันที่จับค่าลบด้วย

ไฮเพอร์โบลิกแทนเจนต์


เหมาะสมที่จะใช้แทนเจนต์ไฮเปอร์โบลิกเมื่อค่าของคุณสามารถเป็นได้ทั้งลบและบวกเนื่องจากช่วงของฟังก์ชันคือ [-1,1] ไม่แนะนำให้ใช้ฟังก์ชันนี้เฉพาะกับค่าบวกเท่านั้น เนื่องจากจะทำให้ผลลัพธ์ของโครงข่ายประสาทเทียมของคุณแย่ลงอย่างมาก

ชุดฝึกซ้อม

ชุดการฝึกคือลำดับของข้อมูลที่โครงข่ายประสาทเทียมทำงาน ในกรณีพิเศษของเราหรือ (xor) เรามีผลลัพธ์ที่แตกต่างกันเพียง 4 แบบ นั่นคือ เราจะมีชุดการฝึก 4 ชุด: 0xor0=0, 0xor1=1, 1xor0=1,1xor1=0

การวนซ้ำ

นี่คือตัวนับชนิดหนึ่งที่จะเพิ่มขึ้นทุกครั้งที่โครงข่ายประสาทเทียมผ่านชุดการฝึกชุดเดียว กล่าวอีกนัยหนึ่ง นี่คือจำนวนชุดการฝึกอบรมทั้งหมดที่เสร็จสมบูรณ์โดยโครงข่ายประสาทเทียม

ยุค

เมื่อเริ่มต้นโครงข่ายประสาทเทียม ค่านี้จะถูกตั้งค่าเป็น 0 และมีเพดานที่ตั้งค่าด้วยตนเอง ยิ่งยุคสมัยยิ่งใหญ่เท่าไร เครือข่ายก็ยิ่งได้รับการฝึกฝนดีขึ้นเท่านั้น และผลลัพธ์ที่ได้ก็ตามมาด้วย ยุคจะเพิ่มขึ้นทุกครั้งที่เราผ่านชุดการฝึกทั้งชุด ในกรณีของเรา 4 ชุดหรือ 4 รอบ


สำคัญอย่าสับสนระหว่างการวนซ้ำกับยุค และเข้าใจลำดับของการเพิ่มขึ้น ครั้งแรก น
เมื่อการวนซ้ำเพิ่มขึ้น และจากนั้นก็ถึงยุคและไม่ใช่ในทางกลับกัน กล่าวอีกนัยหนึ่ง คุณไม่สามารถฝึกโครงข่ายประสาทเทียมบนชุดเดียวก่อน จากนั้นจึงฝึกบนอีกชุดหนึ่ง และอื่นๆ ได้ คุณต้องฝึกแต่ละชุดหนึ่งครั้งต่อยุค ด้วยวิธีนี้ คุณสามารถหลีกเลี่ยงข้อผิดพลาดในการคำนวณได้

ข้อผิดพลาด

ข้อผิดพลาดคือเปอร์เซ็นต์ที่สะท้อนถึงความแตกต่างระหว่างการตอบสนองที่คาดไว้และการตอบสนองที่ได้รับ ความผิดพลาดเกิดขึ้นทุกยุคสมัยและต้องลดลง หากไม่เกิดขึ้นแสดงว่าคุณกำลังทำอะไรผิด ข้อผิดพลาดสามารถคำนวณได้หลายวิธี แต่เราจะพิจารณาเพียงสามวิธีหลักเท่านั้น: Mean Squared Error (ต่อไปนี้จะเรียกว่า MSE), Root MSE และ Arctan ไม่มีข้อจำกัดในการใช้งานเหมือนที่มีอยู่ในฟังก์ชันการเปิดใช้งาน และคุณสามารถเลือกวิธีการใดๆ ที่จะให้ผลลัพธ์ที่ดีที่สุดได้อย่างอิสระ คุณเพียงแค่ต้องจำไว้ว่าแต่ละวิธีนับข้อผิดพลาดแตกต่างกัน ด้วย Arctan ข้อผิดพลาดจะมีขนาดใหญ่ขึ้นเกือบทุกครั้ง เนื่องจากมันทำงานบนหลักการ: ยิ่งความแตกต่างมากเท่าไร ข้อผิดพลาดก็จะยิ่งมากขึ้นเท่านั้น Root MSE จะมีข้อผิดพลาดน้อยที่สุด ดังนั้นจึงเป็นเรื่องปกติที่จะใช้ MSE ที่จะรักษาสมดุลในการคำนวณข้อผิดพลาด


รูต MSE



หลักการคำนวณข้อผิดพลาดจะเหมือนกันในทุกกรณี สำหรับแต่ละชุด เราจะนับข้อผิดพลาดโดยการลบผลลัพธ์ออกจากคำตอบในอุดมคติ ต่อไป เราจะยกกำลังสองหรือคำนวณแทนเจนต์กำลังสองจากผลต่างนี้ หลังจากนั้นเราจะหารจำนวนผลลัพธ์ด้วยจำนวนชุด

งาน

ตอนนี้ เพื่อทดสอบตัวเอง ให้คำนวณเอาต์พุตของโครงข่ายประสาทเทียมที่กำหนดโดยใช้ sigmoid และข้อผิดพลาดโดยใช้ MSE

ข้อมูล: I1=1, I2=0, w1=0.45, w2=0.78,w3=-0.12,w4=0.13,w5=1.5,w6=-2.3