วิธีทำให้แชมพูจดจำ URL อัตโนมัติ การรับรู้การป้องกันแคปช่า

ฉันจะสาธิตเทคนิคเหล่านี้ใน captcha แบบทดลอง ในฐานะผู้ทดสอบ ฉันเลือก captcha ของ Rafontes บางตัว ซึ่งฉันเจอเมื่อมองหาสื่อสำหรับบทความที่แล้ว

ตัวอย่างของ captcha ที่สร้างขึ้น:

ฉันต้องใช้พื้นหลังอื่น เนื่องจากผู้เขียนไม่ได้โพสต์ต้นฉบับ (หรือหาไม่พบ) แต่สิ่งนี้จะไม่ส่งผลกระทบต่อผลลัพธ์

ประมวลผลล่วงหน้า

จากการกระทำนี้ เราจะได้พื้นที่ที่ถูกครอบตัดมากที่สุด ภาพเอกรงค์พร้อมข้อความ

ก่อนอื่นเราต้องการ พื้นหลังแยกจากข้อความ- เราวิเคราะห์ภาพและรหัสการสร้างภาพ ข้อผิดพลาดแรกปรากฏชัดเจน:

  • ใช้สีเดียวสำหรับการทดสอบโค้ดทั้งหมด
  • สีของข้อความถูกสร้างขึ้นในช่วง rand(0, 200), 0, rand(0, 200) สำหรับ R G B ตามลำดับ (เพียงพอที่จะเลือกสีเฉพาะในช่วงนี้เท่านั้น)
  • พื้นหลังด้วย จำนวนมากสีต่างๆ (จะไม่ส่งผลต่อสถิติสีที่ใช้บ่อยที่สุด)

จากข้อเท็จจริงเหล่านี้ เราจะวิเคราะห์สีของแต่ละพิกเซลในภาพทั้งหมด และเลือกสีที่ใช้บ่อยที่สุด มันเปิดออก 8C0074(ในรูปแบบเลขฐานสิบหก) เราตั้งค่าข้อผิดพลาดเล็กน้อยจากนั้นเลือกสีนี้และสีที่คล้ายกันเล็กน้อยโดยคำนึงถึงข้อผิดพลาด เราทาสีสิ่งที่เลือกทั้งหมดด้วยสีดำ ส่วนที่เหลือเป็นสีขาว ปรากฎภาพนี้:

อย่างที่คุณเห็น เราได้รับข้อความโดยแทบไม่มีการบิดเบือน จริงอยู่ เหลือเพียงบรรทัดเดียว แต่เรามีอัลกอริธึมการตัดแต่งที่ยุ่งยาก (ดูข้อมูลเพิ่มเติมด้านล่าง) ซึ่งบรรทัดนี้ไม่สามารถมีอิทธิพลได้

ตอนนี้ เลือกพื้นที่ด้วยรหัส.
เนื่องจากข้อความของเราเป็นจุดที่มืดที่สุด เราจึงพยายามค้นหาจุดนี้ตามอัลกอริทึม ขั้นแรกเรากำหนดขอบเขตแนวนอน:

ตอนนี้เรากำหนดขอบเขตแนวตั้ง:

เส้นยังคงอยู่ตรงนี้เพราะบริเวณนั้นยังคงถูกรับรู้โดยฟังก์ชันว่าเป็นบริเวณที่มืดมาก แต่ตอนนี้ จากขอบเขตเหล่านี้ เราจะปรับแต่งเป็นวงกลมที่สองในแนวนอน:

ทำไมบรรทัดนี้ถึงถูกลบตอนนี้คุณถาม? เนื่องจากขณะนี้มีการวิเคราะห์ "คอลัมน์พิกเซล" น้อยลง และเมื่อวิเคราะห์ด้วยอัลกอริธึมพบว่าในบริเวณนี้มีคอลัมน์มากเกินไปที่มีพิกเซลสีดำหนึ่งพิกเซล ดังนั้นนี่คือสัญญาณรบกวน ตอนนี้มาชี้แจงเส้นขอบแนวตั้ง:

เนื่องจากพื้นที่คำจำกัดความมีขนาดเล็กลง ขณะนี้เส้นที่มีสัญญาณรบกวนจึงกลายเป็นจุดมืดไม่เพียงพอและถูกลบออกทั้งหมด ดังนั้นเราจึงได้ส่วนที่มีข้อความ แน่นอนว่าบางครั้งอัลกอริทึมนี้ไม่ได้เลือกพื้นที่ที่ต้องการอย่างถูกต้องนัก แต่จากการทดสอบของฉัน จำนวนคำจำกัดความที่ไม่ถูกต้องจะต้องไม่เกิน 5% ซึ่งจริงๆ แล้วสามารถละเลยได้

การแบ่งส่วน

ตอนนี้งานของเราคือแบ่งภาพที่ได้ออกเป็น แยกพื้นที่มีสัญลักษณ์

แน่นอนคุณสามารถคำนวณ มองหาขอบเขตของตัวละครได้ ฯลฯ แต่ถ้าคุณวิเคราะห์โค้ดการสร้างอีกครั้ง คุณจะพบข้อผิดพลาดอื่นได้

  • ช่องว่างระหว่างอักขระแต่ละตัวคือ 15 พิกเซลเสมอ

แน่นอนว่าบางครั้งเนื่องจากขนาดของสัญลักษณ์ จึงมีพิกเซลเกินสิบห้าพิกเซล จากนั้นคุณต้องกัดอีกหนึ่งหรือสองพิกเซลจากสัญลักษณ์ข้างเคียง แต่นี่ไม่สำคัญ โดยทั่วไปเรามาแยกภาพกัน:

อย่างที่เราเห็น มีพื้นที่ว่างรอบๆ สัญลักษณ์บางตัว แต่เรายังต้องการสัญลักษณ์นั้นเอง เราใช้ฟังก์ชันการครอบตัดสำหรับอักขระแต่ละตัว และจัดรูปภาพผลลัพธ์ให้พอดีกับสี่เหลี่ยมขนาด 17x27:

เป็นภาพเหล่านี้ที่จะถูกส่งเป็นรายบุคคลเพื่อการรับรู้

การยอมรับ

เราจะทำการจดจำโดยไม่มีโครงข่ายประสาทเทียมแบบใหม่ ทำไม บทบาทชี้ขาดเกิดจากการที่ Windows ไม่มีไลบรารี่ที่คุ้มค่าเพียงแห่งเดียว เราจะใช้การรู้จำอักขระแบบธรรมดา

การทำเช่นนี้เราสามารถเข้าถึง ซอร์สโค้ดสร้างรูปภาพขาวดำจำนวนมากสำหรับแต่ละสัญลักษณ์ที่มีมุมการหมุนที่แตกต่างกัน (ตั้งแต่ 2 ถึง 4 องศา) และ ขนาดที่แตกต่างกันแบบอักษร (ตั้งแต่ 20pt ถึง 30pt) ตามที่คุณคาดเดาแต่ละภาพที่ได้จะพอดีกับสี่เหลี่ยมผืนผ้าขนาด 17x27 รูปภาพที่ได้แต่ละภาพเรียกว่ามาสก์

ฉันสร้างมาสก์ได้ 10-15 อันสำหรับจดหมายแต่ละฉบับ โดยหลักการแล้ว นี่ก็เพียงพอแล้ว แต่ถ้าคุณเพิ่มจำนวนมาสก์ คุณสามารถเพิ่มเปอร์เซ็นต์การจดจำได้

โดยทั่วไป รูปภาพทั้งหมดที่ส่งไปยังอินพุตจะถูกเปรียบเทียบกับมาสก์ และอัลกอริธึมจะกำหนดว่ามาสก์ใดที่ตรงกับรูปภาพของเรามากที่สุด โดยอาศัยข้อมูลนี้ ทำให้ได้ข้อสรุปเกี่ยวกับอักขระที่เขียนในภาพ

ผลลัพธ์

สำหรับการทดสอบ ฉันได้อักขระที่มีเสียงดัง 200 ตัวโดยการสร้างรูปภาพและแบ่งออกเป็นสัญลักษณ์ และฉันทำการทดสอบโดยทางโปรแกรม และให้ความสนใจ!
ผลลัพธ์: สำเร็จ: 172 ข้อผิดพลาด: 28 เปอร์เซ็นต์: 86%
นั่นคืออักขระแต่ละตัวใน captcha จะถูกจดจำได้สำเร็จโดยมีความน่าจะเป็น 86% !

คณิตศาสตร์เล็กน้อย มาคำนวณเปอร์เซ็นต์ของความน่าจะเป็นที่จะจดจำแคปต์ชาได้สำเร็จ:
สำหรับแคปต์ชา 4 ตัวอักษร: 0.86^4= 54%
สำหรับแคปต์ชา 5 อักขระ: 0.86^5= 47%

โดยเฉลี่ยแล้ว ทุกวินาทีแคปต์ชาจะได้รับการยอมรับได้สำเร็จ

โดยพิจารณาว่าแต่ละ captcha ใช้เวลาประมาณ 1 วินาที และโดยเฉลี่ยจะใช้เวลา 2 วินาทีในการจดจำที่สำเร็จ นี่เป็นผลลัพธ์ที่ยอดเยี่ยมมาก

แหล่งที่มา

สคริปต์สร้างและจดจำแคปช่าเอง ตัวอย่างของสคริปต์ในภาพที่กำหนดเป็นตัวอย่างโดยผู้เขียน captcha:

(รูปภาพสามารถคลิกได้)

ในหน้านี้ ฉันจะบอกคุณเกี่ยวกับการหาเงินประเภทอื่นบนอินเทอร์เน็ต - การป้อนแคปต์ชาเพื่อเงิน ฉันได้เตรียมรายชื่อเว็บไซต์ยอดนิยมสำหรับการสร้างรายได้ด้วยการป้อน captcha บริการเหล่านี้ยังมีประโยชน์ในการทำงานด้วย โปรแกรมต่างๆเพื่อใช้ต่อต้านแคปต์ชา

ฉันคิดว่ามันไม่มีประโยชน์ที่จะบอกว่า captcha คืออะไร :) เราเห็นสิ่งนี้ทุกที่ แต่คงมีคนไม่มากที่รู้ว่าพวกเขาได้อะไรจากสิ่งนี้

หารายได้ด้วยการป้อนแคปต์ชา

ถ้าคุณใช้ซอฟต์แวร์ (โปรแกรม) ใด ๆ สำหรับบางคน การดำเนินการอัตโนมัติบนอินเทอร์เน็ตมักจะมีรายการเมนูสำหรับป้อนรหัสต่อต้านแคปต์ชาทุกที่

รหัสนี้ออกโดยบริการจดจำ captcha ในระหว่างการชำระเงิน โดยทั่วไปคีย์จะมีลักษณะเป็นชุดตัวอักษรและตัวเลข คุณใส่รหัสนี้ลงในโปรแกรมและบริการจะจดจำคุณตามจำนวนที่คุณฝาก

แล้วคุณคิดว่าใครบ้างที่รู้จักแคร็กพอตเหล่านี้ในบริการเหล่านี้ 🙂 ผู้ดูแลระบบสองสามคน?.. และพวกเขาจะจดจำได้กี่คน?.. ไม่แน่นอน พวกเขารับสมัครคนงานที่นั่งไขปริศนาและรับเงิน

หากคุณสนใจรายได้ประเภทนี้ ให้เลือกบริการสำหรับตัวคุณเอง คุณสามารถทำได้ทั้งหมด และเริ่มต้นได้เลย

เข้าไปใช้บริการคลิกที่ภาพได้เลย .

รายชื่อบริการจดจำแคปต์ชา

  1. ที่ทันสมัยที่สุดและมัลติฟังก์ชั่น


  • ความสามารถในการแก้ปัญหาทางโทรศัพท์
  • ราคาสำหรับลูกค้าอยู่ที่ 14 รูเบิล สำหรับ 1,000 แคปต์ชา
  • การชำระเงิน - บัตร, ระบบการชำระเงิน
  • สำหรับพนักงาน - ตั้งแต่ 10 - 30 รูเบิล สำหรับ 1,000 captcha ที่แก้ไขแล้ว ขึ้นอยู่กับจำนวนเงินที่ลูกค้าเดิมพัน
  • ถอนเงินเป็น WebMoney จาก 30 รูเบิล

2. อะนาล็อกของอันแรกเป็นภาษาอังกฤษและเป็นดอลลาร์เท่านั้น

  • ราคาของ anti-captcha อยู่ระหว่าง 0.5-1.2 เหรียญสหรัฐต่อ 1,000 captcha
  • ค่าธรรมเนียมในการแก้ captcha อยู่ที่ประมาณ 0.4 ดอลลาร์
  • ถอนเงินเป็น WebMoney ตั้งแต่ $0.5

3. บริการชนชั้นกลางอีกรายหนึ่งสำหรับสร้างรายได้จากแคปต์ชา

  • เมื่อลงทะเบียนคุณจะต้องกรอกรหัส “0808”
  • จ่ายตั้งแต่ 0.8-1.5 ดอลลาร์ต่อโซลูชัน
  • ถอนเงินจาก $3 ไปยัง WebMoney

4.

ส่วนขยายเบราว์เซอร์นี้จะแก้ captcha บนเว็บไซต์ใด ๆ โดยอัตโนมัติ

  • สำหรับโครเมียม
  • ไฟร์ฟอกซ์
  • ซาฟารี

5.

  • ราคาสำหรับลูกค้าอยู่ที่ 14 รูเบิล สำหรับ 1,000 แคปต์ชา
  • หลายวิธี.
  • สำหรับพนักงาน - ตั้งแต่ 1 - 10 kopecks
  • ถอนเงินเป็น WebMoney จาก 10 รูเบิล

6.

  • จาก 1 ดอลลาร์ต่อ 1,000 แคปต์ชา
  • ไม่มีรายได้.

7.

  • จาก 0.7$ /1,000
  • สำหรับพนักงาน - ตั้งแต่ 1 - 10 kopecks งานนี้ดำเนินการบนโดเมน - kolotibablo.com

8.

  • จาก $1.29 สำหรับ 1,000 แคปต์ชา
  • ไม่มีคนงาน

9.

บริการนี้เสนอการชำระเงินสำหรับการแก้ไข captcha โดยบุคคลที่สาม

ตัวอย่างเช่น คุณติดตั้ง captcha บนเว็บไซต์หรือลิงก์บนอินเทอร์เน็ต

ดูวิดีโอที่บอกเกี่ยวกับความเป็นไปได้ทั้งหมด

ขอให้เป็นวันที่ดี ท่านสุภาพสตรีและสุภาพบุรุษ

บริการจดจำแคปต์ชาอัตโนมัติสามารถช่วยได้ในสถานการณ์ที่หลากหลาย ตัวอย่างเช่นพวกเขาอำนวยความสะดวกอย่างมากในการทำงานของโปรแกรมในการรวบรวม แกนความหมาย– Kay Collector, SlovoYob ฯลฯ แอปพลิเคชันสำหรับตรวจสอบข้อความเพื่อความเป็นเอกลักษณ์และการเขียนใหม่ – การต่อต้านการลอกเลียนแบบ

ที่ ปริมาณมากข้อความหรือข้อความค้นหาเดียวกัน คุณอาจพบข้อความแจ้ง captcha ปรากฏขึ้นทุกๆ 10 วินาที ไม่สะดวกมากใช่ไหม? Anti-captcha ทำให้คุณไม่จำเป็นต้องป้อนตัวเลขและตัวอักษรเดียวกันนี้ด้วยตนเอง สิ่งนี้ทำโดยคนอื่นที่ทำเงินด้วยการแก้ปัญหาเหล่านั้น คุณจะต้องชำระค่าบริการที่เสนอรายการ captcha อัตโนมัติเท่านั้น

โปรแกรมส่วนใหญ่ที่ทำงานร่วมกับบริการออนไลน์ (Wordstat, Google Analytics ฯลฯ) จำเป็นต้องมีรายการ captcha คงที่ มันไม่มีประโยชน์สำหรับโปรเจ็กต์ออนไลน์ดังกล่าวที่จะมีบอทมาทำงานร่วมกับพวกเขา ดังนั้นพวกเขาจึงพยายามอย่างเต็มที่เพื่อต่อสู้กับสิ่งนี้

แต่ผู้ดูแลเว็บทั่วไปที่ตัดสินใจรวบรวมความหมายหรือแยกวิเคราะห์ข้อมูลจากบริการวิเคราะห์ล่ะ ทำมันด้วยตนเอง? ไม่ใช่การตัดสินใจที่สมเหตุสมผลโดยเฉพาะอย่างยิ่งเนื่องจากขณะนี้มีโปรแกรมมากมายสำหรับการถอดรหัส captcha และโปรแกรมเหล่านี้ฟรี

แคปช่าแก้ได้แล้ว คนจริงโดยได้รับผลตอบแทนจากการนี้ ทำงานในหน้าต่างพิเศษซึ่งสคริปต์จะเปลี่ยนเส้นทาง captcha จากโปรแกรมของคุณไปยังพวกเขาโดยตรง หากป้อนถูกต้อง ระบบจะป้อนอัตโนมัติ แอปพลิเคชันของคุณทำงานได้อย่างราบรื่นและคุณไม่ต้องกังวลอีกต่อไป

ไซต์การจดจำแคปช่าเสนออัตราเหมาจ่ายต่อแคปช่าให้กับพนักงาน คุณในฐานะลูกค้าจำเป็นต้องฝากเงิน จำนวนหนึ่งเพื่อความสมดุล มันก็จะค่อยๆลดลง

บริการป้อนข้อมูลอัตโนมัติไม่จำเป็นต้องมีการลงทุนจำนวนมาก 300 - 400 รูเบิลเป็นเวลาหลายเดือนหรือหกเดือนก็เพียงพอแล้ว แต่ก็ขึ้นอยู่กับปริมาณการใช้งานด้วย

คุณสามารถผสานรวมโดยใช้รหัสพิเศษหรือข้อมูลจากบัญชีบนเว็บไซต์ดังกล่าว แอปพลิเคชันที่เหมาะสมด้วยการบริการ

รายชื่อบริการออนไลน์สำหรับการจดจำแคปต์ชา

หากคุณต้องการให้ยูทิลิตี้ของคุณทำงานในโหมด "อัตโนมัติ" คุณต้องทำความคุ้นเคยกับรายการนี้ ที่นี่ฉันจะนำเสนอไซต์ยอดนิยมที่จะช่วยให้คุณไม่จำเป็นต้องป้อน captcha ด้วยตนเอง

RuCaptcha

RuCaptcha เป็นโปรเจ็กต์ยอดนิยมที่ช่วยแก้ปัญหาการทำงานกับแอพพลิเคชั่นมากมาย ราคาที่นี่สูงกว่าที่อื่น 10 รูเบิล แต่คุณภาพและความเร็วของงานสอดคล้องกับสิ่งนี้

มันสามารถทำงานกับการตรวจสอบหุ่นยนต์ทุกประเภท ดังนั้นคุณไม่ต้องกังวลหากแคปต์ชาใหม่จาก Google ปรากฏขึ้น โดยที่คุณต้องเลือกป้ายจราจร ฯลฯ ผู้ใช้ RuCapcha สามารถจัดการได้อย่างง่ายดายในสองสามขั้นตอน นาที.

มิฉะนั้นการบริการจะคล้ายกับที่อื่น Easy API ทำงานร่วมกับเกือบทุกโปรแกรม และที่สำคัญที่สุด - จำนวนมากนักแสดง หลายๆคนคงรู้จักใน. เวลาว่างจึงช่วยเหลือผู้ใช้ทั่วไป

2แคปช่า

แหล่งข้อมูลภาษาอังกฤษ คล้ายกับ RuCapcha มาก ราคาเฉลี่ยสำหรับการเดา 1,000 ครั้ง - ครึ่งเหรียญ จากนี้เราสามารถสรุปได้ว่าราคาเหมือนกับในตลาด CIS

2Captcha ใช้งานได้ดีกับ Google ตามกฎแล้ว มีพนักงานที่พูดภาษาอังกฤษและเชี่ยวชาญเฉพาะด้าน Google captchas เท่านั้น ปัญหาอาจเกิดขึ้นกับตัวเลือกของรัสเซีย (จาก Yandex เดียวกัน) แต่ฉันคิดว่าจะมีนักแสดงอยู่ที่นั่นด้วย

แอนตี้แคปช่า

Anti Captcha เป็นบริการสมัยใหม่ (เดิมชื่อ Antigate) ที่ให้บริการแก้ไขสัญลักษณ์โดยอัตโนมัติ โครงการนี้โดดเด่นด้วย API ที่เรียบง่ายที่สุด มีนักแสดงจำนวนมากและราคาต่ำ

ราคาที่ถูกเมื่อเปรียบเทียบและบริการคุณภาพสูงจะไม่ทำให้คุณเฉยเมยอย่างแน่นอน เว็บไซต์นี้มีชื่อเสียงใน Runet ดังนั้นเวลาเฉลี่ยในการแก้สัญลักษณ์จึงอยู่ที่ 10 - 15 วินาทีเท่านั้น นั่นคือคุณแทบจะไม่ต้องรอเลยจนกว่าแคปต์ชาจะได้รับการแก้ไข

โครงการนี้เหมาะสำหรับการจดจำโดยตรงในเบราว์เซอร์ ตัวเลือกที่เป็นประโยชน์ร่วมกันซึ่งสามารถช่วยให้ผู้เริ่มต้นสร้างรายได้และในขณะเดียวกันก็ทำให้การทำงานของมืออาชีพง่ายขึ้น

บริการที่จะเลือกนั้นขึ้นอยู่กับคุณในการตัดสินใจ แต่ละคนมีข้อดีและข้อเสียของตัวเอง สิ่งหนึ่งที่อาจกล่าวได้: แต่ละโครงการได้ผลเพียงพอแล้ว เวลานาน- คุณไม่ต้องกังวลว่าคุณจะถูกหลอก เงินของคุณจะถูกขโมย หรือไวรัสจะถูกส่งไปยังพีซีของคุณ สิ่งนี้จะไม่เกิดขึ้นอย่างแน่นอน แต่สิ่งนี้ไม่สามารถพูดถึงผู้อื่นได้

โปรดใช้ความระมัดระวังเมื่อเลือกบริการต่อต้านแคปช่า RuNet เต็มไปด้วยของปลอมที่ทำการฉ้อโกง หากคุณตัดสินใจลองใช้โปรเจ็กต์ที่ถูกกว่าและไม่รู้จักกะทันหัน คุณควรตรวจสอบบทวิจารณ์ก่อนใช้งานจะดีกว่า ค่อนข้างเป็นไปได้ว่านี่เป็นทรัพยากรฟิชชิ่งที่รวบรวมเงินจากผู้ใช้ที่ใจง่าย

คำแนะนำในการทำงานกับบริการ

เมื่อคุณเลือกบริการต่อต้าน captcha ออนไลน์แล้ว คุณจะต้องใช้บริการดังกล่าวด้วยวิธีใดวิธีหนึ่ง โดยปกติแล้วบริการดังกล่าวจะมี ปุ่มพิเศษ– คุณได้รับมันในบัญชีของคุณ หลังจากนั้นคุณป้อนมันลงในช่องพิเศษในใบสมัคร ในส่วนของเนื้อหาในวันนี้ ฉันจะดูที่ RuCapcha

ไปที่ส่วน “API สำหรับผู้ดูแลเว็บ” ซึ่งเราจะเห็นสิ่งนี้

มีช่อง "captcha KEY" อยู่ที่นี่ นั่นคือสิ่งที่เราต้องการ เราคัดลอกคีย์นี้และไปที่การตั้งค่า anti-captcha ของโปรแกรมของเรา

ทำเครื่องหมายที่ช่อง "ใช้บริการ anti-captcha" เลือกบริการจากรายการแบบเลื่อนลงแล้วใส่รหัส พร้อม! ตอนนี้แอปพลิเคชันของเราจะ "แก้ไข" captcha โดยอัตโนมัติโดยใช้บริการที่เหมาะสม คุณไม่จำเป็นต้องดำเนินการใดๆ เพิ่มเติม เพียงเติมเงินบัญชีของคุณบนเว็บไซต์ทันเวลา

การตั้งค่าในโปรแกรมทั้งหมดนี้เกือบจะเหมือนกัน และใน Key Collector และใน SlovoYob และในแอปพลิเคชันอื่น ๆ ทุกอย่างจะมีลักษณะโดยประมาณตามที่ฉันได้อธิบายไว้

บทสรุป

ตอนนี้คุณรู้วิธีเลี่ยงการป้อนอักขระและ เช็คต่างๆ“คุณไม่ใช่หุ่นยนต์เหรอ?” การใช้บริการออนไลน์ การปฏิบัติที่สะดวกและ การใช้งานที่เรียบง่าย- คุณสามารถลบ captcha ออกจากชีวิตของคุณได้ตลอดไปโดยเติมยอดเงินคงเหลือเป็นครั้งคราวเท่านั้น ตามกฎแล้วมีการใช้เงินเพียงเล็กน้อยในโครงการดังกล่าว แต่มีประโยชน์มากมาย

ใน Key Collector เดียวกัน captcha นี้อาจเสียหายบ่อยมาก ทำให้คุณทำงานไม่ได้ ดังนั้นเราจึงเชื่อมต่อโปรแกรมเข้ากับบริการ เริ่มรวบรวม semantic core และเราสามารถดำเนินธุรกิจต่อไปได้ เช่นเดียวกับยูทิลิตี้อื่นที่ต้องป้อนอักขระอย่างต่อเนื่อง

อย่างน้อยสักวันหนึ่งผู้ใช้อินเทอร์เน็ตหลายคนก็ต้องป้อน captcha สิ่งนี้ วิธีปกติคำจำกัดความ โปรแกรมอัตโนมัติคุณเป็นหุ่นยนต์หรือมนุษย์? ดังนั้นจึงเกิดขึ้นที่คุณจะต้องกำหนดรูปภาพทั้งหมดและคุณไม่ต้องการเสียเวลาในการป้อนแต่ละรูปภาพ

    • เกณฑ์ในการเลือกโปรแกรมสำหรับการจดจำแคปต์ชา
    • เลื่อน โปรแกรมฟรีเพื่อหลีกเลี่ยงแคปต์ชาและความแตกต่าง

หากคุณประสบปัญหาดังกล่าว มีวิธีแก้ไข - บริการออนไลน์ที่จะช่วยให้คุณไม่ใช้จ่าย ช่วงต่อเวลาพิเศษเพื่อเข้าสู่แคปต์ชา ไม่มีความลับว่าเมื่อมีการปรับปรุงโปรแกรมการจดจำผู้ใช้ (พิจารณาว่าเป็นบุคคลหรือหุ่นยนต์) โปรแกรมที่สามารถถอดรหัสความปลอดภัยและจดจำ captcha โดยอัตโนมัติก็ได้รับการปรับปรุงเช่นกัน มี โปรแกรมราคาแพงเช่น OCR ซึ่งทำหน้าที่ได้ดีเยี่ยม แต่คุณเห็นไหมว่าใครต้องการใช้เงินจำนวนมากเพื่อจดจำรูปภาพ เพราะ สถานการณ์ที่สิ้นหวังไม่เกิดขึ้น ในกรณีนี้ก็พบวิธีแก้ไขเช่นกัน - บริการออนไลน์ฟรีและมันก็น่าสังเกตว่าเขาไม่ใช่คนเดียวเท่านั้น ด้านล่างนี้เราจะมาดูตัวเลือกที่มีให้ละเอียดยิ่งขึ้น

เกณฑ์ในการเลือกโปรแกรมสำหรับการจดจำแคปต์ชา

หากคุณมีส่วนร่วมในกิจกรรมใด ๆ ที่ต้องมีการรับรู้รหัสอย่างต่อเนื่องคุณควรซื้อโปรแกรมเวอร์ชันราคาแพงในกรณีที่คุณต้องดำเนินการตามกระบวนการที่เป็นปัญหาไม่บ่อยนักคุณไม่ควรทิ้ง เงินก้อนใหญ่ เงินสดเพื่อสิ่งนั้น บริการฟรีซึ่งใช้งานได้ไม่ยาก

มีบริการดังกล่าวมากมายและผู้ใช้มีโอกาสที่จะใช้บริการใด ๆ ดังนั้นจึงมีตัวเลือกมากมายให้เลือก

เพื่อที่จะทำ ทางเลือกที่ถูกต้องจากโปรแกรมที่หลากหลายดังกล่าว จะต้องคำนึงถึงประเด็นต่อไปนี้:

  • ก่อนอื่น บริการที่คุณเลือกจะต้องฟรีโดยสมบูรณ์ เกณฑ์นี้เป็นสิ่งสำคัญที่สุด ดังนั้นโปรดตรวจสอบให้แน่ใจว่าไม่มีข้อจำกัดในเรื่องนี้
  • บริการที่เลือกจะต้องสามารถ "เดา" ข้อความเป็นภาษารัสเซียได้ หากไม่มีเกณฑ์นี้ คุณจะไม่สามารถทำให้กระบวนการป้อน captcha เป็นแบบอัตโนมัติได้
  • จำนวน captcha ที่สามารถกำหนดได้โดยอัตโนมัติควรไม่จำกัด

ดูวิดีโอ - วิธีเปิดใช้งาน การรับรู้แคปช่าและผ่านแอนติเกต, rucaptcha, captcha24, captchabot บน DelphiXE5

รายชื่อโปรแกรมฟรีสำหรับการเลี่ยงแคปต์ชาและความแตกต่าง

เรามาเริ่มดูความพร้อมที่มีอยู่กันดีกว่า ตัวเลือกฟรี, ต่อไปในบรรทัด บริการออนไลน์ Google ไดรฟ์- ในการใช้โปรแกรมดังกล่าว คุณจะต้องลงทะเบียน กิจกรรมนี้รอผู้ใช้อยู่ในบริการเกือบทั้งหมดที่มีวัตถุประสงค์คล้ายกัน ในกรณีนั้น. หากคุณเคยสร้างมาก่อน เช่น บล็อกบน blogspot ก็ต้องลงทะเบียนก่อน ในกรณีนี้จะไม่จำเป็น เป็นไปได้ที่นี่ ป้อนข้อมูลอัตโนมัติ แคปต์ชาดังกล่าว: PDF, JPG, PNG และ GIF ควรสังเกตว่าขนาดไฟล์สำหรับการจดจำไม่ควรเกิน 2-3 MB

บริการออนไลน์แปลง OCR ที่นี่ผู้ใช้ไม่จำเป็นต้องลงทะเบียน รูปแบบแคปต์ชาที่รองรับ ได้แก่ JPEG, GIF, BMP ควรสังเกตว่าไฟล์ที่บันทึกอยู่ในรูปแบบของลิงก์ URL ซึ่งมีนามสกุลอยู่ในรูปแบบ TXT ที่นี่ผู้ใช้สามารถอัพโหลดเอกสารได้ 5-7 เอกสารพร้อมกัน

บริการ i2OCR คุณต้องลงทะเบียนก่อนจึงจะจดจำ captcha ได้ สามารถอัพโหลดไฟล์และเอกสารได้พร้อมกันไม่เกิน 10 ไฟล์ การใช้บริการนี้สะดวกและง่ายดาย รูปแบบที่รู้จักคือ: GIF, PBM, PGM, PPM

กิน วิธีการที่แตกต่างกันสำหรับ บายพาสแคปช่าโดยไซต์ใดบ้างที่ได้รับการคุ้มครอง ประการแรกก็มี บริการพิเศษซึ่งใช้แรงงานคนราคาถูกและเสนอให้แก้แคปต์ชา 1,000 รายการในราคา 1 ดอลลาร์อย่างแท้จริง คุณสามารถลองเขียนแทน ระบบอัจฉริยะซึ่งตามอัลกอริธึมบางอย่างจะทำการจดจำด้วยตัวมันเอง ขณะนี้สามารถนำไปใช้งานหลังได้โดยใช้ยูทิลิตี้พิเศษ

แก้แคปช่า

การจดจำ CAPTCHA มักเป็นงานที่ไม่สำคัญ จำเป็นต้องใช้ฟิลเตอร์ต่างๆ มากมายกับภาพเพื่อลบความผิดเพี้ยนและสัญญาณรบกวน ซึ่งนักพัฒนาต้องการใช้เพื่อเพิ่มการป้องกัน บ่อยครั้งมีความจำเป็นที่จะต้องนำระบบการเรียนรู้มาใช้ โครงข่ายประสาทเทียม(วิธีนี้ไม่ยากอย่างที่คิด) เพื่อให้ได้ผลลัพธ์ที่ยอมรับได้ในโซลูชัน captcha แบบอัตโนมัติ เพื่อให้เข้าใจถึงสิ่งที่ฉันกำลังพูดถึง ควรเปิดไฟล์เก็บถาวรและอ่านบทความที่ยอดเยี่ยมเรื่อง “Cracking CAPTCHA: ทฤษฎีและการปฏิบัติ” มาดูกันว่า captchas ใช้งานไม่ได้อย่างไร” และ “มาดูและจดจำกันดีกว่า การแฮ็กตัวกรองแคปต์ชา" จากหมายเลข #135 และ #126 ตามลำดับ วันนี้ฉันอยากจะบอกคุณเกี่ยวกับการพัฒนา TesserCap ซึ่งผู้เขียนเรียกว่าตัวแก้ปัญหา CAPTCHA สากล สิ่งที่อยากรู้อยากเห็นไม่ว่าใครก็ตามจะพูด

ดู TesserCap เป็นครั้งแรก

ผู้เขียนโปรแกรมทำอะไร? เขามองว่าปัญหาของการแก้ไข CAPTCHA แบบอัตโนมัติมักได้รับการตอบสนองอย่างไร และพยายามสรุปประสบการณ์นี้ไว้ในเครื่องมือเดียว ผู้เขียนสังเกตเห็นว่าการลบสัญญาณรบกวนออกจากภาพนั่นคือเพื่อแก้ปัญหาที่ยากที่สุดในการจดจำแคปต์ชานั้นมักใช้ฟิลเตอร์เดียวกันนี้บ่อยที่สุด ปรากฎว่าถ้าคุณปฏิบัติ เครื่องมือที่มีประโยชน์ซึ่งช่วยให้คุณใช้ฟิลเตอร์กับรูปภาพโดยไม่ต้องแปลงทางคณิตศาสตร์ที่ซับซ้อนและเมื่อรวมเข้ากับระบบ OCR สำหรับการรู้จำข้อความคุณจะได้รับโปรแกรมที่ทำงานได้อย่างสมบูรณ์ อันที่จริงนี่คือสิ่งที่ Gursev Singh Kalra จาก McAfee ทำ เหตุใดสิ่งนี้จึงจำเป็น? ผู้เขียนยูทิลิตี้ตัดสินใจตรวจสอบด้วยวิธีนี้ว่า captchas ของทรัพยากรขนาดใหญ่ปลอดภัยเพียงใด สำหรับการทดสอบ เราเลือกเว็บไซต์อินเทอร์เน็ตที่มีผู้เข้าชมมากที่สุดตามบริการสถิติที่มีชื่อเสียง ผู้สมัครเข้าร่วมการทดสอบรวมถึงสัตว์ประหลาดเช่น Wikipedia, eBay และ reCaptcha ผู้ให้บริการแคปต์ชา

ถ้าพิจารณาใน โครงร่างทั่วไปหลักการทำงานของโปรแกรมค่อนข้างง่าย แคปต์ชาดั้งเดิมจะเข้าสู่ระบบประมวลผลล่วงหน้าของรูปภาพ ซึ่งจะล้างแคปต์ชาจากสัญญาณรบกวนและการบิดเบือนใดๆ และถ่ายโอนภาพที่ได้ผ่านสายพานลำเลียงไปยังระบบ OCR ซึ่งจะพยายามจดจำข้อความที่อยู่ในนั้น TesserCap มีอินเทอร์เฟซแบบกราฟิกแบบโต้ตอบและมีคุณสมบัติดังต่อไปนี้:

  1. มีระบบประมวลผลภาพล่วงหน้าแบบสากลที่สามารถกำหนดค่าสำหรับแคปช่าแต่ละรายการได้
  2. รวมกลไกการจดจำ Tesseract ซึ่งแยกข้อความจากรูปภาพ CAPTCHA ที่แยกวิเคราะห์และเตรียมไว้ล่วงหน้า
  3. รองรับการใช้การเข้ารหัสต่างๆ ในระบบการจดจำ

คิด, ความหมายทั่วไปมีความชัดเจนดังนั้นฉันขอแนะนำให้คุณดูว่ามีลักษณะอย่างไร ความเก่งกาจของยูทิลิตี้ไม่สามารถนำไปสู่ความซับซ้อนของอินเทอร์เฟซได้ดังนั้นหน้าต่างโปรแกรมอาจทำให้เกิดอาการมึนงงเล็กน้อย ดังนั้น ก่อนที่จะก้าวไปสู่การจดจำ captcha โดยตรง ฉันขอแนะนำให้คุณทำความเข้าใจอินเทอร์เฟซและฟังก์ชันการทำงานในตัวของมัน


การประมวลผลและการดึงภาพล่วงหน้า
ข้อความจากแคปช่า

เกี่ยวกับ

เราอดไม่ได้ที่จะพูดอย่างน้อยสองสามคำเกี่ยวกับผู้เขียนยูทิลิตี้ TesserCap ที่ยอดเยี่ยม ชื่อของเขาคือ กูร์เชฟ ซิงห์ คาลรา เขาเป็นที่ปรึกษาหลักสำหรับแผนกบริการระดับมืออาชีพของ Foundstone ซึ่งเป็นส่วนหนึ่งของ McAfee Gursev ได้พูดในการประชุมเช่น ToorCon, NullCon และ ClubHack เขาเป็นผู้เขียนเครื่องมือ TesserCap และ SSLSmart นอกจากนี้ เขายังพัฒนาเครื่องมือหลายอย่างสำหรับความต้องการภายในของบริษัท ภาษาโปรแกรมที่ชอบคือ Ruby, Ruby on Rails และ C# แผนกบริการระดับมืออาชีพของ Foundstone® ซึ่งเขาทำงานอยู่ ให้บริการแก่องค์กรต่างๆ ด้วยบริการและการฝึกอบรมจากผู้เชี่ยวชาญ โดยให้บริการอย่างต่อเนื่องและต่อเนื่อง การป้องกันที่มีประสิทธิภาพทรัพย์สินของพวกเขาจากภัยคุกคามที่ร้ายแรงที่สุด ทีมงานบริการระดับมืออาชีพประกอบด้วยผู้เชี่ยวชาญด้านความปลอดภัยและนักพัฒนาที่ได้รับการยอมรับ มีประสบการณ์มากมายในการทำงานร่วมกับองค์กรระหว่างประเทศและหน่วยงานภาครัฐ

อินเทอร์เฟซ แท็บหลัก

หลังจากเปิดตัวโปรแกรม เราจะพบกับหน้าต่างที่มีสามแท็บ: Main, Options, Image Preprocessing แท็บหลักประกอบด้วยตัวควบคุมที่ใช้ในการเริ่มและหยุดการทดสอบรูปภาพ CAPTCHA สร้างสถิติการทดสอบ (จำนวนที่เดาได้และจำนวนที่เดาไม่ได้) นำทางและเลือกรูปภาพสำหรับการประมวลผลล่วงหน้า ฟิลด์อินพุต URL (ตัวควบคุม #1) ต้องมี URL ที่ตรงกับที่แอปพลิเคชันเว็บใช้เพื่อดึงข้อมูล captchas สามารถรับ URL ได้โดยการคลิกทางด้านขวาของรูปภาพ CAPTCHA คัดลอกหรือดูโค้ดของหน้า และแยก URL ออกจากแอตทริบิวต์ src ของแท็กรูปภาพ ..site/common/rateit/captcha.asp? ถัดจากบรรทัดที่อยู่จะมีองค์ประกอบที่ระบุจำนวน captcha ที่ต้องดาวน์โหลดเพื่อการทดสอบ เนื่องจากแอปพลิเคชันสามารถแสดงภาพได้ครั้งละ 12 ภาพเท่านั้น จึงมีการควบคุมสำหรับการเรียกดู captchas ที่ดาวน์โหลดแบบหน้าต่อหน้า ดังนั้น ในระหว่างการทดสอบขนาดใหญ่ เราจะสามารถเลื่อนดูแคปต์ชาที่ดาวน์โหลดมา และดูผลลัพธ์ของการจดจำได้ ปุ่มเริ่มและหยุดเริ่มและหยุดการทดสอบตามลำดับ หลังการทดสอบ คุณจะต้องประเมินผลการจดจำรูปภาพ โดยทำเครื่องหมายว่าแต่ละผลถูกต้องหรือไม่ถูกต้อง ฟังก์ชั่นสุดท้ายที่สำคัญที่สุดทำหน้าที่ในการถ่ายโอนภาพใด ๆ ไปยังระบบประมวลผลล่วงหน้าซึ่งมีการตั้งค่าตัวกรองที่จะกำจัดสัญญาณรบกวนและการบิดเบือนออกจากภาพ หากต้องการถ่ายโอนภาพไปยังระบบประมวลผลล่วงหน้า คุณต้องคลิกขวาที่ภาพที่ต้องการแล้ว เมนูบริบทเลือกส่งไปยังตัวประมวลผลล่วงหน้ารูปภาพ

อินเทอร์เฟซ แท็บตัวเลือก

แท็บตัวเลือกประกอบด้วย องค์ประกอบต่างๆควบคุมเพื่อกำหนดค่า TesserCap ที่นี่คุณสามารถเลือกระบบ OCR ตั้งค่าพารามิเตอร์เว็บพร็อกซี เปิดใช้งานการเปลี่ยนเส้นทางรูปภาพและการประมวลผลล่วงหน้า เพิ่มส่วนหัว HTTP ที่กำหนดเอง และยังระบุช่วงของอักขระสำหรับระบบการจดจำ: ตัวเลข ตัวอักษรตัวพิมพ์เล็ก ตัวอักษรใน ตัวพิมพ์ใหญ่, อักขระพิเศษ

ตอนนี้เกี่ยวกับแต่ละตัวเลือกโดยละเอียด ก่อนอื่น คุณสามารถเลือกระบบ OCR ได้ ตามค่าเริ่มต้น จะมีเพียงรายการเดียวเท่านั้น - Tesseract-ORC ดังนั้นคุณจึงไม่ต้องกังวลกับตัวเลือกที่นี่ อีกมาก โอกาสที่น่าสนใจโปรแกรม - การเลือกช่วงของอักขระ ยกตัวอย่างเช่น captcha จากไซต์ - เห็นได้ชัดว่าไม่มีตัวอักษรตัวเดียว แต่ประกอบด้วยตัวเลขเท่านั้น แล้วเหตุใดเราจึงต้องมีสัญลักษณ์พิเศษที่จะเพิ่มความน่าจะเป็นเท่านั้น การรับรู้ที่ไม่ถูกต้อง- แต่ถ้าคุณเลือกตัวพิมพ์ใหญ่ล่ะ? โปรแกรมจะสามารถจดจำ captcha ที่ประกอบด้วย ตัวพิมพ์ใหญ่มีภาษาอะไรบ้าง? ไม่ เขาทำไม่ได้ โปรแกรมจะนำรายการอักขระที่ใช้ในการจดจำมา ไฟล์การกำหนดค่าซึ่งอยู่ใน \Program Files\Foundstone Free Tools\TesserCap 1.0\tessdata\configs ให้ฉันอธิบายด้วยตัวอย่าง: ถ้าเราเลือกตัวเลือกตัวเลขและตัวพิมพ์เล็ก โปรแกรมจะเข้าถึงไฟล์ตัวเลขที่ต่ำกว่า โดยเริ่มจากพารามิเตอร์ tessedit ถ่านรายการที่อนุญาต ตามด้วยรายการอักขระที่จะใช้ในการแก้แคปช่า ตามค่าเริ่มต้น ไฟล์จะมีเฉพาะตัวอักษรเท่านั้น ตัวอักษรละตินดังนั้นเพื่อให้สามารถจดจำตัวอักษรซีริลลิกได้ คุณจะต้องแทนที่หรือเสริมรายการอักขระ

ตอนนี้เล็กน้อยเกี่ยวกับสิ่งที่จำเป็นต้องใช้ฟิลด์ Http Request Headers ตัวอย่างเช่น ในบางเว็บไซต์ คุณต้องเข้าสู่ระบบจึงจะเห็นแคปช่า เพื่อให้ TesserCap เข้าถึง captcha ได้ จะต้องส่งโปรแกรมไปที่ คำขอ HTTPส่วนหัวเช่น Accept, Cookie และ Referrer เป็นต้น การใช้เว็บพร็อกซี (Fiddler, Burp, Charles, WebScarab, Paros ฯลฯ) คุณสามารถสกัดกั้นส่วนหัวคำขอที่ถูกส่งและป้อนลงในช่องอินพุตส่วนหัวคำขอ Http อีกตัวเลือกหนึ่งที่จะมีประโยชน์อย่างแน่นอนคือติดตามการเปลี่ยนเส้นทาง ประเด็นก็คือ TesserCap ไม่ติดตามการเปลี่ยนเส้นทางตามค่าเริ่มต้น หาก URL ทดสอบต้องตามการเปลี่ยนเส้นทางเพื่อรับรูปภาพ คุณต้องเลือกตัวเลือกนี้

เหลืออีกหนึ่งตัวเลือกสุดท้ายคือ เปิด/ปิดการใช้งานกลไกการประมวลผลล่วงหน้าของภาพ ซึ่งเราจะพิจารณาต่อไป ตามค่าเริ่มต้น การประมวลผลภาพล่วงหน้าจะถูกปิดใช้งาน ขั้นแรกผู้ใช้กำหนดค่าตัวกรองก่อนการประมวลผลรูปภาพตามรูปภาพ CAPTCHA ที่กำลังทดสอบ จากนั้นจึงเปิดใช้งานโมดูลนี้ รูปภาพ CAPTCHA ทั้งหมดที่โหลดหลังจากเปิดใช้งานตัวเลือก เปิดใช้งานการประมวลผลภาพล่วงหน้า จะได้รับการประมวลผลล่วงหน้า จากนั้นจะส่งไปยังระบบ Tesseract OCR เพื่อแยกข้อความ

อินเทอร์เฟซ แท็บการประมวลผลภาพล่วงหน้า

เรามาถึงแท็บที่น่าสนใจที่สุดแล้ว นี่คือที่ที่มีการกำหนดค่าตัวกรองเพื่อลบสัญญาณรบกวนและความพร่ามัวต่างๆ ออกจากแคปต์ชา ซึ่งพยายามทำให้งานของระบบการจดจำมีความซับซ้อนมากที่สุด กระบวนการตั้งค่าตัวกรองสากลนั้นง่ายมากและประกอบด้วยเก้าขั้นตอน ในแต่ละขั้นตอนของการประมวลผลภาพล่วงหน้า การเปลี่ยนแปลงของภาพจะปรากฏขึ้น นอกจากนี้ หน้านี้ยังมีองค์ประกอบการตรวจสอบที่ช่วยให้คุณประเมินความถูกต้องของการรับรู้แคปต์ชาเมื่อใช้ตัวกรอง มาดูรายละเอียดแต่ละขั้นตอนกัน

ขั้นตอนที่ 1 การกลับสี

ในขั้นตอนนี้ สีพิกเซลสำหรับภาพ CAPTCHA จะถูกกลับด้าน รหัสด้านล่างแสดงให้เห็นว่าสิ่งนี้เกิดขึ้นได้อย่างไร:

สำหรับ (แต่ละพิกเซลใน CAPTCHA) ( ถ้า (invertRed เป็นจริง) สีแดงใหม่ = 255 – สีแดงปัจจุบัน ถ้า (invertBlue เป็นจริง) สีน้ำเงินใหม่ = 255 – สีน้ำเงินปัจจุบัน ถ้า (invertGreen เป็นจริง) สีเขียวใหม่ = 255 – สีเขียวปัจจุบัน)

การกลับสีตั้งแต่หนึ่งสีขึ้นไปมักจะเปิดโอกาสใหม่ในการตรวจสอบความถูกต้องของภาพ CAPTCHA ที่กำลังทดสอบ

ขั้นตอนที่ 2 การเปลี่ยนสี

บน ขั้นตอนนี้คุณสามารถเปลี่ยนส่วนประกอบสีสำหรับพิกเซลทั้งหมดในรูปภาพได้ แต่ละฟิลด์ตัวเลขสามารถมีค่าที่เป็นไปได้ 257 (−1 ถึง 255) สำหรับส่วนประกอบ RGB ของแต่ละพิกเซล การดำเนินการต่อไปนี้จะขึ้นอยู่กับค่าในช่อง:

  1. หากค่าเป็น -1 ส่วนประกอบสีที่เกี่ยวข้องจะไม่เปลี่ยนแปลง
  2. หากค่าไม่ใช่ -1 ส่วนประกอบที่พบทั้งหมดของสีที่ระบุ (แดง เขียว หรือน้ำเงิน) จะเปลี่ยนไปตามค่าที่ป้อนในฟิลด์ ค่า 0 จะลบส่วนประกอบออก ค่า 255 จะกำหนดความเข้มสูงสุด ฯลฯ

ขั้นตอนที่ 3: ระดับสีเทา (ระดับสีเทา)

ในขั้นตอนที่สาม ภาพทั้งหมดจะถูกแปลงเป็นภาพระดับสีเทา นี่เป็นขั้นตอนบังคับเพียงขั้นตอนเดียวในการแปลงรูปภาพที่ไม่สามารถข้ามได้ ขึ้นอยู่กับปุ่มที่เลือก จะดำเนินการอย่างใดอย่างหนึ่งต่อไปนี้: ขั้นตอนต่อไปที่เกี่ยวข้องกับองค์ประกอบสีของแต่ละพิกเซล:

  1. เฉลี่ย -> (แดง + เขียว + น้ำเงิน)/3
  2. มนุษย์ -> (0.21 * แดง + 0.71 * เขียว + 0.07 * น้ำเงิน)
  3. ค่าเฉลี่ยขององค์ประกอบสีขั้นต่ำและสูงสุด -> (ขั้นต่ำ (แดง + เขียว + น้ำเงิน) + สูงสุด (แดง + เขียว + น้ำเงิน))/2
  4. ขั้นต่ำ -> ขั้นต่ำ (แดง + เขียว + น้ำเงิน)
  5. สูงสุด -> สูงสุด (แดง + เขียว + น้ำเงิน)

ขึ้นอยู่กับความเข้มและการกระจายขององค์ประกอบสีของ CAPTCHA ฟิลเตอร์ใดๆ เหล่านี้สามารถปรับปรุงภาพที่แยกออกมาเพื่อการประมวลผลต่อไปได้


ขั้นตอนที่ 4: ปรับให้เรียบและลับคม

เพื่อให้แยกข้อความจากภาพ CAPTCHA ได้ยากขึ้น จึงเพิ่มสัญญาณรบกวนในรูปแบบของจุดพิกเซลเดียวและหลายพิกเซล เส้นที่ไม่เกี่ยวข้อง และการบิดเบี้ยวเชิงพื้นที่ เมื่อภาพถูกปรับให้เรียบ สัญญาณรบกวนแบบสุ่มจะเพิ่มขึ้น ซึ่งจะถูกลบออกโดยใช้ฟิลเตอร์ Bucket หรือ Cutoff ในฟิลด์ Passes numeric คุณควรระบุจำนวนครั้งที่คุณต้องใช้มาสก์รูปภาพที่เกี่ยวข้องก่อนที่จะไปยังขั้นตอนถัดไป มาดูส่วนประกอบของฟิลเตอร์ป้องกันนามแฝงและความคมชัดกัน มีมาสก์รูปภาพสองประเภท:

  1. แก้ไขหน้ากาก ตามค่าเริ่มต้น TesserCap มีมาสก์รูปภาพยอดนิยมหกแบบ มาสก์เหล่านี้สามารถทำให้ภาพเรียบหรือคมชัดขึ้น (การแปลง Laplace) การเปลี่ยนแปลงจะปรากฏขึ้นทันทีหลังจากเลือกมาสก์โดยใช้ปุ่มที่เกี่ยวข้อง
  2. มาสก์รูปภาพที่กำหนดเอง ผู้ใช้ยังสามารถตั้งค่ามาสก์การประมวลผลภาพแบบกำหนดเองได้โดยการป้อนค่าในช่องตัวเลขแล้วคลิกปุ่มบันทึกมาสก์ หากผลรวมของสัมประสิทธิ์ในหน้าต่างเหล่านี้น้อยกว่าศูนย์ จะเกิดข้อผิดพลาดขึ้นและไม่ได้ใช้มาสก์ หากคุณเลือกมาสก์แบบคงที่ คุณไม่จำเป็นต้องใช้ปุ่มบันทึกมาสก์

ขั้นตอนที่ 5 แนะนำเฉดสีเทา

ในขั้นตอนของการประมวลผลภาพนี้ พิกเซลสามารถใส่สีได้ หลากหลายเฉดสีเทา ตัวกรองนี้แสดงการกระจายระดับสีเทาของ 20 ที่เก็บข้อมูล/ช่วง เปอร์เซ็นต์ของพิกเซลที่เป็นเฉดสีเทาในช่วงตั้งแต่ 0 ถึง 12 ระบุไว้ในที่เก็บข้อมูล 0 เปอร์เซ็นต์ของพิกเซลที่เป็นเฉดสีเทาในช่วงตั้งแต่ 13 ถึง 25 จะถูกระบุในที่เก็บข้อมูล 1 เป็นต้น ผู้ใช้สามารถเลือกได้ รายการใดรายการหนึ่งต่อไปนี้สำหรับแต่ละช่วงค่าระดับสีเทา:

  1. ปล่อยให้เป็นไปตามที่เป็นอยู่
  2. แทนที่ด้วยสีขาว
  3. แทนที่ด้วยสีดำ

ด้วยตัวเลือกเหล่านี้ คุณสามารถควบคุมได้ ช่วงที่แตกต่างกันเฉดสีเทา และยังลด/ขจัดจุดรบกวนด้วยการเปลี่ยนเฉดสีเทาเป็นสีขาวหรือสีดำ

ขั้นตอนที่ 6 การตั้งค่าจุดตัด

ตัวกรองนี้จะพล็อตการขึ้นต่อกันของค่าระดับสีเทากับความถี่ที่เกิดขึ้น และแจ้งให้คุณเลือกจุดตัด หลักการทำงานของตัวกรองการตัดแสดงไว้ด้านล่างในรหัสเทียม:

ถ้า (ค่าระดับสีเทาของพิกเซล<= Cutoff) pixel grayscale value = (0 OR 255) ->ขึ้นอยู่กับตัวเลือกที่เลือก (<= или =>: ตั้งค่าทุก Pixel ด้วยค่า<=/=>เกณฑ์เป็น 0 เหลือเป็น 255)

กราฟแสดงการกระจายรายละเอียดของพิกเซล CAPTCHA ตามสี และช่วยขจัดสัญญาณรบกวนโดยใช้การตัดระดับสีเทา

ขั้นตอนที่ 7: การสับ

หลังจากใช้การปรับให้เรียบ การตัดภาพ บัคเก็ต และฟิลเตอร์อื่นๆ รูปภาพ CAPTCHA อาจยังคงมีสัญญาณรบกวนด้วยจุดพิกเซลเดียวหรือหลายพิกเซล เส้นที่หลงทาง และสิ่งแปลกปลอมเชิงพื้นที่ หลักการของตัวกรองการตัดคลิปมีดังนี้: หากจำนวนพิกเซลที่อยู่ติดกันซึ่งมีสีในเฉดสีเทาที่กำหนดน้อยกว่าค่าในฟิลด์ตัวเลข ตัวกรองการตัดคลิปจะกำหนดค่าเป็น 0 (สีดำ) หรือ 255 (สีขาว) ตามที่ผู้ใช้เลือก ในกรณีนี้ CAPTCHA จะถูกวิเคราะห์ทั้งแนวนอนและแนวตั้ง

ขั้นตอนที่ 8: การเปลี่ยนความกว้างของเส้นขอบ

ตามที่ผู้เขียนยูทิลิตี้กล่าวไว้ ในระหว่างการวิจัยเบื้องต้นและพัฒนา TesserCap เขาตั้งข้อสังเกตซ้ำ ๆ ว่าเมื่อภาพ CAPTCHA มีเส้นขอบหนาและสีของภาพแตกต่างจากพื้นหลัง CAPTCHA หลัก ระบบ OCR บางระบบจะไม่สามารถจดจำข้อความได้ ตัวกรองนี้ออกแบบมาสำหรับการประมวลผลเส้นเขตแดนและการเปลี่ยนแปลง เส้นขอบเขตที่มีความกว้างที่ระบุในช่องตัวเลขจะเป็นสีดำหรือสีขาวตามที่ผู้ใช้เลือก

ขั้นตอนที่ 9: การผกผันสีเทา

ตัวกรองนี้จะผ่านแต่ละพิกเซลและแทนที่ค่าระดับสีเทาด้วยค่าใหม่ ดังที่แสดงในรหัสเทียมด้านล่าง การกลับสีเทาจะดำเนินการเพื่อให้พอดีกับภาพ การตั้งค่าสีระบบโอซีอาร์

สำหรับ (แต่ละพิกเซลใน CAPTCHA) ค่าระดับสีเทาใหม่ = 255 – ค่าระดับสีเทาปัจจุบัน

ขั้นตอนที่ 10: ตรวจสอบการจดจำ captcha

เป้า ขั้นตอนนี้- ถ่ายโอนภาพ CAPTCHA ที่ประมวลผลล่วงหน้าไปยังระบบ OCR เพื่อการจดจำ ปุ่ม Solve จะนำรูปภาพหลังจากตัวกรองการกลับกันระดับสีเทา ส่งไปยังระบบ OCR เพื่อแยกข้อความ และแสดงข้อความที่ส่งคืนใน อินเตอร์เฟซแบบกราฟิก- หากข้อความที่รู้จักตรงกับข้อความใน captcha แสดงว่าเราได้ตั้งค่าตัวกรองสำหรับการประมวลผลล่วงหน้าอย่างถูกต้องแล้ว ตอนนี้คุณสามารถไปที่แท็บตัวเลือกและเปิดใช้งานตัวเลือกเปิดใช้งานการประมวลผลภาพล่วงหน้าเพื่อประมวลผล captchas ที่ดาวน์โหลดมาทั้งหมด

รู้จักแคปต์ชา

บางทีเราได้พิจารณาตัวเลือกทั้งหมดของยูทิลิตี้นี้แล้ว และตอนนี้ เป็นการดีที่จะทดสอบความแข็งแกร่งของ captcha..


ผลการวิเคราะห์เว็บไซต์ captcha เบื้องต้น
การประมวลผลภาพ ตัดสินจากผลการกรอง
หามันไม่เจอ

เรามาเปิดยูทิลิตี้แล้วไปที่เว็บไซต์ของนิตยสาร เราเห็นรายการข่าวล่าสุด ไปที่ข่าวแรกที่เราเจอ และเลื่อนไปยังตำแหน่งที่คุณสามารถแสดงความคิดเห็นได้ ใช่ การเพิ่มความคิดเห็นไม่ใช่เรื่องง่าย (แน่นอน ไม่เช่นนั้นพวกเขาจะสแปมทุกอย่างไปนานแล้ว) - คุณต้องป้อน captcha เรามาตรวจสอบว่าสิ่งนี้สามารถเป็นแบบอัตโนมัติได้หรือไม่ คัดลอก URL ของภาพและวางลงใน แถบที่อยู่เทสเซอร์แคป. เราระบุว่าคุณต้องดาวน์โหลดแคปต์ชา 12 อันแล้วคลิกเริ่ม โปรแกรมโหลดรูปภาพ 12 รูปอย่างเชื่อฟังและพยายามจดจำรูปภาพเหล่านั้น น่าเสียดายที่ captcha ทั้งหมดไม่ได้รับการยอมรับ โดยมีหลักฐานจากคำจารึกว่า -ล้มเหลว- ข้างใต้นั้น หรือได้รับการยอมรับอย่างไม่ถูกต้อง โดยทั่วไปแล้วก็ไม่น่าแปลกใจเพราะว่า เสียงภายนอกและการบิดเบือนก็ไม่ถูกลบออก นี่คือสิ่งที่เราจะทำตอนนี้ คลิกขวาที่หนึ่งใน 12 ภาพที่โหลดแล้วส่งไปยังระบบประมวลผลล่วงหน้า (Send To Image Preprocessor) หลังจากตรวจสอบแคปต์ชาทั้ง 12 รายการอย่างละเอียดแล้ว เราพบว่ามีเพียงตัวเลขเท่านั้น เราจึงไปที่แท็บตัวเลือกและระบุว่าต้องจดจำเฉพาะตัวเลขเท่านั้น (ชุดอักขระ = ตัวเลข) ตอนนี้คุณสามารถไปที่แท็บการประมวลผลภาพล่วงหน้าเพื่อกำหนดค่าตัวกรอง ฉันจะบอกทันทีว่าหลังจากเล่นกับฟิลเตอร์สามตัวแรก ("การกลับสี", "การเปลี่ยนสี", "การไล่ระดับสีเทา") ฉันไม่เห็นผลเชิงบวกใด ๆ ดังนั้นฉันจึงทิ้งทุกอย่างไว้ที่นั่นตามค่าเริ่มต้น ฉันเลือก Smooth Mask 2 และกำหนดจำนวนรอบการพิมพ์เป็นหนึ่งรอบ ฉันข้ามตัวกรองกลุ่มโทนสีเทาและตรงไปที่การตั้งค่าการตัดภาพ ฉันเลือกค่า 154 และระบุว่าพิกเซลที่เล็กกว่าควรตั้งค่าเป็น 0 และพิกเซลที่ใหญ่กว่าควรตั้งค่าเป็น 255 เพื่อกำจัดพิกเซลที่เหลือ ฉันเปิดใช้งานการสับและเปลี่ยนความกว้างของเส้นขอบเป็น 10 ที่นั่น ไม่มีประโยชน์ที่จะเปิดใช้งานตัวกรองสุดท้าย ดังนั้นฉันจึงคลิกที่ Solve ทันที

ใน captcha ฉันมีหมายเลข 714945 แต่โปรแกรมจำได้ว่าเป็น 711435 อย่างที่คุณเห็นนี้ไม่ถูกต้องโดยสิ้นเชิง ในท้ายที่สุด ไม่ว่าฉันพยายามแค่ไหน ฉันก็ไม่สามารถจดจำแคปช่าได้อย่างเหมาะสม ฉันต้องทดลองกับ pastebin.com ซึ่งฉันสามารถจดจำได้โดยไม่มีปัญหาใดๆ แต่ถ้าคุณขยันและอดทนมากขึ้นและจัดการเพื่อให้ captchas จดจำได้อย่างถูกต้องจากไซต์ ให้ไปที่แท็บตัวเลือกทันทีแล้วเปิดเปิดใช้งานการประมวลผลภาพล่วงหน้า จากนั้นไปที่ Main และคลิกที่ Start เพื่อดาวน์โหลด captcha ชุดใหม่ ซึ่งขณะนี้ตัวกรองของคุณจะถูกประมวลผลล่วงหน้า หลังจากที่โปรแกรมทำงาน ให้ทำเครื่องหมายที่ปุ่ม captcha ที่รู้จักอย่างถูกต้อง/ไม่ถูกต้อง (ปุ่มทำเครื่องหมายว่าถูกต้อง/ทำเครื่องหมายว่าไม่ถูกต้อง) จากนี้ไป คุณสามารถดูสถิติสรุปเกี่ยวกับการรับรู้ได้โดยใช้แสดงสถิติ โดยทั่วไป นี่เป็นรายงานประเภทหนึ่งเกี่ยวกับความปลอดภัยของ CAPTCHA โดยเฉพาะ หากมีคำถามเกี่ยวกับการเลือกวิธีแก้ปัญหาอย่างใดอย่างหนึ่ง ด้วยความช่วยเหลือของ TesserCap ก็ค่อนข้างเป็นไปได้ที่จะทำการทดสอบของคุณเอง

ผลการตรวจสอบ CAPTCHA บนไซต์ยอดนิยม

เว็บไซต์และเปอร์เซ็นต์ของแคปต์ชาที่รู้จัก:

  • วิกิพีเดีย > 20–30%
  • อีเบย์ > 20–30%
  • Reddit.com > 20–30%
  • ซีเอ็นบีซี > 50%
  • foodnetwork.com > 80–90%
  • dailymail.co.uk > 30%
  • megaupload.com > 80%
  • pastebin.com > 70–80%
  • Cavenue.com > 80%

บทสรุป

ภาพ CAPTCHA เป็นหนึ่งในภาพที่มีมากที่สุด กลไกที่มีประสิทธิภาพเพื่อปกป้องเว็บแอปพลิเคชันจากการกรอกแบบฟอร์มอัตโนมัติ อย่างไรก็ตาม captcha ที่อ่อนแอจะสามารถป้องกันโรบ็อตแบบสุ่มได้ และจะไม่ต่อต้านความพยายามที่เป็นเป้าหมายในการแก้ปัญหาเหล่านั้น เช่นเดียวกับอัลกอริธึมการเข้ารหัส รูปภาพ CAPTCHA ได้รับการทดสอบและจัดเตรียมอย่างละเอียด ระดับสูงความปลอดภัยเป็นที่สุด วิธีที่ดีที่สุดการป้องกัน จากสถิติที่ได้รับจากผู้เขียนโปรแกรม ฉันเลือก reCaptcha สำหรับโปรเจ็กต์ของฉันและจะแนะนำให้เพื่อน ๆ ทุกคนรู้จัก - มันกลายเป็นว่าทนทานที่สุดในบรรดาผู้ทดสอบ ไม่ว่าในกรณีใด อย่าลืมว่ามีบริการมากมายบนอินเทอร์เน็ตที่นำเสนอโซลูชัน CAPTCHA แบบกึ่งอัตโนมัติ คุณส่งรูปภาพไปยังบริการผ่าน API พิเศษ และหลังจากนั้นไม่นาน รูปภาพก็จะส่งคืนโซลูชัน แก้แคปช่า คนจริง(เช่นจากประเทศจีน) ได้เงินค่อนข้างน้อย ที่นี่ไม่มีการป้องกันอีกต่อไป