Trang web tương tự hiển thị thử thách reCAPTCHA bằng tiếng Anh cho một khách truy cập và bằng tiếng Nhật cho một khách truy cập khác. Tiện ích Cloudflare Turnstile hiển thị văn bản tải của nó bằng ngôn ngữ của trình duyệt. Một số trang web cung cấp các loại CAPTCHA hoàn toàn khác nhau dựa trên khu vực được phát hiện của khách truy cập. Hiểu cách bản địa hóa ảnh hưởng đến CAPTCHA sẽ giúp bạn xử lý chúng một cách chính xác trong tự động hóa.
Những thay đổi với ngôn ngữ
| Nhà cung cấp CAPTCHA | Bản địa hóa cái gì | Những gì vẫn giữ nguyên |
|---|---|---|
| reCAPTCHA | Văn bản giao diện người dùng, nhãn hình ảnh, ngôn ngữ âm thanh | Khóa trang web, quy trình xác minh, định dạng mã thông báo |
| Cloudflare Turnstile | Văn bản widget và thông báo lỗi | Sitekey, định dạng mã thông báo, cơ chế giải quyết |
| hCaptcha | Hướng dẫn thử thách, nhãn danh mục | Sitekey, định dạng mã thông báo |
| Hình ảnh/OCR | Bộ ký tự, ngôn ngữ của văn bản | Định dạng hình ảnh, gửi luồng/poll |
Cách phát hiện ngôn ngữ
Nhà cung cấp CAPTCHA xác định ngôn ngữ thông qua một số tín hiệu:
1. Tiêu đề ngôn ngữ chấp nhận
Accept-Language: ja-JP,ja;q=0.9,en-US;q=0.8,en;q=0.7
Điều này cho máy chủ biết: thích tiếng Nhật (Nhật Bản), sau đó là tiếng Anh (Mỹ), sau đó là tiếng Anh chung. reCAPTCHA và Turnstile sử dụng tính năng này để chọn ngôn ngữ giao diện người dùng.
2. Tham số hl HTML
reCAPTCHA chấp nhận tham số ngôn ngữ rõ ràng khi được tải:
<!-- Force English reCAPTCHA -->
<script src="https://www.google.com/recaptcha/api.js?hl=en"></script>
<!-- Force Japanese -->
<script src="https://www.google.com/recaptcha/api.js?hl=ja"></script>
Tham số hl ghi đè tiêu đề Ngôn ngữ chấp nhận. Khi giải, bạn không cần phải khớp điều này - CaptchaAI trả về mã thông báo bất kể ngôn ngữ giao diện người dùng.
3. Vị trí địa lý IP
Một số cấu hình CAPTCHA khác nhau tùy theo khu vực:
| tín hiệu | Hiệu ứng |
|---|---|
| IP từ Trung Quốc | Có thể tải GeeTest thay vì reCAPTCHA (reCAPTCHA bị chặn ở Trung Quốc) |
| IP từ EU | Có thể thấy sự đồng ý theo GDPR trước CAPTCHA |
| IP từ vùng bị hạn chế | Có thể nhận được những thử thách khắt khe hơn |
4. Trình duyệt navigator.language
CAPTCHA dựa trên JavaScript đọc ngôn ngữ của trình duyệt:
navigator.language // "en-US"
navigator.languages // ["en-US", "en", "ja"]
Trong các trình duyệt không có đầu, các trình duyệt này mặc định là ngôn ngữ hệ thống. Đặt chúng một cách rõ ràng để phù hợp với mục tiêu của bạn:
// Playwright
const context = await browser.newContext({
locale: 'ja-JP',
});
// Puppeteer
const page = await browser.newPage();
await page.setExtraHTTPHeaders({
'Accept-Language': 'ja-JP,ja;q=0.9',
});
Tác động đến việc giải quyết
CAPTCHA dựa trên mã thông báo (reCAPTCHA, Turnstile, hCaptcha)
Cài đặt ngôn ngữ ảnh hưởng đến UI nhưng không ảnh hưởng đến mã thông báo. Quá trình giải quyết của CaptchaAI không phụ thuộc vào ngôn ngữ:
- Gửi khóa trang web và URL trang
- CaptchaAI trả về mã thông báo hợp lệ
- Mã thông báo hoạt động bất kể tiện ích CAPTCHA hiển thị ngôn ngữ nào
Không cần tham số ngôn ngữ khi gọi CaptchaAI cho CAPTCHA dựa trên mã thông báo.
CAPTCHA hình ảnh
Ngôn ngữ ảnh hưởng trực tiếp đến nhân vật trong ảnh:
| Ngôn ngữ trang web | nội dung CAPTCHA | Thông số ngôn ngữ CaptchaAI |
|---|---|---|
| Tiếng Anh | "Nhập nội dung: XKCD42" | 0 (mặc định/Latin) |
| tiếng Nga | "Введите текст: ШКАФ" | 1 (chữ Cyrillic) hoặc 2 |
| Tiếng Trung | "请输入验证码: 汉字" | 2 (không phải tiếng Latinh) |
| tiếng Ả Rập | "أدخل النص: عربي" | 2 (không phải tiếng Latinh) |
| tiếng Nhật | "文字を入力: ひらがな" | 2 (không phải tiếng Latinh) |
CAPTCHA âm thanh
Các thử thách âm thanh reCAPTCHA được nói bằng ngôn ngữ khớp với tham số hl hoặc tiêu đề Ngôn ngữ chấp nhận. CaptchaAI xử lý những vấn đề này thông qua quy trình giải reCAPTCHA tiêu chuẩn — phương pháp giải không phụ thuộc vào ngôn ngữ âm thanh.
Các vấn đề bản địa hóa phổ biến
Ngôn ngữ không khớp giữa Scraper và Target
Nếu trình quét của bạn gửi Accept-Language: en-US đến một trang web tiếng Nhật, CAPTCHA có thể hiển thị bằng tiếng Anh — điều này phù hợp với CAPTCHA dựa trên mã thông báo nhưng có thể gây ra sự cố nếu trang web xác thực tính nhất quán của ngôn ngữ.
Sự khác biệt giữa các nhà cung cấp CAPTCHA theo khu vực
Một số quốc gia sử dụng các nhà cung cấp CAPTCHA khác nhau:
| Vùng | Nhà cung cấp tiêu biểu |
|---|---|
| Chợ miền Tây | reCAPTCHA, Cloudflare Turnstile, hCaptcha |
| Trung Quốc | GeeTest, Tencent CAPTCHA, hình ảnh tùy chỉnh |
| Nga/CIS | CAPTCHA hình ảnh tùy chỉnh, reCAPTCHA |
| Hàn Quốc | Thanh trượt tùy chỉnh, hình ảnh CAPTCHA |
Khắc phục sự cố
| Vấn đề | Nguyên nhân | Cách xử lý |
|---|---|---|
| reCAPTCHA hiển thị ngôn ngữ khác với dự kiến | Tham số hl trong thẻ tập lệnh so với Ngôn ngữ chấp nhận không khớp |
Mã thông báo không phụ thuộc vào ngôn ngữ - không ảnh hưởng đến việc giải quyết |
| Hình ảnh CAPTCHA đã nhận dạng được các ký tự sai | Thông số ngôn ngữ không khớp với tập lệnh CAPTCHA | Đặt language=2 cho CAPTCHA không phải tiếng Latinh |
| Trang web phục vụ loại CAPTCHA khác nhau theo vùng | Lựa chọn nhà cung cấp dựa trên Geo-IP | Sử dụng proxy phù hợp với khu vực mục tiêu |
| Trình duyệt headless hiển thị sai ngôn ngữ | Ngôn ngữ hệ thống mặc định được sử dụng | Đặt ngôn ngữ rõ ràng trong ngữ cảnh trình duyệt |
| CAPTCHA âm thanh bằng ngôn ngữ không mong muốn | Tiêu đề ghi đè tham số hl |
Không ảnh hưởng đến việc giải quyết dựa trên mã thông báo CaptchaAI |
Câu hỏi thường gặp
CaptchaAI có cần biết ngôn ngữ hiển thị của CAPTCHA không?
Đối với CAPTCHA dựa trên mã thông báo (reCAPTCHA, Turnstile, hCaptcha), không. Quá trình giải quyết không phụ thuộc vào ngôn ngữ. Đối với Image/OCR CAPTCHA, có - đặt tham số language để khớp với bộ ký tự hiển thị trong hình ảnh.
Tôi có nên khớp tiêu đề Ngôn ngữ chấp nhận của mình với trang đích không?
Đó là thực hành tốt cho sự nhất quán. Một số trang web kiểm tra sự không khớp về ngôn ngữ giữa tiêu đề và các tín hiệu khác. Đặt tiêu đề Ngôn ngữ chấp nhận của bạn khớp với ngôn ngữ chính của trang web để giảm thiểu rủi ro bị phát hiện.
Cùng một khóa trang web có thể hiển thị độ khó CAPTCHA khác nhau theo ngôn ngữ không?
Vâng. Các nhà cung cấp CAPTCHA có thể điều chỉnh độ khó dựa trên điểm rủi ro khu vực. Lưu lượng truy cập từ các khu vực nhất định có thể phải đối mặt với những thách thức khó khăn hơn. Điều này không ảnh hưởng đến việc giải quyết CaptchaAI — API xử lý mọi thách thức ở mọi độ khó.
Các bước tiếp theo
Xử lý CAPTCHA ở bất kỳ ngôn ngữ nào —lấy khóa API CaptchaAI của bạnvà cấu hình cài đặt ngôn ngữ một cách chính xác.
Hướng dẫn liên quan:
- Bộ ký tự CAPTCHA hình ảnh đa ngôn ngữ
- Giải CAPTCHA trên các trang web Trung Quốc
- Giải CAPTCHA trên các trang web của Nhật Bản và Hàn Quốc