Google Google अनुवाद API को अपने Google क्लाउड के भाग के रूप में उपयोग-आधारित लागत संरचना प्रदान करता है। एक अनकम्फर्टेड एपीआई भी है जिसे बिना चाबी के इस्तेमाल किया जा सकता है, लेकिन जो थोड़े से अनुरोध के बाद काम करने से मना कर देता है। Google Chrome के वेबसाइट अनुवाद फ़ंक्शन का उपयोग करते समय, यह ध्यान देने योग्य है कि पृष्ठों को किसी भी ध्यान देने योग्य सीमा के बिना बहुत अच्छी गुणवत्ता में अनुवाद किया जा सकता है।
जाहिरा तौर पर उन्नत एनएमटी मॉडल पहले से ही यहां इस्तेमाल किया जा रहा है। लेकिन सामग्री का अनुवाद करने के लिए Google Chrome आंतरिक रूप से किस API का उपयोग करता है और क्या इस API को सर्वर पर भी - सीधे संबोधित किया जा सकता है? नेटवर्क ट्रैफ़िक का विश्लेषण करने के लिए, Wireshark या Telerik Fiddler जैसे उपकरण, जो एन्क्रिप्टेड ट्रैफ़िक का विश्लेषण भी कर सकते हैं, की सिफारिश की जाती है। लेकिन Chrome उन अनुरोधों को भी वितरित करता है जो इसे पृष्ठ अनुवाद के लिए नि: शुल्क भेजते हैं : क्रोम देवटूल का उपयोग करके उन्हें आसानी से देखा जा सकता है:
यदि आप एक अनुवाद करते हैं, तो https://translate.googleapis.com के माध्यम से "PO> कॉपी के रूप में cURL (bash)" के माध्यम से महत्वपूर्ण पोस्ट अनुरोध को पकड़ लें और पोस्टमैन जैसे उपकरण में निष्पादित करें, उदाहरण के लिए, आप बिना किसी समस्या के फिर से अनुरोध भेज सकते हैं।:
URL पैरामीटर का अर्थ भी काफी हद तक स्पष्ट है:
चाभी | उदाहरण मूल्य | अर्थ |
anno | 3 | एनोटेशन मोड (रिटर्न फॉर्मेट को प्रभावित करता है) |
ग्राहक | te_lib | ग्राहक जानकारी (बदलता है, मान Google अनुवाद के वेब इंटरफ़ेस के माध्यम से "वेबएप" है; रिटर्न फॉर्मेट और रेट लिमिट पर प्रभाव पड़ता है) |
प्रारूप | एचटीएमएल | स्ट्रिंग प्रारूप (HTML टैग्स के अनुवाद के लिए महत्वपूर्ण) |
v | 1.0 | Google अनुवाद संस्करण संख्या |
चाभी | AIzaSyBOti4mM-6x9WDnZIjIeyEU21OpBXqWBgw | एपीआई कुंजी (नीचे देखें) |
logld | vTE_20200210_00 | प्रोटोकॉल संस्करण |
sl | डे | स्रोत भाषा |
tl | en | लक्ष्य भाषा |
एसपी | NMT | एमएल मॉडल |
टीसी | 1 | अनजान |
sr | 1 | अनजान |
TK | 709408.812158 | टोकन (नीचे देखें) |
फैशन | 1 | अनजान |
कुछ अनुरोध हेडर भी सेट किए गए हैं - लेकिन इन्हें ज्यादातर अनदेखा किया जा सकता है। उपयोगकर्ता एजेंट सहित उन सभी हेडर को मैन्युअल रूप से रद्द करने के बाद, विशेष वर्ण दर्ज करते समय एक एन्कोडिंग समस्या की खोज की जाती है (यहां " हैलो वर्ल्ड " का अनुवाद करते समय):
यदि आप उपयोगकर्ता एजेंट (जो आमतौर पर कोई नुकसान नहीं करते हैं) को पुन: सक्रिय करते हैं, तो API UTF-8 एन्कोडेड वर्णों को वितरित करता है:
क्या हम पहले से ही वहां हैं और क्या हमारे पास Google Chrome के बाहर इस API का उपयोग करने की सभी जानकारी है? यदि आप अनुवाद करने के लिए स्ट्रिंग बदलते हैं (POST अनुरोध के डेटा फ़ील्ड q ), उदाहरण के लिए, "हैलो वर्ल्ड" से "हैलो वर्ल्ड" ! “, हमें एक त्रुटि संदेश मिलता है:
अब हम Google Chrome में वेबसाइट अनुवाद फ़ंक्शन का उपयोग करते हुए एक बार फिर से इसका अनुवाद करते हैं और पाते हैं कि, पैरामीटर q के अलावा, पैरामीटर tk भी बदल गया है (अन्य सभी पैरामीटर समान रहे हैं):
स्पष्ट रूप से यह एक टोकन है जो स्ट्रिंग पर निर्भर है, जिसकी संरचना को देखना आसान नहीं है। जब आप वेबसाइट अनुवाद शुरू करते हैं, तो निम्न फाइलें लोड होती हैं:
- 1 सीएसएस फ़ाइल: Translateelement.css
- 4 ग्राफिक्स: Translate_24dp.png (2x), gen204 (2x)
- 2 जेएस फाइलें: main_de.js , element_main.js
दो जावास्क्रिप्ट फ़ाइलों obfuscated और minified हैं। JS Nice और de4js जैसे उपकरण अब इन फ़ाइलों को अधिक पठनीय बनाने में हमारी मदद कर रहे हैं। उन्हें लाइव डिबग करने के लिए, हम Chrome एक्सटेंशन का अनुरोध करते हैं, जो स्थानीय रूप से मक्खी पर दूरस्थ फ़ाइलों को सुरंग करता है:
अब हम कोड को डीबग कर सकते हैं ( कोर को पहले स्थानीय सर्वर पर सक्रिय होना चाहिए)। टोकन बनाने के लिए संबंधित कोड अनुभाग इस अनुभाग में element_main.js फ़ाइल में छिपा हुआ प्रतीत होता है:
b7739bf50b2edcf636c43a8f8910def9
यहां कुछ बिट शिफ्ट्स की मदद से टेक्स्ट को हैश किया गया है । लेकिन दुर्भाग्य से हम अभी भी पहेली का एक टुकड़ा याद कर रहे हैं: तर्क एक के अतिरिक्त (है जो अनुवाद किया जाना पाठ), एक और तर्क ख समारोह बीपी () को पारित कर दिया है - बीज का एक प्रकार है कि समय-समय पर परिवर्तन करने लगता है और वह भी शामिल है हैशिंग में बहती है। लेकिन वह कहां से आता है? यदि हम Bp () के फ़ंक्शन कॉल पर जाते हैं, तो हमें निम्नलिखित कोड अनुभाग मिलते हैं:
b7739bf50b2edcf636c43a8f8910def9
फंक्शन Hq को पहले से घोषित किया गया है:
b7739bf50b2edcf636c43a8f8910def9
यहाँ देओफुसकैटर ने कुछ बकवास छोड़ दिया; जब हमने संबंधित चरित्र स्ट्रिंग्स के साथ String.fromCharCode ('...') को बदल दिया है, तो अप्रचलित ए () और टुकड़े को एक साथ हटा दें फ़ंक्शन कॉल [सी (), सी ()] , परिणाम है:
b7739bf50b2edcf636c43a8f8910def9
या और भी आसान:
b7739bf50b2edcf636c43a8f8910def9
फ़ंक्शन yq को पहले के रूप में परिभाषित किया गया है:
b7739bf50b2edcf636c43a8f8910def9
यह बीज वैश्विक ऑब्जेक्ट google.translate._const._ctkk में लगता है, जो रनटाइम पर उपलब्ध है। लेकिन यह कहां सेट है? दूसरे में, पहले से लोड की गई JS फाइल main_de.js, कम से कम शुरुआत में भी उपलब्ध है। हम शुरुआत में निम्नलिखित जोड़ते हैं:
b7739bf50b2edcf636c43a8f8910def9
कंसोल में हम वास्तव में वर्तमान बीज प्राप्त करते हैं:
यह Google Chrome को ही छोड़ देता है, जो अंतिम विकल्प के रूप में, जाहिर तौर पर बीज प्रदान करता है। सौभाग्य से, इसका स्रोत कोड (क्रोमियम, अनुवाद घटक सहित) खुला स्रोत है और इसलिए सार्वजनिक रूप से उपलब्ध है। हम रिपॉजिटरी को स्थानीय रूप से खींचते हैं और कॉल को ट्रांसस्क्रिप्ट के लिए पाते हैं :: GetTranslateScriptURL फंक्शन का अनुवाद घटकों में Translate_script.cc फ़ाइल / अनुवाद / कोर / ब्राउज़र फ़ोल्डर में:
b7739bf50b2edcf636c43a8f8910def9
URL के साथ चर उसी फ़ाइल में हार्ड-डिफाइन होता है:
b7739bf50b2edcf636c43a8f8910def9
यदि हम अब तत्व की जांच करते हैं। जेएस फ़ाइल को अधिक बारीकी से (फिर से deobfuscating के बाद), हम हार्ड-सेट प्रविष्टि c._ctkk पाते हैं - google.translate ऑब्जेक्ट भी तदनुसार सेट किया गया है और सभी संबंधित संपत्तियों (जो हमने पहले ही खोज लिया है) की लोडिंग चालू है:
b7739bf50b2edcf636c43a8f8910def9
अब पैरामीटर कुंजी विचार के लिए बनी हुई है (मूल्य AIzaSyBOti4mM-6x9WDnZIjIeyEU21OpBXqWBgw के साथ)। यह एक सामान्य ब्राउज़र एपीआई कुंजी (जो कुछ Google परिणामों में भी पाया जा सकता है) प्रतीत होता है। यह क्रोमियम में फाइल घटक / फोल्डर / ट्रांसलेशन / कोर / ब्राउजर में Translate_url_util.cc में सेट है:
b7739bf50b2edcf636c43a8f8910def9
कुंजी डमी मूल्य से google_apis / google_api_keys.cc में बनाई गई है:
b7739bf50b2edcf636c43a8f8910def9
हालांकि, एक परीक्षण से पता चलता है कि एपीआई कॉल इस प्रमुख पैरामीटर के बिना ही काम करता है। यदि आप एपीआई के साथ प्रयोग करते हैं, तो आपको सफल होने पर स्टेटस कोड 200 वापस मिल जाएगा। यदि आप एक सीमा में भागते हैं, तो आपको " POST अनुरोधों के लिए सामग्री-लंबाई शीर्ष लेख की आवश्यकता होती है " संदेश के साथ स्थिति कोड 411 वापस मिलता है। इसलिए इस हेडर को शामिल करना उचित है (जो स्वचालित रूप से पोस्टमैन में एक अस्थायी हेडर के रूप में सेट है)।
अनुवादित स्ट्रिंग्स का रिटर्न फॉर्मेट असामान्य है जब एक अनुरोध में कई वाक्य होते हैं। व्यक्तिगत वाक्य i- / b-HTML टैग द्वारा संलग्न हैं:
इसके अलावा, Google Chrome संपूर्ण HTML को API के लिए नहीं भेजता है, लेकिन विशेषता मानों को बचाता है जैसे अनुरोध में href (और इसके बजाय सूचकांकों को सेट करता है ताकि टैग को बाद में क्लाइंट पक्ष में असाइन किया जा सके):
यदि आप te_lib (Google Chrome) से POST कुंजी क्लाइंट का मान बदलते हैं वेबएप ( Google अनुवाद वेबसाइट ) पर, आपको अंतिम अनुवादित स्ट्रिंग मिलती है:
(: Webapp के साथ इस 40,000 वर्ण के बाद तक पहुँच जाता है, te_lib साथ कोई सीमित दर है तुलना के लिए) समस्या यह है कि आप और अधिक के माध्यम से te_lib से सीमित दर में चलाने की संभावना है। इसलिए हमें इस बात पर ध्यान देने की आवश्यकता है कि क्रोम परिणाम कैसे प्राप्त करता है। हम इसे यहां element_main.js में पाएंगे:
b7739bf50b2edcf636c43a8f8910def9
यदि आप संपूर्ण HTML कोड एपीआई को भेजते हैं, तो यह अनुवादित प्रतिक्रिया में विशेषताओं को छोड़ देता है। इसलिए हमें पूरे पार्स व्यवहार की नकल नहीं करनी है, बल्कि प्रतिक्रिया से केवल अंतिम, अनुवादित स्ट्रिंग को निकालना है। ऐसा करने के लिए, हम एक छोटा HTML टैग पार्सर बनाते हैं जो सबसे बाहरी <i> टैग को उनकी सामग्री सहित हटा देता है और सबसे बाहरी <b> टैग को हटा देता है। इस ज्ञान के साथ अब हम कर सकते हैं ( संगीतकार के साथ निर्भरता स्थापित करने के बाद fzaninotto / faker vielhuber / stringhelper की आवश्यकता होती है ) अनुवाद API का सर्वर-साइड संस्करण बना सकते हैं:
b7739bf50b2edcf636c43a8f8910def9
निम्नलिखित एक प्रारंभिक परीक्षण के परिणाम हैं जो अलग-अलग बैंडविंड और आईपी पते के साथ पांच अलग-अलग प्रणालियों पर किए गए थे:
चरित्र | अनुरोध के अनुसार वर्ण | अवधि | त्रुटि दर | आधिकारिक एपीआई के माध्यम से लागत |
13.064.662 | ~250 | 03: 36: 17 ह | 0% | 237,78€ |
24.530.510 | ~250 | 11: 09: 13 ह | 0% | 446,46€ |
49.060.211 | ~250 | 20: 39: 10 ह | 0% | 892,90€ |
99.074.487 | ~1000 | 61: 24: 37 ह | 0% | 1803,16€ |
99.072.896 | ~1000 | 62: 22: 20 ह | 0% | 1803,13€ |
Σ284.802.766 | ~ Ø550 | Σ159: 11: 37h | 0% | Σ € 5183.41 |
नोट: यह ब्लॉग पोस्ट सभी लिपियों सहित केवल परीक्षण के उद्देश्य से लिखी गई थी। उत्पादक उपयोग के लिए स्क्रिप्ट का उपयोग न करें, इसके बजाय आधिकारिक Google अनुवाद एपीआई के साथ काम करें।