গুগল তার গুগল মেঘের অংশ হিসাবে ব্যবহার-ভিত্তিক ব্যয় কাঠামোর সাথে Google অনুবাদ এপিআই সরবরাহ করে। এখানে একটি অনিবন্ধিত এপিআইও রয়েছে যা কী ছাড়াই ব্যবহার করা যেতে পারে তবে এটি কয়েকটি অনুরোধের পরে কাজ করতে অস্বীকার করে। গুগল ক্রোমের ওয়েবসাইট অনুবাদ ফাংশনটি ব্যবহার করার সময়, এটি লক্ষণীয় যে পৃষ্ঠাগুলি কোনও লক্ষণীয় সীমাবদ্ধতা ছাড়াই খুব ভাল মানের অনুবাদ করা যেতে পারে।
স্পষ্টতই এখানে উন্নত এনএমটি মডেলটি ইতিমধ্যে ব্যবহৃত হচ্ছে। তবে গুগল ক্রোম সামগ্রীটি অনুবাদ করতে অভ্যন্তরীণভাবে কোন এপিআই ব্যবহার করে এবং এই এপিআইটিও সরাসরি ঠিকানা দেওয়া যেতে পারে - এমনকি সার্ভারের দিক থেকেও? নেটওয়ার্ক ট্র্যাফিকের বিশ্লেষণ করতে, ওয়্যারশার্ক বা টেলিগ্রিক ফিডলারের মতো সরঞ্জামগুলি, যা এনক্রিপ্ট হওয়া ট্র্যাফিককে বিশ্লেষণ করতে পারে তার জন্য প্রস্তাবিত হয়। তবে ক্রোম এমনকি বিন্যাসের জন্য পৃষ্ঠার অনুবাদটির জন্য প্রেরিত অনুরোধগুলি সরবরাহ করে: ক্রোম ডেভটুলগুলি ব্যবহার করে সেগুলি সহজেই দেখা যায়:
যদি আপনি কোনও অনুবাদ সম্পাদন করেন, তবে "কপিরাইট> সিআরএল (বাশ) হিসাবে অনুলিপি করুন" এর মাধ্যমে P 1 to এর গুরুত্বপূর্ণ পোষ্ট অনুরোধটি ধরুন এবং পোস্টম্যানের মতো একটি সরঞ্জামে এটি কার্যকর করুন, উদাহরণস্বরূপ, আপনি কোনও সমস্যা ছাড়াই পুনরায় অনুরোধটি পাঠাতে পারেন:
ইউআরএল প্যারামিটারগুলির অর্থও বেশিরভাগ ক্ষেত্রে সুস্পষ্ট:
চাবি | উদাহরণ মান | অর্থ |
অ্যানো | 3 | টিকা মোড (রিটার্ন ফর্ম্যাটকে প্রভাবিত করে) |
ক্লায়েন্ট | te_lib | ক্লায়েন্টের তথ্য (পরিবর্তিত হয়, গুগল অনুবাদ ওয়েব ইন্টারফেসের মাধ্যমে মান "ওয়েবআপ" হয়; রিটার্ন ফর্ম্যাট এবং রেট সীমাবদ্ধকরণের উপর প্রভাব ফেলে) |
বিন্যাস | এইচটিএমএল | স্ট্রিং ফর্ম্যাট (HTML ট্যাগ অনুবাদ করার জন্য গুরুত্বপূর্ণ) |
v | 1.0 | গুগল অনুবাদ সংস্করণ নম্বর |
চাবি | AIzaSyBOti4mM-6x9WDnZIjIeyEU21OpBXqWBgw | এপিআই কী (নীচে দেখুন) |
লগল্ড | vTE_20200210_00 | প্রোটোকল সংস্করণ |
sl | ডি | উৎস ভাষা |
tl | en | সুনির্দিষ্ট ভাষা |
এসপি | এনএমটি | এমএল মডেল |
টিসি | 1 | অজানা |
sr | 1 | অজানা |
tk | 709408.812158 | টোকেন (নীচে দেখুন) |
ফ্যাশন | 1 | অজানা |
কিছু অনুরোধ শিরোনামও সেট করা আছে - তবে এগুলি বেশিরভাগই উপেক্ষা করা যেতে পারে। ব্যবহারকারী এজেন্টের সমস্ত শিরোনাম সহ ম্যানুয়ালি অনির্বাচিত করার পরে, বিশেষ অক্ষরগুলিতে প্রবেশ করার সময় একটি এনকোডিং সমস্যাটি সনাক্ত করা হয় (এখানে " হ্যালো ওয়ার্ল্ড " অনুবাদ করার সময়):
আপনি যদি ব্যবহারকারী এজেন্টটিকে পুনরায় সক্রিয় করেন (এটি সাধারণত কোনও ক্ষতি করে না), API ইউটিএফ -8 এনকোডেড অক্ষর সরবরাহ করে:
আমরা কি ইতিমধ্যে সেখানে রয়েছি এবং গুগল ক্রোমের বাইরে এই এপিআই ব্যবহার করার সমস্ত তথ্য আমাদের কাছে আছে? আপনি যদি চরিত্রের স্ট্রিংটি অনুবাদ করতে (পোষ্ট অনুরোধের ডেটা ফিল্ড কিউ ) থেকে পরিবর্তন করেন, উদাহরণস্বরূপ, "হ্যালো ওয়ার্ল্ড" থেকে "হ্যালো ওয়ার্ল্ড" ! “, আমরা একটি ত্রুটি বার্তা পাই:
আমরা এখন এই অনুবাদকটি আবার অনুবাদ করে ফেলি গুগল ক্রোমে ওয়েবসাইট অনুবাদ ফাংশন ব্যবহার করে এবং দেখতে পাই যে, প্যারামিটার q এর পাশাপাশি প্যারামিটার টি কেও পরিবর্তিত হয়েছে (অন্যান্য সমস্ত পরামিতি একই রয়ে গেছে):
স্পষ্টতই, এটি একটি টোকেন যা স্ট্রিংয়ের উপর নির্ভর করে, এর কাঠামোটি দেখতে সহজ নয়। আপনি ওয়েবসাইট অনুবাদ শুরু করার সময়, নিম্নলিখিত ফাইলগুলি লোড করা হয়:
- 1 সিএসএস ফাইল: ট্রান্সলেটমেন্টমেন্ট সিএসএস
- 4 গ্রাফিক্স: translate_24dp.png (2x), gen204 (2x)
- 2 জেএস ফাইলগুলি: মেইন_ডি.জেএস , এলিমেন্ট_মাইন.জেএস
দুটি জাভাস্ক্রিপ্ট ফাইল অপ্রচলিত এবং minified হয়। জেএস নিস এবং ডি 4 জেসের মতো সরঞ্জামগুলি এখন এই ফাইলগুলিকে আরও পঠনযোগ্য করে তুলতে আমাদের সহায়তা করছে। তাদের লাইভ ডিবাগ করার জন্য, আমরা ক্রোম এক্সটেনশান অনুরোধের প্রস্তাব দিই, যা স্থানীয়ভাবে দূরবর্তী ফাইলগুলিকে উড়ে বেড়াতে দেয়:
এখন আমরা কোডটি ডিবাগ করতে পারি ( সিওআরএস অবশ্যই প্রথমে স্থানীয় সার্ভারে সক্রিয় করা উচিত)। টোকেন তৈরির জন্য প্রাসঙ্গিক কোড বিভাগটি অ্যালিমেন্ট_মাইন.জেএস ফাইলটিতে এই বিভাগে লুকানো আছে বলে মনে হয়:
b7739bf50b2edcf636c43a8f8910def9
এখানে কিছু বিট শিফ্টের সাহায্যে পাঠ্যটি হ্যাশ করা হয়েছে। তবে দুর্ভাগ্যক্রমে আমরা ধাঁধাটির একটি টুকরো এখনও মিস করছি: যুক্তি a (যা অনুবাদ করা পাঠ্য) যুক্তি ছাড়াও, আরেকটি যুক্তি বি ফাংশনে বিপি () প্রেরণ করা হয়েছে - এক ধরণের বীজ যা সময়ে সময়ে পরিবর্তিত হয় বলে মনে হয় এবং এর মধ্যে রয়েছে হ্যাশিং মধ্যে প্রবাহিত। তবে সে কোথা থেকে এসেছে? আমরা বিপি () এর ফাংশন কলটিতে ঝাঁপ দিলে আমরা নিম্নলিখিত কোড বিভাগটি পাই:
b7739bf50b2edcf636c43a8f8910def9
ফাংশন HQ পূর্বেই নিম্নরূপ ঘোষিত হয়:
b7739bf50b2edcf636c43a8f8910def9
এখানে দেওবস্কাটার কিছু আবর্জনা ফেলেছে; আমরা স্ট্রিং.ফ্রোমচারকোড ('...') কে স্বতন্ত্র চরিত্রের স্ট্রিংয়ের সাথে প্রতিস্থাপন করার পরে, অপ্রচলিত এ () অপসারণ করুন এবং ফাংশন কলগুলি [সি (), সি ()] কে একসাথে টুকরো টুকরো করে ফেললে ফলাফলটি হবে:
b7739bf50b2edcf636c43a8f8910def9
বা আরও সহজ:
b7739bf50b2edcf636c43a8f8910def9
Yq ফাংশনটি পূর্বে হিসাবে সংজ্ঞায়িত করা হয়:
b7739bf50b2edcf636c43a8f8910def9
বীজটি বিশ্বব্যাপী অবজেক্ট google.translate._const._ctkk এ উপস্থিত বলে মনে হচ্ছে, যা রানটাইম এ উপলব্ধ। তবে কোথায় সেট করা আছে? অন্যটিতে পূর্বে লোড হওয়া জেএস ফাইল মেইন_ডি.জেএস, অন্তত এটি শুরুতে উপলব্ধ। আমরা শুরুতে নিম্নলিখিতটি যুক্ত করি:
b7739bf50b2edcf636c43a8f8910def9
কনসোলে আমরা আসলে বর্তমান বীজ পাই:
এটি গুগল ক্রোমকে নিজেই ছেড়ে দেয়, যা দৃশ্যত শেষ বিকল্প হিসাবে বীজ সরবরাহ করে। ভাগ্যক্রমে, এর উত্স কোড (অনুবাদ উপাদান সহ ক্রোমিয়াম) মুক্ত উত্স এবং তাই সর্বজনীনভাবে উপলভ্য। আমরা টান সংগ্রহস্থলের স্থানীয়ভাবে এবং উপাদান / অনুবাদ / কোর / ব্রাউজার ফোল্ডারে translate_script.cc ফাইলে TranslateScript :: GetTranslateScriptURL ফাংশন কল এটি:
b7739bf50b2edcf636c43a8f8910def9
URL সহ ভেরিয়েবল একই ফাইলটিতে কঠোর সংজ্ঞায়িত:
b7739bf50b2edcf636c43a8f8910def9
আমরা এখন আরো ঘনিষ্ঠভাবে (আবার deobfuscating পরে) element.js ফাইল পরীক্ষা, তাহলে আমরা হার্ড সেট এন্ট্রি c._ctkk এটি - google.translate বস্তুর এছাড়াও তদনুসারে সেট করা হয় এবং সমস্ত প্রাসঙ্গিক সম্পদ লোড (যা আমরা ইতিমধ্যে তার আগে আবিষ্কৃত হয়েছে) সূত্রপাত হয়:
b7739bf50b2edcf636c43a8f8910def9
এখন প্যারামিটার কীটি বিবেচনার জন্য রয়ে গেছে (AIZASyBOti4mM-6x9WDnZIjIeyEU21OpBXqWBgw মান সহ)। এটি একটি জেনেরিক ব্রাউজার এপিআই কী বলে মনে হচ্ছে (যা কিছু গুগলের ফলাফলের মধ্যেও পাওয়া যায়)। / অনুবাদ / কোর / ব্রাউজার এটা ফোল্ডার উপাদান ফাইল translate_url_util.cc এ Chromium সেট করা হয়:
b7739bf50b2edcf636c43a8f8910def9
কীটি একটি ডামি মান থেকে google_apis / google_api_keys.cc এ উত্পন্ন হয়:
b7739bf50b2edcf636c43a8f8910def9
যাইহোক, একটি পরীক্ষা দেখায় যে এপিআই কলগুলি এই কী পরামিতি ছাড়াই একই কাজ করে। আপনি যদি এপিআই নিয়ে পরীক্ষা-নিরীক্ষা করেন তবে আপনি সফল হলে স্থিতি কোডটি 200 ফিরিয়ে পাবেন। তারপরে আপনি যদি কোনও সীমাতে চলে যান তবে আপনি " POST অনুরোধগুলির জন্য একটি সামগ্রীর দৈর্ঘ্যের শিরোনাম প্রয়োজন " বার্তাটি দিয়ে স্ট্যাটাস কোড 411 ফিরে পাবেন । সুতরাং এই শিরোনামটি অন্তর্ভুক্ত করার পরামর্শ দেওয়া হয় (যা স্বয়ংক্রিয়ভাবে পোস্টম্যানের মধ্যে একটি অস্থায়ী শিরোনাম হিসাবে সেট করা হয়)।
যখন একটি অনুরোধে বেশ কয়েকটি বাক্য থাকে তখন অনুবাদিত স্ট্রিংগুলির রিটার্ন ফর্ম্যাটটি অস্বাভাবিক। পৃথক বাক্যগুলি i- / b-HTML ট্যাগ দ্বারা আবদ্ধ থাকে:
এছাড়াও, গুগল ক্রোম পুরো এইচটিএমএলকে এপিআইতে প্রেরণ করে না, তবে অনুরোধে href এর মতো বৈশিষ্ট্যযুক্ত মানগুলি সংরক্ষণ করে (এবং পরিবর্তে সূচকগুলি সেট করে যাতে ট্যাগগুলি পরে ক্লায়েন্টের পক্ষে বরাদ্দ করা যায়):
আপনি যদি te_lib (গুগল ক্রোম) থেকে পোষ্ট কী ক্লায়েন্টের মান পরিবর্তন করেন ওয়েব অ্যাপে ( গুগল অনুবাদ ওয়েবসাইট ) এ, আপনি চূড়ান্ত অনুবাদিত স্ট্রিং পাবেন:
(: ওয়েবঅ্যাপ্লিকেশনটি সঙ্গে এই 40,000 অক্ষর পর এসে যাবে, te_lib সঙ্গে কোন সীমিত হার তুলনা জন্য) সমস্যা হল আপনি আরো অনেক কিছু মাধ্যমে te_lib চেয়ে সীমিত হার মধ্যে চালানো করার সম্ভাবনা বেশি হয়। সুতরাং ক্রোম কীভাবে ফলাফলকে বিশ্লেষণ করে তা আমাদের আরও নিবিড়ভাবে নজর দেওয়া উচিত। আমরা এটি এখানে এলিমেন্ট_মাইন.জেজে খুঁজে পাব:
b7739bf50b2edcf636c43a8f8910def9
আপনি যদি API-তে সম্পূর্ণ HTML কোড পাঠান, তাহলে এটি অনুবাদিত প্রতিক্রিয়াতে বৈশিষ্ট্যগুলি ছেড়ে যায়। তাই আমাদের সম্পূর্ণ পার্স আচরণ অনুকরণ করতে হবে না, তবে প্রতিক্রিয়া থেকে শুধুমাত্র চূড়ান্ত, অনুবাদিত স্ট্রিংটি বের করতে হবে। এটি করার জন্য, আমরা একটি ছোট HTML ট্যাগ পার্সার তৈরি করি যা তাদের বিষয়বস্তু সহ বাইরেরতম <i> ট্যাগগুলিকে বাতিল করে এবং বাইরেরতম <b> ট্যাগগুলিকে সরিয়ে দেয়। এই জ্ঞানের সাহায্যে আমরা এখন ( কম্পোজারের সাথে নির্ভরতা ইনস্টল করার পরে fzaninotto / faker vielhuber / stringhelper প্রয়োজন ) অনুবাদ API এর একটি সার্ভার-সাইড সংস্করণ তৈরি করতে পারি:
b7739bf50b2edcf636c43a8f8910def9
নিম্নলিখিতটি একটি প্রাথমিক পরীক্ষার ফলাফল যা বিভিন্ন ব্যান্ডউইথ এবং আইপি ঠিকানা সহ পাঁচটি পৃথক সিস্টেমে পরিচালিত হয়েছিল:
চরিত্র | অনুরোধ অনুযায়ী অক্ষর | সময়কাল | ত্রুটি হার | অফিসিয়াল এপিআইয়ের মাধ্যমে খরচ |
13.064.662 | ~250 | 03: 36: 17 ঘন্টা | 0% | 237,78€ |
24.530.510 | ~250 | 11: 09: 13 এচ | 0% | 446,46€ |
49.060.211 | ~250 | 20: 39: 10 ঘন্টা | 0% | 892,90€ |
99.074.487 | ~1000 | 61: 24: 37 ঘন্টা | 0% | 1803,16€ |
99.072.896 | ~1000 | 62: 22: 20 ঘন্টা | 0% | 1803,13€ |
Σ284.802.766 | Ø550 | Σ159: 11: 37 ঘন্টা | 0% | 83 5183.41 |
দ্রষ্টব্য: সমস্ত স্ক্রিপ্ট সহ এই ব্লগ পোস্টটি কেবল পরীক্ষার উদ্দেশ্যে লেখা হয়েছিল। উত্পাদনশীল ব্যবহারের জন্য স্ক্রিপ্টগুলি ব্যবহার করবেন না , পরিবর্তে সরকারী গুগল অনুবাদ এপিআইয়ের সাথে কাজ করুন ।