AIでブラウザを制御

ブラウザの自動化は、Web スクレイピング、自動テスト、Web アプリケーションの対話などの分野で大きな役割を果たします。これまで、たとえば、Puppeteer がこの目的に使用されてきました。 AI の出現により、ブラウザの自動化をより直観的にし、メンテナンスの負担を軽減する新たな機会が開かれ、 Stagehandのステージがクリアされます。


どのように動作するかを明確にするために、対応する Web インターフェイスを介して、私の (粗末な) Vodafone ケーブル ボックスの 2 台目のルーター (他の重要な機能の中でもとりわけ直接 API を提供していない) の前面 LED ライトをオフ/オンに切り替えたいと思います。まず、両方のツールをコマンド ラインにインストールします (ノード\(\geq\) 23 と仮定します)。:

53e4085b029089ec48bd0f5b954a6b50

最後に、Vodafone パスワードと OpenAI API キーを .env ファイルに保存します。:

53e4085b029089ec48bd0f5b954a6b50

たとえば、Puppeteer を使用すると、次のようにして希望することを実現できます。:

53e4085b029089ec48bd0f5b954a6b50

一方、Stagehand は自然言語で書かれたコマンドを受け入れます。:

53e4085b029089ec48bd0f5b954a6b50

Web サイトをスクレイピングする場合も、フォームに自動的に入力する場合も、Web アプリのテストを実行する場合も、リモート ブラウザー コントロールが役に立ちます。 AI をブラウザーリモコンに統合することで、簡単な指示で複雑なタスクを実行できるようになり、開発がスピードアップされ、メンテナンスが容易になります。特に DOM 構造が変更された場合、ステージハンド スクリプトはより堅牢になり、メンテナンスの負荷が軽減されます。

バック