IMPORTXMLは、データのクロールとパースを可能にするGoogle Sheetsの優れた機能です。ただし、パーサーや性能面でいくつかの制約があります。そこでクライアントは、レコード数の拡張・パーススクリプトの複雑化・エラーハンドリングなどの追加要件を満たしつつ、ユーザー体験を変えずに同等のユーティリティを構築したいと考えました。
弊社のAWS Lambda・サーバーレス開発についてもご紹介します。
機能
- baserow.io をデータエディタとして拡張。Google Sheetの機能を再現可能なソフトウェアです。
- Google SheetのIMPORTXML を技術仕様を詳細化したうえでほぼ忠実に再現。
- ステータス管理・エラー管理用のカラムを追加し、IMPORTXML機能を拡張。
課題
- baserow.io を読み解き、拡張することは大きな学習課題でした。
- AWS Lambda上でのスクレイピングも難題で、リソース節約のための最小化が必要でした。
弊社のカスタムソフトウェア開発もぜひご覧ください。