BigQuery ML で使える TensorFlow モデルを作る

Naofumi Yamada

Naofumi Yamada

Data Engineer

はじめに

BigQuery ML は インポートした TensorFlow モデルでの予測 ができます。 BigQuery ML で使える TensorFlow モデルを作るために色々なドキュメントを往復したので、まとめておきます。 BigQuery ML を使って TensorFlow モデルを管理できれば、データソースとの転送を省略したり、 モデルや実行環境の管理を BigQuery と Cloud Storage に任せたりできます。

また SavedModel 形式は、予測に限らず数式を入れたりできるので、brainfuck が実装できるか遊んでみました(敗北)。

Google 共有ドライブ設計論

Naofumi Yamada

Naofumi Yamada

Data Engineer

はじめに

Google ドライブの共有ドライブ利用されていますか。 とても便利なサービスですが、Windows Server のファイルサービスのつもりで設計してハマったことがありました。 ハマらないポイントは、Google ドライブの設計理念に従うことです。

BigQuery データ品質のチェック方針

Naofumi Yamada

Naofumi Yamada

Data Engineer

目的

機械学習でデータを利用する際、十分にきれいなデータを入力した方が大抵のケースで有望です。 汚いデータも使わないよりはマシである可能性もありますが、そのようなデータは継続的に同程度の品質を持っているか検証が困難なことを認識して利用すべきでしょう。 しかし、十分にきれいなデータかどうかを保証する観点は少ないです。

この記事では、実際的な、データ品質チェックの方法論をまとめました。

BigQuery テーブル同士の一致判定

Naofumi Yamada

Naofumi Yamada

Data Engineer

はじめに

テーブルの一致判定のクエリを知りたい の対応記事です。 BigQuery テーブルは、リレーショナルデータベースに比べて、強い制約をかけにくいです。 そのため、テスト時には一致性検証が重要になってくるでしょう。 この記事では、BigQuery テーブル一致性を判定するクエリを紹介します。

安い速い旨い BigQuery の 19 の最適化法

Naofumi Yamada

Naofumi Yamada

Data Engineer

この記事は Qiita と同様の内容です。

はじめに: Google BigQuery は速くて安い

Google BigQuery を使うと、テラバイト程度のデータに対しても、速く安く機械学習の前処理を行うことができます。2019/12/06 現在、Redshift Spectrum と同じく、オンデマンドクエリはクエリが参照するデータの容量に対して $5/TB が課金されます。その上、Redshift Spectrum より早いのですから、使わない理由がありません。

Stackdriver Logging を用いて BigQuery テーブルの最終参照日を求める

Naofumi Yamada

Naofumi Yamada

Data Engineer

やりたいこと

BigQuery テーブルの最終参照日を求めて、使ってないテーブルを整理したい。 最終更新日はテーブルのメタ情報に載っているが、参照日は載っておらず簡単に見ることはできない。 BigQuery のクエリログが全て載る Stackdriver Logging に集計処理をかけることで求めてみる。