14 posts tagged with "bigquery"

View All Tags

BigQuery ML で使える TensorFlow モデルを作る

Naofumi Yamada

Naofumi Yamada

Data Engineer

はじめに

BigQuery ML は インポートした TensorFlow モデルでの予測 ができます。 BigQuery ML で使える TensorFlow モデルを作るために色々なドキュメントを往復したので、まとめておきます。 BigQuery ML を使って TensorFlow モデルを管理できれば、データソースとの転送を省略したり、 モデルや実行環境の管理を BigQuery と Cloud Storage に任せたりできます。

また SavedModel 形式は、予測に限らず数式を入れたりできるので、brainfuck が実装できるか遊んでみました(敗北)。

Google 共有ドライブ設計論

Naofumi Yamada

Naofumi Yamada

Data Engineer

はじめに

Google ドライブの共有ドライブ利用されていますか。 とても便利なサービスですが、Windows Server のファイルサービスのつもりで設計してハマったことがありました。 ハマらないポイントは、Google ドライブの設計理念に従うことです。

BigQuery データ品質のチェック方針

Naofumi Yamada

Naofumi Yamada

Data Engineer

目的

機械学習でデータを利用する際、十分にきれいなデータを入力した方が大抵のケースで有望です。 汚いデータも使わないよりはマシである可能性もありますが、そのようなデータは継続的に同程度の品質を持っているか検証が困難なことを認識して利用すべきでしょう。 しかし、十分にきれいなデータかどうかを保証する観点は少ないです。

この記事では、実際的な、データ品質チェックの方法論をまとめました。

BigQuery テーブル同士の一致判定

Naofumi Yamada

Naofumi Yamada

Data Engineer

はじめに

テーブルの一致判定のクエリを知りたい の対応記事です。 BigQuery テーブルは、リレーショナルデータベースに比べて、強い制約をかけにくいです。 そのため、テスト時には一致性検証が重要になってくるでしょう。 この記事では、BigQuery テーブル一致性を判定するクエリを紹介します。

安い速い旨い BigQuery の 19 の最適化法

Naofumi Yamada

Naofumi Yamada

Data Engineer

この記事は Qiita と同様の内容です。

はじめに: Google BigQuery は速くて安い

Google BigQuery を使うと、テラバイト程度のデータに対しても、速く安く機械学習の前処理を行うことができます。2019/12/06 現在、Redshift Spectrum と同じく、オンデマンドクエリはクエリが参照するデータの容量に対して $5/TB が課金されます。その上、Redshift Spectrum より早いのですから、使わない理由がありません。

Stackdriver Logging を用いて BigQuery テーブルの最終参照日を求める

Naofumi Yamada

Naofumi Yamada

Data Engineer

やりたいこと

BigQuery テーブルの最終参照日を求めて、使ってないテーブルを整理したい。 最終更新日はテーブルのメタ情報に載っているが、参照日は載っておらず簡単に見ることはできない。 BigQuery のクエリログが全て載る Stackdriver Logging に集計処理をかけることで求めてみる。

BigQuery Scripting で Brainf*ck

Naofumi Yamada

Naofumi Yamada

Data Engineer

書いた動機

BigQuery 中心アーキテクチャでは、統計分析や機械学習のデータ準備を、Cloud Composer などから SQL を使ったデータ変換によって実現する。しかし、直列でデータ変換を行う場合には 標準 SQL のスクリプト で十分なケースもあり、開発をしてつらくないなら採用したい思いがあった。 先日のサイレントアップデートで、小さなクエリの高速化が行われたことから、十分な速度がでると予想した。 BigQuery で Brainf*ck を実現して、チューリング完全であることを確認したかった。欲を言えば SELECT 文だけで実現したいが、再帰 WITH 句が使えないことから自分には実現手段がわからなかった。スクリプトならできると思い、やってみた。

BigQuery で 1 円も溶かさない人の顔 (ZERO BYTE STRUCT を考案した)

Naofumi Yamada

Naofumi Yamada

Data Engineer

この記事は Qiita と同様の内容です。

自分は BigQuery で Extract-Load されたデータを機械学習モデル用に前処理し、テラバイト級の特徴量エンジニアリングを行っています。この記事では、BigQuery のデータ量を一切消費せず、誇張なく 1 円も溶かさない裏技をまとめます(2019/12/18 現在)。 ただし、定額クエリやストリーミングインサートは、本記事の対象外です。