東京の西側でロハスに暮らす

雑食系ブログです

Redshiftしか勝たん!①  DWHとAI、ついに融合す

DBエンジニアがAI技術者の夢を見る

AIがITのメインストーリムに来る少し前の2018年くらい、世のDBエンジニアはこう思っていました。

 

「AIはデータでの学習・推論が命。データといえばDB。しかしSQLとAIは一緒に使えそうな、使えなさそうな、、。DBとAIが融合されればDBエンジニアの仕事の幅も増えそうだが、、果たしてどうなるのか」

 

その後、OracleMicrosoftから自社のDBエンジンにAIを組み込んだ製品が発売されますが、中身としては従来のSQL Server からPythonコマンドを立てけるだけ、、といったとってつけた感がすごくて、流行しませんでした。

 

そして、学習=フルスキャンという性質からAIではDBというよりもストレージを中心としたアーキテクチャが多く発表されました。

AWSでいうと、SageMaker+Lustreのようなアーキテクチャです。

 

でもこれはPythonを使えないとコーディングできないので、前述したような

「DBエンジニアがAI技術者の夢を見る」

事は困難だったのです。

 

Redshift MLデビュー

最近、「SQL機械学習の学習と推論を行う」という、夢のような機能がでました。

はい、Refshiftです。さすが、研究開発4兆円企業です。

aws.amazon.com

 

 

実際に使ってみた

というわけで、やってみました。AWSのサンプルのままですが

docs.aws.amazon.com

 

詳細の手順は上記通り。

で、実際やった結果とその考察がこちら。

f:id:t264d:20210315222954j:plain

 

もう、一言でいうと素晴らしいの一言。

ただし、実行時間が少しおそかったような、、いくつものアルゴリズム学習をするから仕方ないのか。

また、同僚からは「精度はみれないのか」との指摘。裏で動いているSageMakerをみれば確認できるようですが、SQLコマンド一発で精度まで取得できればさらにいいと思います。

 

まだプレビューなので、GAに期待です。

豊洲のITエンジニア交流勉強会(2019年9月25日)に参加・発表した話

かなり過去の話ですが、昨今の事情から時間ができたので、レポートしたいと思います。

 

表題の通り、豊洲にあるIT会社(NTTデータ、SCSK、ユニシスNEC)を対象に、勉強会が開かれました。主催はSCSKさんです、素晴らしい。

 

で、内容はいわゆるライトニングトーク大会なのですが、そうそうたる会社のせいかが濃い。。

 

例えば、

スマホアプリで疑似モテソフトを作った話。

キーボード自作を極めた人の話。

触感IoTなるものをつくった人の話。

です。万人に受ける話・ノウハウというよりも、自分の興味です。

攻撃力に極振りした話です。

 

で、自分は何を話したかというと、AzureとAWSの認証連携の話です。 

皆様からの評価は「硬い。真面目。遊びがない」

 

 

今度やるときはもっと柔らかくしていこうと思います。。

AWS S3とAzure Datalake gen2 の比較

AWSとAzureのどちらを使おう(オブジェクトストレージ)

二大パブリッククラウドは、AWSとAzureです。様々意見あるかと思いますが、パブリッククラウドが持ち、オンプレミスの持たないサービスの代表格はオブジェクトストレージです。同時に、パブリッククラウドでシステムを組む際、オブジェクトストレージはストレージ、データハブ、バックアップ、IF、公開サーバと多彩な役割を果たします。まさにパブリッククラウドの要といってよいでしょう。

 

AWSではS3、Azureでは複数存在しBlob,Datalake, Datalake Gen2と多彩です。

では、パブリッククラウドの要であるS3と Datalake Gen2はどのような差があるのでしょうか。

 

AWS S3とAzure Datalake Gen2の比較

簡易的ですが比較表を掲載します。結構おなじかと思いきや、Datalake Gen2には怪しげな言葉が並びます。

ファイルパーミッションは,747等いわゆるPOSIX風の設定ができるかという事です。

f:id:t264d:20190510215343j:plain

階層的名前空間とは?

簡単にいうと、フォルダです。S3は、フォルダが存在しないのです。フォルダにみせかけたからファイルと同じと思っていただければOKです。

 

f:id:t264d:20190510215639j:plain

 

ファイルリネーム等が多けれAzure。大体はAWS S3で十分

オブジェクトストレージのみでパブリッククラウドを選定する事はないと思いますが、

観点に加えるとすれば、ファイルリネーム等が多けれAzureです。ただしそのようなバッチワークロードもそれほど頻繁にあるわけではないと思います。大体はAWS S3で十分と思っています。

RedshiftとPostgresSQLの機能差分をまとめる

RedshiftはRDBMSではありません

RedshiftはPostgresSQLをベースとしたMPP型データベースです。DWH特化型DBといってよいサービスですが、普通のRDBMSと同じように設計するとうまく特性を生かせない事が多々あります。

 

そこで、初めてRedshiftを使う人や、RDBMSは知っているけどRedshiftをよく知らない人向けに、RDBMSであるPostgresSQLとの差分をまとめてみました。

 

RedshiftとPostgreSQLの機能比較

代表的な機能を軸に比較してみました。運用面の差が大きいです。

※これは2018年4月時点の情報です。今後のアップデートで変更になる可能性はあります。

f:id:t264d:20190510213545j:plain

差を踏まえたうえでのRedshiftにおけるSQL設計


これらをふまえ、実際のSQL設計をどのようにすべきかまとめました。最も注意すべきはINSERT, UPDATEです。RDBMSだとテーブルトランケートはほとんどしないと思いますが、Redshiftではテーブルを再作成する事が実はベストプラクティスだったりします。

 

f:id:t264d:20190510214018j:plain

超簡単な具体的な使い分け基準

では、RDBMSとRedshiftをどのように使い分けるべきか?様々な観点がありますがすごく簡単な基準としては、

OLTP(普通の業務システムやWEBシステム)=RDBMS

OLAP(BI、DWH等分析系のシステム)=Redshift

と思っていただいて、OKです。

 

AWS資格習得まとめ associate編

 

AWSソリューションアーキテクトの資格のうちSolution architect associate/professionalを習得しました。NDAがあるので、問題そのもの等は書けませんが、私の勉強法を紹介したいと思います。

 

※こちらの内容は、資格習得時(associate (17/8) / professional(18/12))をベースに記載しています。現在は試験バージョンが異なっており、傾向等若干差異があると思いますので、ご注意ください。

 

Solution Architect Associate

最近はプラクティショナーといった下位レベルが登場しましたが、エンジニアとして見られたいのであればAssociateは欲しいところです。

 

方針

Associateでは、AWSの基本サービスであるS3、EC2、EBS、IAM、VPCがよく問われます。ですので、これらの基礎知識を正しく理解する必要があります。

勉強期間ですが、前提知識・経験はあるものの概ね3か月間、合計60-100時間ほどで合格できるのではと思います。

 

INPUT

様々なWEBページや書籍がありますが、やはりAWS BlackBeltです。

aws.amazon.com

ここで書くサービスの知識を正しくつけてください。

 

そもそものインフラ知識がないという方へ

www.amazon.co.jp

 

OUTPUT

どのようにNDAを突破したのかかなり謎ですが、最近は書店でも参考書が発売されています。現実に発売されていますので、細かい事は置いておいてこれを利用してしまうのがよいと思います。資格試験である以上、問題集での練習は非常に大事です。

 

 

また、実機での操作や確認は極めて重要です。よくわからなかった点はコンソールで確認してみる事が大事です。AWSは1年間無料のクレジットがあるのでそれを使いましょう。

 

さらに、AWSで模試を受験できることができます。値段は本試験に比べると安いので、これを試験前に受けることをお勧めします。

 

Android&Windowsタブ利用者がipad mini4を1週間くらい使ってわかったこと

結論からいうと、ipad mini4サイコーです。

いいところ

指やペンによる追従がよい

Androidのどんな機種よりも追従がよいです。メモアプリに手書き機能があるのですが、超快適です。

レスポンスがよくてUIもいい

Appleがチューニングしているせいか、明らかにAndroidタブレットやWIndosタブレットよりもアプリのレスポンスがいいです。またUIとの親和も高いですね。

Apple謹製のOffice製品がいい感じ。しかも無料

KeynoteやNumbersですが、タッチを前提に作成されており、ipadだけでもそこそこの資料ができてしいます。OfficeMobileだとこうはいきませんね。また、Windowsデスクトップユーザ用にクラウド上で編集できるのもいいです。

iCloud - 好きなものを、好きなところで。 - Apple(日本)

 

 

わるいところ

画面保護フィルムがまだ流通していない

まだ早すぎるから、、というのもありますが。早くほしいです。

 

それほど軽いわけではない

ipad mini4はアンダー300gですが、AndroidWindowsタブレットでアンダー300gはそれほどめずらしくありません。

 

総評

iPadmini4は携帯性よりもレスポンスの良さが光ります。エンタメ機能もいいのですが、私はiPad mini4のレスポンスに最も利点を感じています。

 

閑話休題。ビジネスにスピードは重要です。そういう意味で意外と、iPad mini4はビジネス向きなのかもしれません。

 

ipad mini4開封の儀

どうしても我慢できなく、iPad mini 4を購入してしまいました。 初iPadです。

 

◆iPad mini4 を購入した。いざ、開封。

はやる気持ちを抑えながら、開封

 

パッケージ

f:id:t264d:20150921090636j:plain

 

白無垢のiPad mini4

f:id:t264d:20150921090640j:plain

 

付属品

f:id:t264d:20150921090644j:plain

 

◆使ってみた感想

asusWindowsタブレット、sumsongのAndroidタブレットを使ったことを私はあるのですが、iPad mini4はどちらよりも優れています。

特筆すべきは、手書きの良さです。iPad mini4 というかiOS9から、メモアプリで手書きができるのです。今までためしたどんなタブレットよりも、手書き機能は優秀でした。