東京の西側でロハスに暮らす

雑食系ブログです

データサイエンティストになるために数理的な教養・知識は必要ですか?

さまざまなポストで、色々なデータサイエンティストになるための本が紹介されていたりします。

これらは大変素晴らしく思うのですが内容はだいたい大学の専門教育課程でバシバシ出てくるようなはっきりって専門書が多いのです。これらは確かに必要だと思う反面、多くのデータサイエンティストになりたいと思われるエンジニアや社会人が読んで理解できる内容かと言うと疑問がつくのも思うのです。一方でデジタルという文脈の中、こういった知識を持たずに活躍されている方も散見されます。実際に現場で働く人間としてこの点をディープタイプしていきたいと思います。

 

私の持論

持論としては、ハイレベルなデータサイエンティストのうちアルゴリズムを考えるようなエンジニアになりたいなればこのような知識は深いレベルでの理解が必須です。

 

非常に詰まったような言い方になりました。

 

日本の悪しき情報システム開発文化とデータサイエンスへの影響

何が言いたいかと言うと、現在のいわゆる情報システム開発運用の現場では全くコンピューターのこと知らない人がでも活用できています。これは日本特有の下請けシステムプロジェクトマネジメントシステムによるものが大きいと思います。

情報システム開発においてコンピューターサイエンスを全く知らなくてもコミュニケーション能力だけで開発できるという、ある意味日本の独特の発明が日本の情報システム開発の現場は根強く残っています。そしてデータサイエンスの分野でもこれは非常にいろこく反映されております。

 

データサイエンス協会というところが発行している人材像を見ています。

 

これは、人材像はざっくり言いますと3タイプに分かれています

f:id:t264d:20210516074941j:plain


個人的にはこの3つ全てをハイレベルで持っていることが大事だと思うんですが、なかなかそうはいかない事情があるとおもいます。

なのでそれぞれの特性にあわせまして3つに役割分担するというのはまぁある意味納得のあるものです。(このあたりがデータサイエンスの多様性でありつつも、数理的素養をもたない人達を量産している遠因だと思うのですが)

 

そしてその中で一番というかほど独占的に数理的な素養が必要な人たちがデータサイエンス力をもってモデリングをする人たちです。

 

この人たちは主に統計だったり機械学習アルゴリズムを知っている必要があり、それを業務適用する実装を考えなくてはいけないので、データサイエンスのど真ん中の人たちだと思います。

 

今から10年ぐらい前の情報システムにおいては統計パッケージが存在したものを機械学習パッケージというのはかなり限られていたために自分で実装する必要がありました。

しかし現代においては chainer や tensorflow 、DataRobot のようなAutoML と言った機械学習の知識があまりなくてもモデリングができてしまうソフトウェアでも非常に多いです。

 

コミュ力おばけの逆襲

そしてこれらのソフトウェアというのは多くがブラックボックス化されております。そのためなぜこうなったのか所も説明がしにくいという特徴があります。ここが最大のポイントです。

仮に非常に数理的な素養を持った人であってもこういったソフトになった勝手な想像の域を出ないため多分こうなったみたいな話になるわけです。

そうなるとうっすら知識を持ち、ハイレベルコミュニケーション能力の人がいればこのへんは何とかなってしまうわけです。

また自分でプログラミングする必要があるプロジェクトもあると思いますが、もし、これをプログラミングを外注できるようなプロジェクトだった場合、お客に説明する説明責任というのはハイレベルコミュニケーションを持っているけど中は何も知らないみたいな人です。そしてもちまえの圧倒的コミュ力でなんとかなってしまっている状況は生まれてしまいます。

 

そして日本の現場ではこれをチーム力というふうに参照する文化がありますので、そもそもこの点は問題視されるということ自体がそもそも少ないです。

 

さらにアルゴリズムの数理的理解においては「アカデミックでいいじゃん」という風になるわけです。そうなると、数理的な大学教養レベルの本というのは趣味の領域を出なくなってしまいます。そしてこれで仕事が回ってしまう現実もあります。

 

ここまではSIerのような観点で話をしましたが、いわゆる事業会社でも同じような事がやっぱり起きています。 事業会社の場合は、ビジネスを前に進めることが主目的なので別に中身としたらどうでもいいわけです。一方でSierや開発会社とかそういったところで上記のような状態になると日本のデータサイエンスレベルの底上げには繋がるものの、 スピードが遅い理由です。伝統的な SIerだと、そもそも上層部データサイエンスと冬の開発になんていなかったりそもそも何もしらなかったのでもっと自体は悪かったりします。(これらの企業も何もしていないわけではないですがやはりスピードは遅いです)近年の機械学習 AI のスタートアップが流行しているのもこういったところが背景になると思います。

 

自学の現実解

大学3、4年の教養レベルを学び直すの大変なストレスです。想像してみてください、自分と全く違う領域の4年生レベルのテキストをぽいとわたされて「これ理解しておいてね一週間後までに」って言われたら普通の人は絶望すると思います。

 

これがさも当然と言われているのはこのデータサイエンスの領域の恐ろしい点だとおもいます。

もちろんこれは現場の話であります。その社を代表するようなサイエンス人材であったり業界を代表するような入れるような人物であれば数理的理解としてはあるべきと思います。

 

そうは言ってもある程度、ハイレベルなコミュニケーションの人でも話せるぐらいの知識はこの業界の人万人が持つべきだと思うので、機会を見て紹介していきたいと思います。