データサイエンティストが行うタスク
「 『データサイエンティスト スキルチェックリスト ver.5』読んでみた 」という記事に引き続き、 『データサイエンス領域タスクリスト ver.4』 のレビューを書いていこうと思います。
タスクリストとは
スキルチェックリストはデータサイエンティスト協会 スキル定義委員会によって公開されていましたが、タスクリストはIPAが公開しています。策定自体はデータサイエンティスト協会と協業で行なっているようですね。2017年4月の初版公開から更新を重ね、現時点では2023年10月30日に公開された第4版が最新です。
資料の内容はタイトルのとおりで、一言で表すと「データサイエンティストってどんな業務するの?」というものです。『データサイエンティストのためのスキルチェックリスト/タスクリスト概説』にもわかりやすく下記のように記載されています。
「データサイエンティストにできること=スキル」をまとめたスキルチェックリストに対して、「データサイエンティストが行うこと=タスク」をまとめたものが「タスクリスト」です。 タスクリストは、スキルチェックリストを補完するもので、実際にどのようなプロセス(業務)においてスキルチェックリストに記載されているスキルが必要とされるかを整理したものです。 データサイエンスを駆使して価値を生み出す活動の流れそのものがよくわかっていない、自分はデータサイエンスのプロジェクトのなかでどのような役割を果たしたいのかがはっきりしない……といったときに役立つのがタスクリストです。そのような状況になったら、まずタスクリストを見て業務のなかで自身が担当するタスクは何かを確認します。 その後でスキルチェックリストを参照して、担当するタスクを行うには、どのスキル項目を身に付ける必要があるのかを確認するといった使い方を想定しています。
スキルチェックリストを読むだけでは、身につけたスキルをどのように活かすかが見えづらい部分がありましたが、タスクリストも合わせて読むことで、実際の業務イメージが掴みやすくなります。
タスク構造
タスクリストでは、データサイエンティストの業務を大きく4つのPhaseに分類しています。
-
Phase1: 企画立案からプロジェクトの立ち上げ
-
Phase2: プロジェクトについてのアプローチの設計からデータ収集および前処理
-
Phase3: データ解析および可視化
-
Phase4: 業務への組み込みと評価・改善
さらに各Phaseを、業務の全体像がざっくり把握できるように分けた中分類と、より詳細にタスクの流れを確認するために分けた小分類に分類しており、タスク自体は小分類内に定められています。
例えば、「アプローチ設計からデータ収集および前処理」のフェーズであるPhase2の場合、
-
アプローチ設計とデータ収集
-
構造化 / 非構造化データ処理
という流れで業務を行うという中分類、さらに詳細に掘り下げて「1. アプローチ設計とデータ収集」では、
-
アプローチ設計
-
データ収集
の小分類に分類されるという具合です。
資料内には、このタスクの中分類・小分類に、各タスクの流れを表す矢印を書き加えた構造図が用意されており、どのようにデータサイエンティストの業務が進められるのかが一目でわかるようになっています。プロジェクトマネージャーとしてプロジェクトにアサインされた時にこのような図があれば、かなり整理しやすそうですね。
図1. タスク (中分類) 構造図 【データサイエンス領域のタスクリストver.4 より引用】
AI利活用タスクリスト
データサイエンティストの業務は近年登場した生成AIによって変遷していることから、ver.4では新たに「AI利活用タスクリスト」が追加されています。こちらは、生成AIをビジネスや実務に活用するにあたってのタスクが記載されています。生成AIのユースケース検討〜モデルの構築〜ユーザへのリリースのように、生成AIの利活用に特化したタスクとなっており、下図のようにタスク構造図・タスクリスト共に一般的なタスクとは別のものが用意されていました。
図2. AI利活用タスク (中分類) 構造図 【データサイエンス領域のタスクリストver.4 より引用】
タスクリストを読んでみて
タスクリストに記載されている1つ1つのタスクは、かなり具体的な内容になっているので、業務を進めるにあたってのヒントとしても活用できそうです。
例えば広告配信量の最適化を求められた場合、タスクリストの「最適化」を部分を見ると、
最適化問題(金融ポートフォリオ、生産計画、勤務シフト、貨物積載量、広告配信量など)において、対象の条件や制約を定義する
定義した条件を元に変数、目的関数、制約を定式化する
目的に適したアルゴリズム・解法を選択し、モデリングし、最適化する (手法例:線形計画法、非線形計画法、組み合わせ最適化など)
のように何をしなければいけないか答えを書いてくれています。慣れていれば必要のないものですが、未経験のタスクに直面した際には、とりあえずこのとおり進めてみるだけで何らかの結果が得られそうです。
さらに、スキルチェックリストも合わせて活用することで、タスクを処理するにあたって必要な周辺知識がどのようなものかを整理できるので、何をすべきかを正しく把握することができそうです。
タスクリストはプロジェクト全体を通してのタスクが記載されていますが、全てのタスクを一人で行うような方はほとんどいないと思いますし、私自身も何かのプロジェクトにアサインされた際にはPhase2-3の比重が多くなりそうですので、Phase2-3のタスクに必要なスキルから優先して学習していこうと思います。
おわりに
『データサイエンティスト スキルチェックリスト』 と比較すると項目が少なく、業務の流れに沿ってタスクが記載されているため、読みやすいように感じました。両方読む予定の方は先にこちらから読み始めた方がよいかもしれません。もちろん 『データサイエンティストのためのスキルチェックリスト/タスクリスト概説』 が一番初めに読むべき資料であることには変わりありません。
2つ合わせるとなんだかんだ読むのに3日間くらいかかってしまいましたが、年末年始休暇のダラダラとした時間を過ごすことへの背徳感が軽減されたので、なんとか読み終えてよかったです。その甲斐もあって(?) 大ブームから3年遅れで手にした鬼滅の刃は面白かったです👺