*更新情報*
2024年1月にKaggleに関する以下2つのレポ―トを公開いたしました。
■ Kaggle Grandmaster 分析レポート 2024年 -update版-
■ Kaggle Master 分析レポート 2024年版
本記事とあわせてご覧ください。
本記事3行要約:
● 国別グランドマスター在籍数では日本がアメリカに次いで僅差の2位!!
● Kaggleグランドマスターは世界最高峰のデータエンジニア・サイエンティストの称号!!
● 日本在籍グランドマスター48名は30組織(在籍特定のみ)に在籍!!
ResearchPortではこれまで、コンピュータビジョンやロボティクス、機械学習など、AI関連領域のトップカンファレンスを調査する「定点観測シリーズ」を公開してまいりました。これらは、各分野の”研究力”を客観的に観測するために、論文投稿数・採択率・日本人個別採択数・論文出現キーワードなどをまとめて考察しております。
今回は番外編として、機械学習・データ分析のコンペティションである「Kaggle(カグル)」についてまとめてみたいと思います。2023年5月現在、世界中から20万人以上が参加するAIコンペで、主催企業がデータや分析テーマを提供し、それに対応する予測モデルの精度を競い合うというものです。詳細は以下で解説していきます。
尚、今回は新たな試みとして、今話題の生成AIを活用して記事を書いてみました!
最近、OpenAI社が2022年11月に発表したChatGPTが、各業界のプロセスを革新する可能性があるとして、近年稀に見る賑わいを見せています。我々もこのトレンドにあやかって、GPT-4を本記事生成に利用してみました。
・ 序盤 ⇒ GPT-4
・ 中盤 ⇒ GPT-4×人間
・ 終盤 ⇒ 人間
それでは、早速本題です!
■Kaggleの設立経緯
下記は、「Kaggleについて歴史や設立経緯を教えて下さい。」という何も工夫しないプロンプトに対するGPT-4(2023.5.12 version)の回答です。
(以下、GPT-4による回答)
——————————————————
Kaggleはデータサイエンスと機械学習のコミュニティで、企業や研究者がデータセットを公開し、ユーザーがそれらのデータセットを使用して予測モデルを作成し、そのパフォーマンスを競うプラットフォームです。
Kaggleは、元々2009年にオーストラリアのメルボルンでアンソニー・ゴールドブルームによって設立されました。ゴールドブルームはその前に、経済コンサルティング会社で経済予測の仕事をしていました。そこで彼は、大量のデータを使って経済的な予測を行う機会があり、これがKaggle設立のきっかけとなりました。
初期のKaggleは、データサイエンティストと企業を結びつけるためのプラットフォームとして始まりました。企業は特定の問題に対する解決策を見つけるためにデータを提供し、データサイエンティストはそのデータを使って予測モデルを作成し、その結果を競いました。これは、データサイエンスの分野に新しい形の競争をもたらしました。
2010年にKaggleは公式にローンチされ、以来、数多くのデータサイエンスコンペティションを開催してきました。これらのコンペティションは、データサイエンティストが新たな技術を学び、スキルを向上させるための重要なプラットフォームとなっています。
2017年には、Googleのクラウド事業部門であるGoogle CloudによってKaggleが買収されました。これにより、Kaggleのコミュニティはさらに拡大し、Google Cloudの技術とリソースを活用してさらなる成長を遂げています。
以上がKaggleの設立から現在までの概略的な歴史です。
内容確認したところ、すべて正しいですね。
試しに、Google Bard(GoogleがGoogle I/Oで発表)日本語版でも同じ質問を試してみました。
以下、Google Bard(2023.5.15のアップデート)の出力結果です。
Experimental versionのためか、語尾や文章構成上も多少違和感があり、内容も間違えていますね。なので、下記 Google Bard の出力内容は信じないでください!
(以下、Google Bardによる回答)
——————————————————
というわけで、ここから先はGPT-4のみを使っていきたいと思います。なお、前述の通り、途中から人間の補足が入り、最後は人間による解析と文章でまとめています!
■Kaggleの仕組み
次に、シンプルに「Kaggleの仕組み教えて下さい。」とGPT-4に聞いてみました。
Kaggleは、データサイエンスと機械学習のコミュニティープラットフォームで、主に以下の4つのコンポーネントから構成されています:
1.コンペティション:
企業や研究者が実世界の問題に対する最高の予測モデルを求めてデータサイエンスのコンテストを開催します。参加者は提供されたデータセットを使用してモデルを訓練し、予測結果を提出します。提出物は特定の評価基準に基づいて評価され、リーダーボードでランク付けされます。賞金が提供されることもあります。
2.データセット:
ユーザーは自身のデータセットを公開し、他のユーザーと共有することができます。これらのデータセットは様々なトピックに渡り、他のユーザーはこれらのデータセットをダウンロードしたり、自身のプロジェクトやコンペティション用のモデル訓練に使用することができます。
3.ノートブック(以前はKernelsと呼ばれていました):
ユーザーはPythonやRなどのコードを書き、データ分析やモデル訓練の過程を共有することができます。これらのノートブックは他のユーザーによって閲覧、コメント、フォーク(コピーして編集)することができます。
4.ディスカッション:
ユーザーはディスカッションフォーラムで質問したり、アイデアを共有したり、特定のデータセットやコンペティションについて議論することができます。
これらの各機能は、ユーザーがデータサイエンスと機械学習のスキルを向上させ、新たなアイデアを学び、他のデータサイエンティストとネットワーキングするためのプラットフォームを提供します。
という結果になりました。全て間違いないようです(もし事実と異なる点があればご指摘ください)。
やはりかなり精度が高く、十分使えますね。著作権的なところはかなり気になりますが、執筆作業もかなり助かります。
■Kaggleのタイトル
次に「Kaggle Grandmasterになるための条件を教えて下さい」とGPT-4に聞いてみました。すると……
Kaggleでは、ユーザーの貢献度に応じて4つの進行度合い、すなわちノービス、コントリビューター、エキスパート、マスター、グランドマスターというタイトルが授与されます。これらのタイトルは競技会(Competitions)、カーネル(Kernels)、ディスカッション(Discussion)の3つのカテゴリーで個別に獲得できます。
おっと!ここでは一部間違いがありましたので、人間が手直しをしてみました。
*ここからは人間とchatGPTとの合作です。
Kaggleでは、ユーザーの貢献度に応じて5つの進行度合い、すなわちノービス、コントリビューター、エキスパート、マスター、グランドマスターというタイトルが授与されます。これらのタイトルは、コンペティション(Competitions)、ノートブック(Notebooks)、ディスカッション(Discussion)、データセット(Datasets)の4つのカテゴリーでそれぞれ個別に獲得できます。
なお、各カテゴリに対するGrandmasterの条件に対しても、Competitions・Kernels(= Notebooks)・Discussionの3つについてしか回答がなかったため、追加の質問を行い、それらを合成して下記の文章にしました。
■Kaggle Grandmasterについて
ということで、ここは人間とChatGPTとの合作です。
上記のタイトルの中で最高ランクに相当するのが、"Grandmaster" です。
具体的には、"Grandmaster" レベルに到達するためには以下の条件を満たす必要があります(2021年9月時点の情報):
1.Competitions Grandmaster:
- ゴールドメダルを5回以上獲得する。
- 最低1回はソロまたはチームでのゴールドメダル獲得。
- シルバーメダルを2回以上獲得する。
2.Notebooks Grandmaster:
- カーネル(ノートブック)がゴールドメダルを25回以上獲得する。
- この内、最低5回は過去12ヶ月以内に獲得。
3.Discussion Grandmaster:
- ディスカッション投稿がゴールドメダルを50回以上獲得する。
- この内、最低5回は過去12ヶ月以内に獲得。
4.Datasets Grandmaster:
- データセットがゴールドメダルを10回以上獲得する。
- この内、最低5回は過去12ヶ月以内に獲得。
- 「ゴールドメダル獲得」は、他のユーザーからの評価やデータセットのダウンロード数などに基づき評価
これらの条件は変更される可能性もあるので、最新の情報を得るためにはKaggleの公式ウェブサイトをチェックすることをおすすめします。
さぁ、このあたりから、一般論を超えてデータ解析をした結果を入れていきたいと思います。ということで、ここからは人間の作った文章です。(その方が、間違いの入り込む可能性が大いにありますが……)
■Competitions Grandmasterとは?
上記のように様々なカテゴリでの貢献があり、それぞれについてGrandmasterが定義されていますが、特に競技におけるGrandmaster(= Competitions Grandmaster)は技術的な問題解決において世界トップレベルの高い能力を有している証となります。このため、他のカテゴリに比べてGrandmasterになるための最低期間も長くなる傾向があります。一般的には、日本国内でGrandmasterと言うと、このカテゴリを指して言われることが多いように思われます。
カテゴリ毎に、Grandmasterの称号をもつ方の人数を 図1 に示しました。
世界中でGrandmasterの称号を持つ方は【427名(2023/5/11現在)】ですが、そのうち 286名(67%) がCompetitions Grandmasterです。
■国別Competitions Grandmaster数
Competitions Grandmasterに限定して、国別の在籍人数を調べてみました。(図2)
その結果、なんと日本は世界で2番目にCompetitions Grandmasterが多い国で、総勢48名!全体の17%の方が日本におられるということが分かりました(Grandmaster全カテゴリで言えば、他にNotebooks Grandmasterの方が3名おられるので、全体では51名のGrandmasterが日本にいるということになります)。
技術力的な意味で、日本が下降傾向であるような記事やニュースを見ることが多くありますが、この結果は勇気づけられる事実ですね。
もちろん、単純な技術力の比較でこの結果になっているものではなく、各国の就業への考え方や給与体系など、様々な要因によるものではあります。しかし、結果論として世界の中での日本技術者は高い水準のスキルを持っていると言えるのではないでしょうか。
Country | Competitions |
---|---|
United States | 57 |
Japan | 48 |
China | 36 |
Russia | 25 |
United Kingdom | 9 |
France | 7 |
Canada | 6 |
South Korea | 6 |
Ukraine | 6 |
Vietnam | 6 |
Germany | 5 |
India | 5 |
Other Countries / unknown | 70 |
*その他、Competitions Grandmasterはいなくとも、datasets, discussion, notebooks でGrandmasterの称号を持つ方が所在する国は、[Argentina Azerbaijan Bangladesh Belgium Egypt Indonesia Iran Jordan Kuwait Pakistan Philippines Portugal Romania Sweden]がありました。
■日本在住のCompetitions Grandmaster
せっかくなので、日本在住の48名のみ抽出して、そのリストを作ってみました。(表1)。
こちらは2023/5/11現在の情報です。ランキングやフォロワーなどは随時更新されますので、最新の情報は Kaggle Rankings よりご確認ください。
*表1は、kaggle登録順に表示してあります。
*所属組織(= Occupation)は、Kaggle内に表示されているもののみを明記しております。
表1:日本人Competitions Grandmasterリスト(2023/5/11現在)
表1を基に、どこの企業にどれだけのGrandmasterが在籍しているのかも可視化してみました。(図3)。
Company | 人数 |
---|---|
Rist |
5
|
Preferred Networks |
4
|
DeNA |
3
|
Aillis |
2
|
LINE |
2
|
Recruit |
2
|
Acroquest Technology |
1
|
CADDi |
1
|
DataRobot |
1
|
H2O.ai |
1
|
Keyence |
1
|
kgs go server |
1
|
LayerX |
1
|
MC Digital |
1
|
GO |
1
|
NSSOL |
1
|
NVIDIA |
1
|
Panasonic |
1
|
PKSHA Technology |
1
|
Quant |
1
|
Sansan |
1
|
Sprout.ai |
1
|
THIRD |
1
|
Turing |
1
|
UCIrvine |
1
|
Universal Knowledge |
1
|
東京大学 |
1
|
Weights & Biases |
1
|
電通デジタル |
1
|
Indeed |
1
|
(unknown) |
6
|
図3:日本在住Competitions Grandmaster所属企業(2023/5/11現在)
注)表1内「Occupation」がブランクでも、SNSやブロブなどで所属特定できた方もおりますので、図3にはそのような方もカウントして集計を出しています。
在籍判明した方だけで見ても、Rist、Preferred Networks、DeNA、Aillis、LINE、Recruitに、2名以上のGrandmasterが在籍していることが分かりました。図3に示した30組織はいずれもエンジニアリングカルチャーを大事にしていると言えるかもしれません。
■Kaggler向け求人
さらに突っ込んで、これらの企業求人も調べてみたところ、一部企業で「Kaggle枠」「Kaggler歓迎」求人がありましたので、一部紹介させていただきます。(2023/5/11現在)
やはり世界最高峰のエンジニア求人とあり、高い次元での課題抽出・解決能力の要求と、それに沿った高額報酬であることが伺えます。
▶ Rist: 画像AIチーム 画像AIエンジニア(Kaggle枠)
▶ DeNA: 【事業横断】データサイエンティスト(Kaggler枠)
▶ 電通デジタル: 【X-tech】AIエンジニア(デジタル広告)
▶ キーエンス: AIエンジニア(大阪)
▶ GO: データサイエンティスト
▶ PKSHA Technology: アルゴリズムエンジニア【予測最適化】
注)各社の採用状況により、募集締め切りや内容変更の可能性がございます。
最新の募集状況・要件などは各社の求人内容をご確認ください。
■参考情報
日本人Grandmasterの中には、GMになるまでの活動やその後の構想をブログにまとめていらっしゃる方もおります。これからKaggleに挑戦しようと考えている方、今まさにKaggleでGrandmasterを目指している方々の参考になればと思い、彼らのブログも紹介させていただきます。
▶ hirune924氏: KaggleでGrandMasterになるまでの5年間を振り返る
▶ tereka氏: Kaggle Grandmasterになるまでの7年間の軌跡
▶ カレーちゃん氏: Kaggleグランドマスターになったので、今後やりたいことを考える
▶ コルン氏: Kaggle Grandmasterへの軌跡
▶ s_shohey氏: Kaggle Grandmasterになるまで
■まとめ
テック系における日本の地盤沈下に関するニュースや、経済的な影響力の低下に関するニュースが多い昨今ではありますが、やはり最後まで”勝ち切る”と言う観点ではまだまだ日本の国際競争力は衰えていないように感じました。しかし、今後これらの優れたエンジニアの待遇が良くなっていかないと、優秀人材の海外流出などが危惧されます。研究者・技術者支援を行うResearchPortとしては、トップクラスのエンジニアの方々が今まで以上に活躍できるような新たなチャンスを創出できるよう努めてまいります。
● ResearchPortメンバーシップ募集:
https://research-p.com/mailform/
ResearchPortでは、研究者・技術者の方の研究事業開発サポートやキャリアサポートサービスを提供しております。ご興味がある方はResearchPortメンバーシップへご登録下さい。
● 工学系 新卒学生の就活支援について
https://univa-jp.com/lp/01/
機械・電気電子・情報系 学生[学部 / 修士生]の方で、就職活動(インターンシップ含む)を検討されている方は、弊社運営のUnivaにてキャリア支援に関する専門サービスを提供しております。
編集:ResearchPort事業部
■Contact
本記事に関する質問や、ご意見・ご要望などがございましたらResearchPortまでお問い合わせください。
https://research-p.com/contactform/
-
2024年12月26日
Google Scholar 引用数ランキング2024年版(コンピュータビジョン領域)
-
2024年10月21日
「ACL2024」ResearchPortトップカンファレンス定点観測 vol.16
-
2024年7月15日
「ICLR 2024」ResearchPortトップカンファレンス定点観測 vol.15