2023/07/08(土) 13:30 に名城大学天白キャンパスにて「第58回 名古屋CV・PRML勉強会」が行われました。


今回は「CVPR2023現地参加報告会」をテーマとの事で、実際にCVPR2023が行われたバンクーバーに行かれた学生および研究員の方が、それぞれの視点からCVPRの報告・発表するというイベントとなっておりました。
著名な研究者のAndrew Ng氏が普通に歩いていたり、Fei-Fei Li氏が日向ぼっこしているの見たとの事で、「生きていて実在するんだ」という感想が非常にライブ感があり良かったです(笑)

そういえば、JDLA主催でもCVPR2023の報告会がありますね。


JDLAのイベントとは規模が違いますので比較にはならないかもしれませんが…今回の報告会は非常に素晴らしいと感じました。
JDLAのイベントに参加される方も軽い予習みたいな感じで、読んでいただければと思います。

🎤オープニング(岡本直樹さん)

まずはオープニングという事で、幹事となる中部大学 工学研究科 D2 藤吉・山下研究室(MPRG)の岡本直樹さんの司会でスタートしました。

「名古屋CV・PRML勉強会」についてですが、名古屋で開催しているコンピュータビジョンに関する勉強会になります。幹事は先程の岡本さんと、名城大学の加藤さんの2人で行っているとの事。コロナ禍もありリアルでの開催は中断していましたが、ようやく落ち着いてきた事もあり、久々にリアル開催となったらしいです。

コロナ禍前は社会人の方も半数ぐらい参加されていたそうですが、久々の開催で社会人っぽい人は私1人だけの参加のようでした。学生さんだけでなく、社会人でも非常に学びの多い素晴らしいイベントと感じましたので…

ぜひ、社会人の方も参加してみてはいかがでしょうか?

発表側でも参加可能との事です!


さて、今回のテーマである「CVPR2023現地参加報告会」ですが…まずは…

「CVPR2023」ってそもそも何?

って方もいらっしゃると思いますのでそこからですね。

CVPR(Conference on Computer Vision and Pattern Recognition)は、コンピュータビジョンとパターン認識の分野で最も権威のある学術会議の一つとなります。毎年行われており、2023年の「CVPR2023」は6月18日〜6月22日にカナダのバンクーバーにて開催されました。どのような事が行われるかですが…

最新の研究成果の発表となる「メインカンファレンス」(論文プレゼンテーション)

論文の内容がポスターを通じて紹介され、ディスカッションが行われる「ポスター発表」

特定のテーマに焦点を当てた議論や発表が行われる「ワークショップ」

コンピュータビジョンの基礎から応用までを学ぶ「チュートリアル

最新の技術や製品が展示される「産業ブースでの技術展示」


…になります。
論文については、学術論文に特化した検索サービス「Google Scholar」において、その論文が他の研究者によってどれだけ引用されているかの回数などをもとにランキングが行われ、上位に入った論文が採択されるようになっています。

…あまり、説明を長くすると終わらなそうなので、これぐらいにして次に行きましょう。

発表を箇条書きにしているため、説明が不足している箇所があるかもしれません。重要なワードなどを参考に追っていただけたら幸いです。また、私が頑張って理解して書いている部分が多い為、間違った事を書いている可能性もあります。間違っている箇所については、ご指摘いただけると助かります。

🎤下村晃太さんの発表

1人目の発表は、中部大学 工学研究科 M2 山下・藤吉研究室(MPRG)下村晃太さんです。下村さんは単眼カメラを用いた自動運転技術,視線推定に関する研究に従事、株式会社 Elith にてリサーチインターンもされているとの事です。

【自動運転について】
全体的な傾向としてEnd-to-End(単一の深層学習モデル)な手法が多い。
CLIP(言語と画像のマルチモーダルモデル)やLLM(大規模言語モデル)の出現により自動運転技術は大きく変化。
GPT-4などを利用してのシーンの理解、アノテーションや物体検出への利用。
Bbox(バウンディングボックス)やマスク(領域)を使用した検出、シーンを表す文章での検出の両方による異常検知。
Nvidia、Teslaにて、知覚・予測・プランニング等,個別に最適なモデルを作成中、詳細な手法等は今後発表予定。

【CLIPとは?】
画像とペアとなるテキストも学習する事により、いい感じのEmbedding(ベクトル化による表現)を学習する手法。画像はビジョントランスフォーマーのエンコーダに入力、テキストはトランスフォーマーのエンコーダに入力して学習。Embeddingの空間は、画像とテキストを表現するための多次元空間であり、この空間では、関連する画像とテキストは近くに配置され、関連のないペアは遠くに配置される。例えば、猫の画像と「猫」というテキストは近くに配置される。これは、CLIPが画像とテキストの間の共通の特徴や意味を学習し、それらを関連付けることができる為となる。一方、猫の画像と「テニス」というテキストは、関連性がないため、遠くに配置される。

【人間に近い運転について】
自動運転を行う車両の周辺には人間が運転する車が存在するため、周辺の車と協調するような運転が必要。ベンチマークで高精度なだけでなく、人間に近い運転を目指す。自動運転において、人間だけ、深層学習モデルだけ、の表現空間を無くすような取り組みが行われている。

【コンピュータビジョンのスポーツ応用】
サッカーの試合において、同時に発生する複数のアクションを同時に推定したいが、複雑なシーンのアノテーションは困難であるため効率化が求められる。そのため、最も学習が難しいシーンのサンプルを選択する事により、モデルの収束速度を高速化することが提案されていた。
また、リアルタイムに視聴できないユーザーにライブのような臨場感を届けるため、サッカーの試合映像に対する詳細な説明の生成についての提案もあった。
VARは高コストであり、審判が不足している国も多い。そのため、審判にリアルタイムに情報を伝えることで公平・公正な判定を手助けする 審判の判定に特化したマルチカメラビューデータセットの公開についての話も出ていた。

【CVPRの傾向について】
3Dやアニメーション関連が多い。
物体検出やセグメンテーションタスクも多い。
Diffusion modelに関するキーワード数が急上昇。
Open-vocabulary(未知の単語や語彙を自由に処理すること、自然言語によるzero-shot手法など)も多かった。

🎤加藤聡太さんの発表

2人目の発表は、名城大学 堀田研究室 D3 日本学術振興会特別研究員(DC2)の加藤聡太さんです。岡本さんと一緒に名古屋CV・PRMU勉強会の幹事もされています。来年4月からセンスタイムジャパンに所属されるとの事です。

【Vision Transformerの説明性について】
アテンションマップを可視化するだけでなく、関係性のディスタンス(距離)も扱う事により解釈性を上げる。
深いところから浅いところへのCNNのような勾配の考慮と、アテンションマップの両方が重要。

【Deep learningの学習の効率化】
似ているトークンをマージして計算量を減らす。トークンを二つの集合に分けてマッチングし、マッチ度の高い順に減らしたい数だけマージする。Stable Diffusionに用いると計算量が半分になる。
学習などを行わずに学習済モデルを合体させるZipItという手法についてもあった。

【双曲線空間におけるディープラーニング手法】
すべてのディープラーニングの手法は、ユークリッド空間(直線的な距離)で行われると言えるが、双曲線空間として考える手法。例えば、word2vecの次元数を200次元から5次元に減らす事が出来たという例もある。この手法がコンピュータビジョンに入ってきており、最近ではPoincare ResNetが提案された。HypLLというライブラリも提供されている。

《HypLLの例》

class HeNet (nn. Module):
    def __init__(self):
        super ().__init__()
        self.conv1 = hnn. HConvolution2d(3, 6, 5, ball)
        self.pool = hnn.HMaxPool2d(2, ball, 2)
        self.conv2 = hnn.HConvolution2d(6, 16, 5, ball)
        self.fc1 = hnn. HLinear(16 * 5 * 5, 120, ball)
        self.fc2 = hnn. HLinear(120, 84, ball)
        self.fc3 = hnn. HLinear(84,10, ball)
        self.relu = hnn.HReLU(ball)


【SAM(Segment Anything Model)について】
Metaが開発した画像内のオブジェクトをセグメンテーションするためのモデル。セグメンテーションは、画像内の異なる物体や領域をピクセルレベルで分割するタスクで、SAMは柔軟性と汎用性に優れており、特定のクラスや特定の種類の物体のみでなく「何でも(Anything)」セグメント化することが可能。顕微鏡画像分野にSAMが適用されていたり、CVPRでも事あるごとにSAMが出ていた事もあり、セグメンテーションの分野ではSAMの利用は必須と考えられる。
データセットに含まれていないデータが課題と思われ、医療画像のセグメンテーションについてはSAMでは難しいと思われる。画像修復もSAMで可能かもしれない。セグメンテーションについては、SAMの登場でひとつの時代の終わりを感じさせる。

【ビジョントランスフォーマーで3Dを扱う】
TubeViT:行動認識、ビデオ合成タスクでSOTA。お手軽だけどテスト時の入力について考えさせられる。
MAGVIT(Masked Generative Video Transformer)など。

【ビジョントランスフォーマー+セグメンテーションの計算効率化について】
パッチ(入力用に小さく分割された)画像に意味があると思われる為、トークン(パッチ内の情報)のマージはセグメンテーションでは使えない。パッチ画像に同じクラスが含まれるかどうか予測して含まれる場合にはトークンを共有する方向で考える。
教師画像を作成し、Policy Network(どの行動を選択すべきかという問題を解決するためのネットワーク)を学習させる。

【セマンティックセグメンテーションの生成学習アプローチ】
セマンティックセグメンテーションを画像条件付きマスク生成問題として定義し、学習済みのVQVAEをそのまま使用するアプローチ。VQVAEは追加の学習なしで利用する。ドメインが異なる場合に強いらしい。

【3D点群解析用のノンパラメトリックネットワーク】
FPS(Farthest Point Sampling)という、点群データや3Dデータから特定の数の代表的な点(サンプル)を選び出す手法にk-NN(k-Nearest Neighbors)という、データポイントの近傍の点を見つけるための手法を適用してプーリングを行う。
学習パラメータや学習ステップを必要としない!
様々な3Dタスクで優れたパフォーマンスを発揮、学習した既存モデルの性能を上回る場合もある。大規模学習済みモデルを使わないのにここまでいけるという例。

【CLIP + Stable Diffusion Open-Vocabulary Panoptic Segmenation】
CLIPとDiffusionモデル、Open-Vocabularyをみんな使えば良いのではないか?という考え方。
そもそも、Stable Diffusion自体に物体認識能力があるとも考えられる。

【RGB画像ではなくjpegのままViTで学習】
ビジョントランスフォーマーとjpegの性質が似ている為、RGB画像を使うのではなく(全く何も変換なしではないが)そのままjpeg画像を学習データに使ってしまおうとする考え方。RGBと比較しても精度低下は起きず、推論速度は高速になったらしい。

【Yann LeCun氏の新作の表現学習】
Joint Embedding Predictive Architecture(JEPA:結合埋め込み型予測アーキテクチャー)を画像に適用。
画像に対する自己教師あり学習を通じて世界の抽象的な表現を学習する機械学習モデルとなるI-JEPAを提案。
欠陥情報を潜在空間内で予測するように学習する。
SimCLR(Simple Contrastive Learning of Representations)という教師なし学習の一種である深層学習における特徴表現の学習手法と、MAE(Masked Autoencoder)という入力の一部から残りの部分を再構築する構造のAutoEncoderを合わせて利用するイメージ。
従来の表現学習よりもよい表現を獲得可能出来たとの事。

【まとめ】
事前学習済みの大規模モデル(CLIP、Stable Diffusion、ViTなど)を使うのは当たり前。
どれだけ学習せずにタスクを解けるかを目指している人が多い。
大規模モデルとどう上手く向き合っていくかが重要。
精度と計算コストも重要視されている印象。

🎤足立浩規さんの発表

3人目…最後発表は、中部大学理工学部 AIロボティクス学科 藤吉研究室博士特別研究員(特定助教)の足立浩規さんです。研究テーマは「論文中の図を理解し、言語とアテンションで人に説明できるAIの構築」との事です。
2023年9月か10月にCarnegie Mellon University (カーネギーメロン大学)Robotics Institute、Kris Kitani LabのResearch Associate所属になるそうです。

【バンクーバーの美味しい食べ物】
IMG_8086.jpeg 790.75 KBJAPADOGは確かに美味しそう。

【ムーンショット計画について】
https://www8.cao.go.jp/cstp/moonshot/

MPRGのテーマとしては、グラフ図を読み解き言語を介して人に説明できるような取り組みを行っており、人と融和して知の創造・越境をするAIロボットの実現を目指す。人間とAIが協力してノーベル賞的な研究を行う。

【これまでのCVPRとの変更点】
たくさん交流してコラボ仲間を見つけたり、新しい友達作りに役立てて欲しいという意図が感じられた。

【CLIPPO(Image-and-Language Understanding from Pixel Only)について】
テキストも画像として扱いながら学習するCLIPの亜種。
CLIPは2つのエンコーダを使うからコストが高いが、CLIPPOは同じ入力にテキストも画像も両方入れるのでコストが削減される。
CLIPよりも少ないパラメータ数で同程度の性能を実現出来ているらしい。

【MixMAE(Mixed and Masked Autoencoder for Efficient Pretraining of Hierarchical Vision
Transformers)について】
SimMIM(Simple Framework for Masked Image Modeling)の学習の遅さなどの弱点を克服するためのMAEの新たな学習法。
2つの画像を混合してEncoderへ入カし、 画像のマスクを元に戻してDecoderで復元、2つの画像のvisible tokenのグループを混合する。SimMIM系手法より少ない学習回数で優れた性能を実現できる。

【Mixed Autoencoder for Self-supervised Visual Representation Learningについて】
これまで謎のベールに包まれたMIMの学習に適したデータ増幅方法。MAEよりもオブジェクトを意識したアテンションが得られる

【Adversarial Normalization: | Can Visualize Everything (ICE)について】
新たなビジョントランスフォーマーのアテンション可視化アプローチのための学習法の改善。前景と背景分離が割と綺麗で、セグメンテーション性能も良い。例えばフェンスの穴の向こうに鳥が沢山いて、そのフェンスと鳥を分離できたりも可能。

【Fine-grainedな問題設定にも有効な自己教師あり手法】
カテゴリー(鳥や猫など)を分けるのではなく、サブカテゴリー(鳥の種類など)を分けたい場合に有効な手法。対象学習過程において、きめ細かい視覚認識(FGVR)を必要としないパターンをフィルタリングし、GradCAM(活性化領域の可視化) Fitting Branchを導入して、ふるいわける。学習時間も同程度で、様々なデータセットで劇的な性能向上を実現したとの事。

【CLIP-S4: Language-Guided Self-Supervised Semantic Segmentationについて】
人手によるアノテーションや未知のクラス情報なしで様々なセマンティックセグメンテーションタスクを実現する。未知クラスに対する性能が劇的に向上した事にりり、SOTAモデルよりも優れた性能となる。

【IFSeg(Image-free Semantic Segmentation via Vision-Language Model)について】
学習中にタスク固有の画像を必要としない画期的なセマンティックセグメンテーション手法。CLIPベースの手法よりも定量的、定性的に優れた性能。Visionのタスクを解くために、言語と擬似画像のみで良い、という衝撃の事実。言語ベースに学習させると、アノテーションは不要??

【FSTs(Fair Scratch Tickets: Finding Fair Sparse Networks Without Weight Training)について】
宝くじ仮説にアイデアに基づいて、公平性を意識したモデルを獲得する手法。通常の宝くじ仮説では、モデルの枝刈りをして残った重みを学習する。FSTsはNNの重みの学習なしで従来法と同程度以上の性能を実現。重みを残しすぎると初期状態のNNに近づきランダムな推論となるという考え方。

【Towards Robust Tampered Text Detection in Document Image: New dataset and New
Solutionについて】

精巧に作られた偽装テキスト検知のための新たなデータセットと手法。視覚的特徴の欠点を補うように、周波数特徴も活用したモデル構造。人間の確認方法を模倣した機構をもつ。

【まとめ】
今年のトレンドはCLIP(言語と画像のマルチモーダルモデル)、SSL(自己教師あり学習)、DDPM(拡散モデル)であった。
来年はAGIに関する研究がもっと増えそう。
単に性能を争う時代はそろそろ終焉を迎えそう。
IMG_8102.jpeg 508.76 KB
最後に…
イベントが終わった後、幹事の岡本さんとお話しさせていただきました。「名古屋CV・PRML勉強会」と「CDLE名古屋」で共催して何か出来たら良いですね!というお話しをいただきました。
何かしら、こういう共催イベントがあると嬉しいなどのお話がありましたら、アイデアをいただけると嬉しいです✨