多くの視覚言語事前学習(Vision-Language Pre-training; VLP)技術は、英語中心の開発により、日本語データへの対応が不十分でした。
博報堂テクノロジーズは、画像エンコーダの改良と訓練データ量の増加、言語エンコーダの能力強化を通じ、日本語特化VLPモデルを開発。本モデルにより、例えば「桜の花が満開の公園」など具体的なシーンを日本語で検索した際、関連度の高い画像を正確に見つけ出すことが可能になるとのことです。
■詳細情報
開発したVLPモデルの技術的詳細や応用例については、博報堂テクノロジーズの公式Hugging Faceページを通じて提供されます。以下のリンクから、モデルの使用や研究への応用が可能です。
Japanese CLIP ViT-H/14 (Base)
hakuhodo-tech/japanese-clip-vit-h-14-bert-base · Hugging Face
https://huggingface.co/hakuhodo-tech/japanese-clip-vit-h-14-bert-baseWe’re on a journey to advance and democratize artificial intelligence through open source and open science.
Japanese CLIP ViT-H/14 (Deeper)
hakuhodo-tech/japanese-clip-vit-h-14-bert-deeper · Hugging Face
https://huggingface.co/hakuhodo-tech/japanese-clip-vit-h-14-bert-deeperWe’re on a journey to advance and democratize artificial intelligence through open source and open science.
Japanese CLIP ViT-H/14 (Wider) ※検索精度最高のモデル、推奨モデル
hakuhodo-tech/japanese-clip-vit-h-14-bert-wider · Hugging Face
https://huggingface.co/hakuhodo-tech/japanese-clip-vit-h-14-bert-widerWe’re on a journey to advance and democratize artificial intelligence through open source and open science.
出典元:株式会社博報堂テクノロジーズ
※詳細については出典元の企業にお問い合わせください。
マナミナは" まなべるみんなのデータマーケティング・マガジン "。
市場の動向や消費者の気持ちをデータを調査して伝えます。
編集部は、メディア出身者やデータ分析プロジェクト経験者、マーケティングコンサルタント、広告代理店出身者まで、様々なバックグラウンドのメンバーが集まりました。イメージは「仲の良いパートナー会社の人」。難しいことも簡単に、「みんながまなべる」メディアをめざして、日々情報を発信しています。