fashion-style-instructデータセットを使ってみよう!
本記事では、テキストベースのファッションデータセットである「fashion-style-instruct」の概要と使い方を簡単にまとめている。本データセットを使ったLLMの追加学習に関しても後日追記予定である。
fashion-style-instructデータセットの概要
着用者の特徴と着用シーンから、コーディネートを推薦するためのテキストベースデータセット
本データセットは、GPT-3.5で作成された
データセットには、以下の三つ組みが大量に含まれる
input: 着用者の身体的特徴や性別、服の好みが記されたテキスト
context: 着用シーンが記されたテキスト
completion: 具体的なコーディネートを説明したテキスト。各inputにつき、5つのコーディネートが含まれる。コーディネートはトップス・ボトムス・シューズ・アクセサリーで構成されている。
リポジトリ内には、本データセットで学習したMistralのパラメータも配布されている
データセットの使い方
HuggingFace上の公式リポジトリから、データセットをダウンロードできる
ファイル形式は.parquet
以下のようなサンプルコードでデータセットの中身を確認できる
code:python
#サンプルコード
import pandas as pd
# Parquetファイルを読み込む
df = pd.read_parquet("data/train-00000-of-00001-9b0ae8e510f95a07.parquet")
# データの中身を表示
print(df.head())
(補足)Parquet形式のデータ
列形式でデータを管理するフォーマット(csvは行形式)
高速な読み書きが可能で、大規模なデータを管理する時に適している
ファイルの拡張子は.parquet
コメント
割と小規模で、かつGPT-3.5が生成しただけのテキスト群であるため、「うーん」という感じ
自分の研究には直接使うことはできなさそう
参考サイト
データセット公式リポジトリ(HuggingFace)
https://huggingface.co/datasets/neuralwork/fashion-style-instruct
#Yuma_Oe