About Cosense
Help
Log in
らぎメモ
重
回
帰
分
析
説
明
変
数
が
複
数
あ
る
場
合
の
回
帰
式
を
求
め
る
手
法
.
例
と
し
て
,
説
明
変
数
が
3
つ
あ
る
場
合
に
y
=
β
0
+
β
1
x
1
+
β
2
x
2
+
β
3
x
3
y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_3
y
=
β
0
+
β
1
x
1
+
β
2
x
2
+
β
3
x
3
の
よ
う
に
回
帰
式
を
設
定
し
,
偏
回
帰
係
数
を
求
め
る
.
標
準
偏
回
帰
係
数
重
回
帰
式
に
お
け
る
変
数
重
要
度
を
示
す
指
標
の
一
つ
.
各
説
明
変
数
を
平
均
0
,
分
散
1
に
標
準
化
し
て
か
ら
回
帰
係
数
を
求
め
て
得
ら
れ
る
値
.
t
値
一
般
に
影
響
度
は
t
値
で
考
察
す
る
.
絶
対
値
が
大
き
い
ほ
ど
影
響
が
強
い
こ
と
を
意
味
す
る
.
絶
対
値
が
2
よ
り
小
さ
い
と
あ
ん
ま
り
意
味
が
な
い
と
い
う
目
安
が
あ
る
.
p
値
説
明
変
数
の
係
数
の
有
意
確
率
を
表
す
.
一
般
に
5
%
未
満
な
ら
,
そ
の
説
明
変
数
は
目
的
変
数
に
対
し
て
関
係
性
が
あ
る
と
判
断
で
き
る
.
多
重
共
線
性
に
注
意
す
る
.
R
2
:
重
決
定
係
数
重
回
帰
分
析
の
精
度
を
表
す
指
標
.
説
明
変
数
が
増
え
る
と
R
2
も
大
き
く
な
る
が
,
見
か
け
上
大
き
く
な
る
だ
け
な
の
で
注
意
す
る
.
Related
Sort by
Related
Modified
Created
Last visited
Most linked
Page rank
Title
Links
標準化
[データ]の[平均]が0,[分散]が1であるようにすること.
分散
データが[平均]値を中心にどれだけ散らばっているかを表す[$ s^2 = \sum_{k=1}^{N}(x_k-\overline{x})^2/N][分散]に関する公式[$ V[aX]=a^2V[X] ][$ V[X+a] = V[X] ]
多重共線性
multicollinearity: [マルチコリニアリティ][説明変数]の中に,[相関係数]が高い組み合わせがあること.このとき,[説明変数]を両方使う必要がない.[変数]の[2変量解析]を行って[相関係数]を確認する.
決定係数
単回帰分析
[説明変数]が1つの[回帰]モデルを用いた[回帰分析].[最小二乗法]は[単回帰分析]のうち線形の回帰式を求める手法.=> [重回帰分析]
線形回帰
[データ]の関係性を[回帰直線]で考えるもの.1つの[入力]とそれに対する[出力]について行う[回帰分析]を[単回帰分析]という複数種類のものを[重回帰分析]という[ラッソ回帰][リッジ回帰]
説明変数
ナイーブベイズ
[ベイズの定理]に基づいて行われる[教師あり学習]の手法.[説明変数]がすべて独立であるというナイーブな[仮定]に基づいている.
過学習
[過剰適合]・[オーバーフィッティング]ともいう[過学習]の原因[特徴量]が[データ]数に対して多い本質でない[データ]まで合うように[学習]しようとすること[モデル]の[関数]が複雑である
平均
変分オートエンコーダ
[VAE]ともいう.[入力]を圧縮するのではなく[統計分布]に変換し[平均]と[分散]で表現するように[学習]する[オートエンコーダ].[カルバック・ライブラー情報量]をベースとした[誤差関数](正確には[目的関数])が[最適化]計算に用いられている.
正規化層
[層]で伝わる[特徴量]の[分布]を[平均]0,[分散]1になるようにする処理.各[層]で[活性化関数]をかける前に[正規化]することを[バッチ正規化]という.
中心極限定理
[サンプルサイズ]が大きい場合に,[標本分布]が[平均][$ \mu],[分散][$ \frac{\sigma^2}{n}]の[正規分布]に近づく.
変動係数
[標準偏差]を[平均]で割った値.[CV]と書かれることもある.[平均]に対する相対的な[標準偏差]の値.価格の違う商品間での比較を行いたい場合,価格が違うため単純に[標準偏差]を比較することができない.[平均]と[分散]に比例関係がある[比例尺度]の場合に有効な指標であり,[間隔尺度]では有効でない.#統計
Global Average Pooling
[CNN]において,ある[チャネル]の全[ピクセル]の[平均]を計算し,1つの[スカラー]として圧縮する処理.
プーリング層
[ニューラルネットワーク]において,一定のサイズの[データ]の[平均]や[最大値]などを代表値として採用することで,[データ]のズレなどに対する頑健性を与える[層].[平均値プーリング][最大値プーリング][Lpプーリング][画像認識]など
バギング
全体の一部の[データ]を用いて複数の[モデル]を用意して行われる[学習]を指す[アンサンブル学習]の一種.複数のモデルそれぞれ別に[学習]させ,[出力]の[平均]や[多数決]によって最終的な[出力]を得る.
チャムラ
sql.DB
[Go]で提供される[データベース]との接続に用いられる[型].[データベース接続]を[プール]し,`open`と`idle`の2つの状態の接続を含んでいる.[SetMaxOpenConns()]同時に開くことのできる接続を制限する.多ければ多いほど,`open`が`idle`になるまで待機する[平均]的な時間が小さくなるので,速くなる.
再現レベル
[再現レベル][$ z_p]を超える現象が観測されるのは期間[$ 1/p]で[平均]1回であるとするもの.
標本平均超過
ある[閾値][$ u]に対して,[$ u]を超過した[標本]の[平均].
ハフマン符号化
[エントロピー符号]の一つ.出現が多い記号には短い[ビット列]を割り当てる([符号語])ことで[圧縮]を行う.1記号あたりの[平均][ビット]長が最小になるようにする.[二分木]を用いて割り当てを決定する.[可逆圧縮]である.
三点見積法
[工数]を見積もる手法の一つ.[最頻値]と悲観値と楽観値に分けて重みをつけて[平均]する.[$ Ave. = \frac{悲観値 + 4 \times 最頻値 + 楽観値}{6}]
MTTR
Mean Time To Repair[修理]にかかる時間の[平均].この値が小さいと[保守性]が高いと言える.[エラーログ]や[命令トレース]など[復旧]のための手がかりを残しておくことが重要.
パレート分布
[$ Pa(a, b)][スケールフリー]などの特徴から自然界をよく表していると期待されている[分布].2つのパラメータ[$ a, b]を用意する.ただし,[$ a>0, b>0].[確率密度関数][$ f(x) = \frac{ab^a}{x^{a+1}}]
尖度
平均周りのモーメント
[$ \mu(k) = \int(x-m)^kf(x)dx][$ m]:[平均][$ f(x)]: [確率密度関数]
歪度
点推定
[平均]値などを1つの値で推定すること.=>[区間推定]
移動平均
[時系列データ]において,一定区間ごとの[平均]値を区間をずらしながら求めたもの.区間を奇数でとるかと偶数でとるかによって計算方法が異なることに注意.参考https://bellcurve.jp/statistics/blog/15528.html
正規母集団
[正規母集団]では[標本平均]を作ってもその[分布]は[正規分布]のまま.[平均]は保存されるが,[標準偏差]は[$ \frac{\sigma}{\sqrt{n}}]になる.
調和平均
[平均値]の一種.[$ \frac{2}{\frac{1}{x}+\frac{1}{y}}]で計算される.[速度]のようなものの[平均]を考える場合に用いられる.具体例往路を速さ[$ x],復路を速さ[$ y]で移動した場合,平均の速さは?
分散
白色化
[データ]の[相関]をなくした上で[分散]の[正規化]を行う,[学習]の効率化を目指した[前処理].
主成分分析
多くの[変数]をより少ない指標や合成変数にまとめる[次元削減]を行い,[分析]しやすくする手法.測定データを最もよく表現する軸を新たに作成する.新しい[変数]([主成分])は入力変数の線型結合としてその[分散]が最大になるように決定される.各[主成分]は互いに直交するように決定される.#統計
NewSQL
[一貫性]と[SQL]を利用できるという[RDBMS]の特徴を備えたまま,複数の[サーバ]に[分散]し[スケーラビリティ]と[可用性]を確保できるとされている.[RDBMS]の[スケーラビリティ]の問題を解決する[NoSQL]では,[トランザクション]や[整合性]に課題があった.[サーバコスト]や[レイテンシ]の部分でやや劣る場合がある.[クラウドサービス][Cloud Spanner]
達人が教えるWebパフォーマンスチューニング
[[1 [チューニング]の基礎知識]][Webサイト]の[パフォーマンス]の低下は[ユーザ]の離脱につながる.[Google]は[Core Web Vitals]を[検索順位]に考慮している.[SEO]の観点からも[Core Web Vitals]が重要.[RTT]を短くすることが目標と[定義]できる.
閾値超過
[[[閾値]の選択]][閾値]が小さい -> [一般パレート分布]への適合が悪くなる.[閾値]が大きい -> [データ]が少なくなる.[推定]の[偏り]は小さくなるが[分散]が大きくなる.次の手法がある.
RAID
Redundant Arrays of Inexpensive Disks複数台の[HDD]を仮想的に1つの[ドライブ]であるように[計算機]に認識させる技術.1つの[HDD]が破損してもその[HDD]を交換すれば対応できる.[冗長性]を確保できる.[RAID]には[データ]の割り振り方や[冗長化]の程度に応じて様々なレベルが存在する.
RAID/パリティチェック
[パリティ]と呼ばれる[HDD]1台文の容量の[データ]を付加して保存することでいずれかの[HDD]が故障しても[パリティ]から復旧することができる.[パリティ]の演算で[CPU]に負荷がかかるデメリットがある.[RAID5]では[冗長ディスク]を[ブロック]ごとに[分散]して保存する.[RAID6]では[パリティ]を2重に生成している.#RAID
ウェルチのt検定
等[分散]を仮定せずに用いることができる[t検定]の一つ.[スチューデントのt検定]は2群間の等[分散]が仮定できる場合にしか用いることができない.[スチューデントのt検定]を用いる場合は,[等分散性の検定]を経て等分散が否定されないことを確認する必要がある.しかしながら,[検定]には[多重性の問題]があるため,最初から[ウェルチのt検定]を用いたほうが良いと言う声がある.
プールされた分散
対応のない2群の[分散]をまとめた表現.[$ s^2_p = \frac{(n-1)s_1^2 + (m-1)s_2^2}{n+m-2}]
離散一様分布
離散値が[一様分布]する[確率関数].[期待値][$ E(X) = \frac{N+1}{2}][分散][$ V(X)=\frac{N^2-1}{12}]
指数分布
利用開始から機械が壊れるまでの確率など,次に何かが起きる[確率]を表す[確率分布].[$ f(x)=\lambda e^{-\lambda x} (x>0)][期待値][$ E(X)=\frac{1}{\lambda}][分散]
ポアソン分布
[二項分布]の[$ n]が大きく,[$ p]が小さい場合,期待値[$ np]を[$ np=\lambda]と近似することができる.[ポアソン分布]は「ある期間に平均[$ \lambda]回起こる現象が、ある期間に[$ X]回起きる[確率分布]」と言い換えられる。[$ X \sim Po(\lambda)]と書く.[$ P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!}][$ \lambda]が大きい場合,[正規分布]に近づく.
二項分布
[期待値][$ np][分散][$ np(1-p)][ベルヌーイ試行]をn回行った場合に,成功する回数Xが従う[確率分布].
スチューデントのt検定
[t検定]の一種.独立2群間が等[分散]を仮定できる場合に用いることができる.等[分散]が仮定できない場合は[ウェルチのt検定]を用いるべきである.http://www2.vmas.kitasato-u.ac.jp/lecture0/statistics/stat_info03.pdfしかしながら,サンプルサイズがだいたい同じであれば(倍近く差がなければ)[ウェルチのt検定]とさほど違いはないらしく,
正規分布
[$ f(X) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp{(-\frac{(x-\overline{x})^2}{2\sigma^2})}][確率密度関数]なので全区間で積分して1になる.[$ N(\mu, \sigma^2)]と表すこともある.NはNormalのN[標準正規分布]というのもあり,全ての[正規分布]は[標準正規分布]に変換できる.
標準偏差
Standard Deviation [SD法]データが平均値の周辺にどのくらいの広がりや散らばりを持っているか[分散][$ s^2]を用いて[$ s=\sqrt{s^2}]分散はサンプルと単位が揃わない(サンプルの単位の二乗が単位)ので,sqrtで単位を揃えている.
標準化
バッチ正規化
各[層]で[活性化関数]をかける前に[[[標準化]]]することを[バッチ正規化]という[正規化]ではないことに注意[asRagi.icon]キレそう[勾配消失問題]を軽減できる.[計算]が[高速]になる
標準正規分布
[標準化]した[正規分布]
H.265/HEVC
[H.264/AVC]の後継として登場した[ビデオコーデック].[2013年]に[標準化]された.[300fps]と[8K]までサポートする.[H.264/AVC]との比較でも2倍の[圧縮]性能を持つ.[iOS 11]以降でリオ湯可能
OpenMetrics
[Prometheus]で用いられていた[フォーマット]を[標準化]したもの.これにより,[Prometheus]に対する多くの[exporter]が[開発]されている.[node_exporter]
Error Cause
[ES2022]で[標準化]されることが決定した[ECMAScript]の[仕様].[エラーチェイン]に対する[仕様].
qlog
[QUIC]用の[ログ]形式.[IETF]で[標準化]が検討されている.
HTTP/2
[Google]が考案した[SPDY]という[プロトコル]をもとに[2015年]に[RFC_7540]として[標準化]された.[HTTP/1.1]との[互換性]のもと[通信]の[高速化]や[ネットワーク帯域]の[効率化]が達成されている.[TCPコネクション]の上で[並列処理]することで[Head-of-Line-Blocking問題]に対応した.各[スレッド]を[ストリーム]として管理する.実際に[並列]に送信しているわけではない.
ゲームサウンドにAmbisonicsは必要?Ambisonicsから紐解くゲームサウンドの3DPlanningの可能性
[CEDEC_2020]での講演.以下の講演内容を前提としている.[これで解決!ゲームに必要な3Dオーディオの全て][基礎から応用 3DサウンドAmbisonicsでなにができる?][モバイルVRゲームにAmbisonicsを実装してみた〜釣りスタVRでのサウンド事例〜]
ECMAScript
[JavaScript]の[標準化]された仕様を定めたもの.
XBRL
eXtensible Business Reporting Language[財務報告]用の情報を作成できるように[標準化]された[XML]ベースの規格.
SCAP
Security Content Automation Protocol[IPAセキュリティーセンタ]が開発した[情報セキュリティ]の[自動化]と[標準化]を目指した技術仕様.[脆弱性]を識別するための[CVE][脆弱性検査ツール]や[JVN]などの多くが利用している.[セキュリティ]設定を識別する[CCE]
母比率の区間推定
[二項分布]の成功確率[$ p]を区間で推定する.[$ p]が[母比率]に対応する.[$ n]が十分に大きい時,[二項分布]は[正規分布]で近似できる.これを[標準化]した値,[$ Z=\frac{X-np}{\sqrt{np(1-p)}}]は[$ N(0,1)]に従う.ここで,[$ p]の[推定量][$ \hat{p}]は,
t値
LSD法
絶対値
L1正則化
[誤差関数]に対して[パラメータ]の[絶対値]を[ペナルティ]として課すことで[パラメータ]が大きくなることを防ぐ[正則化]の手法.[パラメータ]が0になる場合が多く,その場合はその[特徴量]を無視できるため,[次元削減]としても価値がある.[線形回帰]に対して適用したものを[ラッソ回帰]と呼ぶ.
絶対誤差
[誤差]の[絶対値]
情報落ち
[絶対値]の大きな値と[絶対値]の小さな値を加減算すると[絶対値]の小さな値の一部または全てが結果に反映されなくなってしまうこと.[仮数]が3桁の場合,[$ 0.123 \times 10^2 + 0.123 \times 10^{-2} = 0.123 \times 10^2 + 0.0000123 \times 10^2 = 0.1230123 \times 10^2 = 0.123 \times 10^2]
目的変数
残差
[回帰]式に基づいて求められた[目的変数]の値と,実際に観測された値との差.[残差]の総和は0になる.
精度
L3リールガン(3)
L3リールガンD(3)
スキップ結合
[ディープラーニング]において[層]が非常に大きくなったことで起こる[精度]の低下を低減するために行われる,[層]を飛び越えて結合する手法.[層]が増えることで[誤差逆伝播法]の効果が小さくなることが原因[ResNet]で導入された[U-Net]でも導入されている.
EfficientNet
広さや深さ,[解像度]を[最適化]しながら[スケール調整]することで小さな[モデル]で効率よく高い[精度]を達成した[CNN]の[モデル].この[スケール調整]を[Compound Coefficient]と呼ぶ.
半教師あり学習
[教師あり学習]において,[正解]のない[データ]も[学習]に用いる手法.[正解データ]に基づいて擬似的な[正解]を与える[FixMatch]は[一致性正則化]を組み合わせて高い[精度]を得ている.
指標
Brix
[溶液]中の[濃度]を表す[指標].おもに[糖]などの測定に用いられる.
FCP
First Contentful Paint[ブラウザ]が最初の[コンテンツ]を表示するまでの[時間].[Webサービス]の[パフォーマンス]の[指標]として利用される.
Core Web Vitals
[LCP]: [Largest Contentful Paint][ページロード]の[パフォーマンス]の[指標].[サイズ]が最大の[コンテンツ]の表示に要する[時間].2.5[秒]以内が要求される.[FID]: [First Input Delay]
SQLパフォーマンス詳解
https://use-the-index-luke.com/ja[[前書き]][SQL]では「何が欲しいか」だけ書き,「どう機能するか」を見ないで済むので嬉しい.[パフォーマンス]が問題になる場合にむしろ逆効果になっている.[インデックス]を正しく貼ることがとにかく大事.
New Links
偏回帰係数
標準偏回帰係数
変数重要度
回帰係数
p値
係数
有意確率
重決定係数
Created
6 years ago
by
Ragi
Updated
4 years ago
by
Ragi
Views: 26
Page rank: 13.8
Copy link
Copy readable link
Start presentation
Hide dots
重回帰分析
説明変数
が複数ある場合の回帰式を求める手法.
例として,
説明変数
が3つある場合に
$ y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_3
のように回帰式を設定し,
偏回帰係数
を求める.
標準偏回帰係数
重回帰式における
変数重要度
を示す指標の一つ.
各
説明変数
を
平均
0,
分散
1に
標準化
してから
回帰係数
を求めて得られる値.
t値
一般に影響度は
t値
で考察する.
絶対値
が大きいほど影響が強いことを意味する.
絶対値
が2より小さいとあんまり意味がないという目安がある.
p値
説明変数
の
係数
の
有意確率
を表す.
一般に5%未満なら,その
説明変数
は
目的変数
に対して関係性があると判断できる.
多重共線性
に注意する.
R2:
重決定係数
重回帰分析
の
精度
を表す
指標
.
説明変数
が増えるとR2も大きくなるが,見かけ上大きくなるだけなので注意する.