「KSKP」は、「誰もが当たり前にデータ分析・活用ができる社会」の実現に向けて、KSKアナリティクスが独自開発したデータ分析プラットフォームです。

よくあるご質問faq

よくあるご質問をご紹介させていただきます。
本ページに記載がない項目については問い合わせください。

製品全般について

KSKPは、どのようなツールなのですか?
KSKPは、透明性・理解性の高い処理プロセスを通じた組織的な連携、高速な実行性による運用システムの開発、分析業務の専任者ではないユーザー層での前処理の実現の手段として、「誰もが当たり前にデータを分析・活用できる」を支援するデータ前処理に特化した分析プラットフォームです。
KSKPは、ETLツールなのですか?
KSKPにはETLと共通する機能もありますが、活用の狙いが異なるためユーザ層、ユースケース、データ処理の機能は異なっています。KSKPは、機械学習のためのセルフ型のデータマート作成ツールです。

■ETL
・多様なデータソースから、整形したデータを蓄積することが狙い
・主にデータソースの種類や状態への対応を指向した機能
・データ蓄積のための基幹系システムとして運用される

■KSKP
・機械学習のために、対話的に必要なデータセットを作成するのが狙い
・主に機械学習に有用なデータ作成への対応を指向した機能
・セルフ型のプロジェクトで、対話的なデータマート作成環境として運用される
分析業務の専任者ではない現場部門で、データ前処理を行う必要がありますか?
DX(デジタルトランスフォーメーション)実現の一環として、IoTや機械学習の適用を組織的に活性化させたい場合、分析業務の専任者だけから社内の誰もが活用へと使用者を拡大させることが、成功の鍵となります。

この取り組みとして、Pythonなどのプログラミング言語の習得や、AutoML(自動化された機械学習)の活用により普及させるなどが行われていますが、使用者の拡大につれて、データ前処理の隠れた問題に直面する恐れがあります。

この問題は、データ分析活用の経験者は認識していながら後回しにされてきたもので、今後の活性化において、前処理の問題が顕在化してブレーキとなる恐れがあるため、労力最大のネック工程であるデータ前処理への対処も重要となります。
そもそもデータ前処理が労力最大のネック工程といわれるのは、なぜですか?
データ前処理とは、データソースと機械学習などの分析モデルの間をつなぐ一連のデータに対する加工処理です。

労力を要すのは、3つの特性に起因しているためです。
・処理内容が多様であること ※注
・複雑で煩雑な加工では、実装とデータ品質の確認に手間がかかること
・改善のために処理を反復すること

つまり、多様性のために考える時間と実装と確認に大きな手間が必要な上に、反復しながら修正を行う必要があり、分析者がより良い結果を求める労力の大半を費やしてしまうのが現状です。

※注
■データ前処理の多様性
・データ間の紐付け
・データの意味の整合性確保
・分析に悪影響を及ぼす欠陥の除去や緩和
・データの表現形式の変換
・機械学習モデルの一部となる特徴量の作成
現場部門によるセルフ型で機械学習の活用を活性化させたいのですが、データ前処理もセルフ型で行う必要がありますか?
データがDBに整備されていたとしても、機械学習モデルを作成する場合にデータ前処理が必要になります。

■製造業の生産現場でよくあるケース
・業務データ: 生産管理システムなどの基幹系情報
・ログデータ: IoTなどのセンサー履歴

品質不良要因を分析したい場合、業務データとログデータを紐付ける必要がありますが、分析の目的やDBの整備状況によっては、紐付けのキー項目が存在しないことがあります。

■対処方法
・分析業務を専任とする支援部隊やIT部門が前処理を代行する
・現場部門でプログラミングして前処理を行う

前処理を代行する場合は、社内での活性化にともない作業量が増大します。
現場部門で行う場合は、プログラミングスキルがあったとしても、労力最大のネック工程という重労働の負担をかけてしまいます。

組織的に分析活用を活性化させたい場合は、現場部門での活用が可能なセルフ型の前処理ツールを導入することで、支援部隊、現場部門 双方の負荷を削減できます。
データ前処理は多様性が高いため、SQLやPythonなどでプログラミングするのがベストではないですか?
分析業務の専任者がデータ前処理を行う場合には、日々使用している熟知した自由度の高いプログラミング言語を駆使するのは、良い選択です。

ただし、分析業務の専任者ではない現場部門の人が、稀に行う分析の際にプログラミング言語を用いて前処理を行うのは、現実的とはいえません。

なぜなら、分析業務の専任者でも重労働な作業を強いるため、心理的、労力的な負担が高いため分析活用のモチベーションを失い、社内へのデータ活用の普及を阻害する恐れがあるためです。

現場部門での活性化のためには、心理面と労力面で負担を軽減する支援が必要です。
データ前処理が事実上ブラックボックス化するとは、どういう状況ですか?
理解性が高い状態を、
「他の人が最短時間で理解できる実装がされていて、変更したり、バグを見つけたりできる状態」
と定義すると、ブラックボックス化とは、
「容易に変更ができないほどに、理解に時間を要す状態」
といえます。

変更が容易ではないのであれば、事実上ブラックボックス化している状態です。KSKPでは、作成者以外の人の可読性・理解性を高めることで、組織的で継続的な活動の生産性を高めることを目標として開発されています。
データ前処理がブラックボックス化すると、どんな弊害があるのですか?
データ前処理がブラックボックス化すると、以下の弊害があります。
・連携面:引継ぎの際に、双方に余分な労力を要する
・変更面:将来の改修・発展時に、余分な労力を要す
・品質面:データ処理の品質の確認に、余分な労力を要す

連携の面では、分析者と運用システム開発者、システム開発者とシステム運用者などの役割の異なる人との連携と、それぞれの担当者の変更があります。
変更面では、データソースや項目の追加・項目、特徴量の追加、データクレンジング要件の変更などの際に、データ前処理も対応が必要になります。
品質面では、そのデータ前処理が必要とされているデータ分析的に正しい処理を理解し、実装も正しいと確認することが必要になります。

データ前処理がブラックボックス化すると、連携や変更時に余分な労力が必要となるか、引継ぎや修正を断念した場合は、ブラックボックス化を進展させてしまいます。
KSKPで作成したデータ前処理は、ブラックボックスにならないのですか?
KSKPは、データ前処理のプロセスを直感的に理解できるように開発されています。

■レイアウト上の配慮
・処理をネットワーク表示して、分岐、合流を直感的に俯瞰
・情報処理の原則 IPOモデルで、入力・処理・出力を直感的に確認

■処理内容の設定上の配慮
・処理に必要な本質的な情報のみ設定し、プログラム制御の指定を排除
  例 for文を廃止し、項目を指定し、その値別に反復処理を行わせる
  例 for文を廃止し、項目名の条件を指定し、マッチした項目ごとに反復処理

■項目名の名前付け上の配慮
・反復処理の結果で生成される複数項目の名前付けルールを指定可能

■処理の意図の伝達上の配慮
・メモを配置して、処理の目的と期待する結果などを、直感的に説明可能

KSKPでは、goto文やfor文のような可読性・理解性を妨げるものを廃止しています。ただし、他の人が正しい設定かを理解するには、適宜、処理の意図や必要性などをメモとして残すなどの作成者側の他人に対する配慮が不可欠です。
機械学習モデル作成ツールにも前処理機能があるので、ブラックボックス化に気をつければ問題ないですか?
組織的に機械学習の活用を促進する上で、データ前処理において、2つの隠れた問題に直面する恐れがあります。

■隠れた問題
・前処理が、ブラックボックス化することで生じる損失
・前処理の重複開発による労力の損失

ブラックボックス化問題とともに、重複開発のムダが顕在化してきます。

■一般的な機械学習モデルの作成
   データソース
  → 分析用データ作成 (共通化可能な前処理)
  → 機械学習モデル作成(個別の前処理 + 個別のモデル化)

個別の前処理とは、適用する手法と目標とするレベルに応じて個別の工夫を行う場合の加工処理です。一方、共通化可能な前処理は、課題によりほぼ特定されるデータソースの選定や必要なデータ粒度により行う加工処理で、例えば、重回帰と決定木と異なる手法であっても、共通する部分が多くあります。

このように、データソースは簡単に増やすことが難しいこともあり、変化が少ないのに対して、モデル化手法は種類が多く、状況により特徴量を追加など、変化が多いという特性があります。

重労働な前処理において、1人の分析者だけでなく、組織全体として労力を削減するために、前処理の共通化が容易かどうかも、ツール選定で重要な判断ポイントとなります。
前処理を共通化しない場合、どんな弊害があるのですか?
共通化が可能な前処理を、共通化しない場合に、以下の弊害が起こります。

■データ前処理の重複開発による労力の損失

【1つの課題での反復作業】
分析の状況に応じて生じる反復作業により、共通のデータ処理が多数のプログラムに派生し、データソースの追加や共通のデータ処理を改良したい場合に、余分な労力を要す

【複数の課題での重複作業】
異なる機械学習モデル開発時に、重複したデータ処理を開発し、余分な労力を要す

前処理は、分析作業の労力の大半を占める最大のネック工程のため、労力のムダを回避するために、共通化を意識して進めることが重要です。
前処理のブラックボックス化問題、重複開発問題に対して、どのような対策がありますか?
分析業務の専任者ではない現場部門での活用を活性化させるために、4つの対処が考えられます。

■対処策
①関係者が理解容易で処理内容が透明な、前処理のプロセスを作成する
②作成した前処理プロセスは、運用性に優れている
③作成した前処理プロセスを、簡単に他のユーザーへ共有部品として提供できる
④ユーザーが自発的で簡単に、他のメンバーとの共同プロジェクトを始められる

これらは、前処理に関して余分な労力を削減し、分析者と関係者の心理的なプレッシャーを下げることで、機械学習活用への挑戦意欲を高めて活性化させることを狙った対処策です。KSKPでは以下の機能で、活用の活性化を支援します。

■KSKPにおける対処策の機能
① セルフ型のノーコードによるデータ前処理プロセスの作成機能
② 自動的にパイプライン処理として高速に実行するエンジン機能
③ セルフ型の共有部品の作成機能
④ セルフ型のプロジェクト管理機能
前処理のブラックボックス化問題、重複開発問題に対策を講じた場合、どんな効果が期待できますか?
分析者は「良いモデルを早くつくる」ことに精一杯で、「良い分析システムを効率的につくる」ための開発部門との連携や引継ぎの容易性を考える労力的、心理的な余裕が少なく、問題が先送りされてしまうのが現状です。
分析者、開発者、運用者などの関係者と連携した開発において、対処策を通じて将来的に生じる損失の回避が可能になります。

またデータ処理自体の複雑で煩雑な特性から、通常プログラムの作成者であっても、期間を経ると理解が難しくなるという現状から、関係者が理解容易な処理プロセスを作成可能な環境を整備することで、分析者の心理的、労力的な負担を軽減します。これにより、分析業務専任者ではない現業部門での自発的な活用の促進と、活用されないことによる機会損失の抑制に、貢献します。
KSKPが効果的なユースケースは何ですか?
KSKPは、分析業務の専任者ではないユーザーに対しても、セルフ型のデータ前処理を可能にする分析プラットフォームです。

■KSKPが効果的なユースケース
・セルフ型の前処理とAutoMLと組み合わせて、ユーザー層を拡大したい
・DataOps、MLOpsの取り組みにおいて、前処理の隠れた問題点も対策したい
・機械学習モデルは課題への最適化のため共通化は難しいが、データ前処理の共通部分は組織で共有したい

注釈
・AutoML:自動化された機械学習
・DataOps:継続的にデータ活用を維持発展させる取組
・MLOps:継続的に機械学習モデルを維持発展させる取組

■ KSKPが効果的でないユースケース
・作成者以外の人はブラックボックで問題なく、使い捨てのデータ前処理を素早くつくりたい

機能について

データ前処理の作成は、どのように行いますか?
Webブラザから、入力データと処理を行うコマンドを対話的に配置しながら作成します。

加工処理の流れは、ネットワークとして表示するため、複数のデータソースの結合や、複数のデータへ分岐するなどのケースでも、直感的に把握できます。
加工処理の内容は、配置したコマンドごとに用意されているオプション欄へ入力して指定します。
データ加工のステップごとに処理結果を確認することはできますか?
データに対するプレビュー機能により、データの表形式表示、対話的なグラフ表示により確認できます。

「入力データノード → コマンド → 出力データ」という情報処理のIPOモデル(入力・処理・出力)で表示しているため、一連の加工における全ての中間データから、内容を確認したいデータを直感的に選択できます。
データ前処理のコマンドは、どのようなものがありますか?
SQLでは対応が困難な処理など、約80種類のコマンドが用意されています。

■データ前処理の多様性
・データ間の紐付け
・データの意味の整合性確保
・分析に悪影響を及ぼす欠陥の除去や緩和
・データの表現形式の変換
・機械学習モデルの一部となる特徴量の作成

■コマンド例:データ間の紐付け
・キー項目の値の一致による結合(左結合、右結合、積、和集合)
・時間範囲などの範囲による結合
・センサーデータに対しては、値を補間した結合

■コマンド例:データの意味の整合性確保
・項目名の変換
・項目値に対する正規表現を用いた処理

■コマンド例:分析に悪影響を及ぼす欠陥の除去や緩和
・欠損値の処理、欠損した行の補間
・数値の基準化、数値範囲によるカテゴリ値への置換

■コマンド例:データの表現形式の変換
・縦型データと横型データとの変換(クロス処理)
・縦型データをベクトル項目へ変換

■コマンド例:機械学習モデルの一部となる特徴量の作成
・列の追加:移動平均、移動窓の生成、項目値の行ずらし
・行の集約:約70種類の特徴量(分布、時系列変化、周波数特性 など)
取り扱い可能なデータ形式は、どのようなものですか?
現状、構造化された表データを対象としています。

■データの読み込み
・CSVデータ
※次期バージョンにて、DB接続、リモートフォルダへも対応予定

■データの書き出し
・CSVデータ
※次期バージョンにて、DB接続、リモートフォルダへも対応予定
データ前処理のプロセスは、どのように実行できますか?
3種類の方法で実行できます。

■データ前処理のプロセス作成段階
・データ加工のステップごとに、内容を確認したい場合に使用
・データノードを選択し、そのノードまでの処理を実行して確認
・一時的な内容確認用途にて、処理結果は保存されない

■対話的な実行
・対話的な運用として、処理結果を保存したい場合に使用
・作成したプロセス内のデータノードで、データを出力したいものを指定
・指定されたデータノードまでの処理を実行してデータを保存

■システム的な実行
・システム的な運用として、処理結果を保存したい場合に使用
・外部のシステムから Web APIで実行
データ前処理のプロセスは、処理効率に優れていますか?
KSKPで作成したデータ前処理のプロセスは、自動的にパイプライン処理として実行し、大規模データに対しても処理効率に優れています。

■パイプライン処理
・ベルトコンベア型生産ラインのように、データを少量づつ次の加工へ送り並行処理します
・中間のバッファが不要で、搭載メモリ量を超えるデータ量も処理できます
データ前処理の共通化は、どのように行うのですか?
作成したデータ前処理のプロセス(フローと呼びます)を、簡単な操作で共通の関数にできます。関数化したフロー(共有フローと呼びます)は、他のユーザーにも公開されて再利用できます。

■フローの関数化
・関数への入力データと出力データを対話的に指定します
・関数内のオプション欄で使用可能な、変数を宣言できます

■共有フローの利用
・標準のコマンドと同様に、関数化したフローが選択できます
・入力データと出力データを指定し、変数ある場合は、値をセットします
セルフ型のプロジェクト管理機能とは、どのようなものですか?
KSKPでは、データと前処理のプロセスをフォルダ階層で管理していて、プロジェクトと呼ぶ特殊なフォルダごとに、共有する権限範囲を設定します。
この機能により、システムの管理者を介さず、ユーザーが簡単に共同作業を立ち上げできることで、活用の活性化を促します。

■セルフ型のプロジェクト管理
・一般ユーザーが、自発的にプロジェクトを作成
・プロジェクトの作成者が、共有したい他のユーザーと操作の権限を設定

ご利用プランについて

KSKPの無償体験版はありますか?
現時点では無償体験版はございません。

お客様での評価の内容とデータ規模によっては、クラウド環境での体験をご案内できる場合もございますので、【お問い合わせフォーム】 よりお問い合わせください。

動作環境について

KSKPの動作環境を教えてください。
詳細は下記をご覧ください。
導入支援・導入環境 のページ
クラウドサーバーで構築できますか?
SaaS型でのクラウドサービスの提供は現在行っておりません。
AWS等のクラウドサーバー上に貴社専用のKSKP環境を構築することは可能です。
ご不明な点がございましたら、【お問い合わせフォーム】よりお気軽にご相談ください。

セミナーについて

KSKPのセミナーはありますか?
現在、定期的な開催は行っておりませんが、個別にご紹介しますので、【お問い合わせフォーム】よりお気軽にお問い合わせください。

お支払いについて

KSKPのライセンス形態を教えてください。
サブスクリプション形式と買取形式の2つがございます。
サブスクリプション形式の場合、契約期間内はライセンス使用権、バージョンアップ権、製品サポートが付与されます。期限切れの場合はソフトウェアをご使用になれません。
買取形式の場合、年間保守料をお支払い頂いている期間についてはライセンス使用権、バージョンアップ権、製品サポートが付与されます。
(4年以上KSKPをご利用される計画をお持ちであれば買取の方がお得になります)

サポートについて

製品サポートはどのような体制ですか?
KSKアナリテクスサポート窓口(Q&Aサイト)にて対応しております。 サポート内容は製品仕様・操作方法・バージョンアップ・ソフトウェアバグなどのお問合せ対応です。 分析プロセス作成サポート、コンサルティングのご用命は別途費用を申し受けます。

サービスについて

KSKP導入&活用支援サービス
お客様での製品評価時、導入時、個社対応のコマンド開発についても支援します。詳しくは、【導入支援・導入環境】を参照ください。
データ前処理支援サービス
データ前処理の領域は、その特性より多様性と奥深さがあるため、ツールの選定問題ではなく、データ前処理の要件整理と設計が必要な局面も多くあります。
製品導入だけでなく、データ前処理の問題への対処が必要な場合も、まずは、お気軽にお問い合わせください。
詳しくは、【導入支援・導入環境】を参照ください。

お問い合わせはこちら

本ページに記載のない項目、その他不明な点がございましたら、お気軽にお問い合わせください。

お問い合わせ