読者です 読者をやめる 読者になる 読者になる

チーム・マネジメント

チームマネジメント、人間-機械システム、そしてヒューマンファクターズを考える

信頼性を数値化して向上させる 【冗長設計】

宇宙システムは、軌道上での修理が困難であり、一つの故障で全体のミッションを達成できなくなる可能性があります。また、開発費が高額に上り、人間が内在する有人機もあります。このようなシステム開発には、信頼性工学(Reliability Engingeering)が適用され、共に発達してきました。


信頼性工学では、信頼度(Reliability)として「機体あるいはシステムが目標を達成する確率のこと」と定義して、信頼度を数値化して見えるようにし、信頼性を評価します。ここで「目標を達成する確率」との定義は漠然としていますが、実際には故障しない確率を示しています。信頼度が高ければ故障が少ないことを意味します。高信頼性が要求される部品等にはシックスナイン すなわち 99.9999%(9が6個並ぶ)以上の信頼度が求められることもあります。


単位時間内に故障する割合を故障率 λ とすると、時刻 t における信頼度 R は、

f:id:fujihisa:20140827125304j:plain

から算出できます。数式を用いてしまいましたが、ここで強調しておきたかったことは時間が経過すると信頼度は低下することです。この原理は日常でも当てはまり、市販の製品も耐久期間が過ぎると故障する可能性が高くなってきます。運用開始時には、高い信頼度が維持され、設計段階で要求された機能・性能が出せます。しかし、長期運用ともなれば、構成機器が故障し始め、故障を抱えたまま運用を継続しなければなりません。


システムの信頼性を表す別の指標として、平均故障間隔(MTBF: Mean Time Between Failure)で表記されることもありますが、MTBF故障から次の故障までの平均的な間隔であり、故障率 λ とは逆数になります(MTBF = 1/λ)。ただし、MTBFまで故障しない意味ではなく、MTBF経過後の信頼度は36.8%以下に低下することになります。


システムの構成要素を直列に並べた時、例として下図のように、要素Aの信頼度が99%、要素Bの信頼度が60%ならば、結合したシステムの信頼度は59.4%に低下してしまいます。直列構成のシステムでは、高信頼性部品を用いていたとしても、たった一つでも信頼性の低い要素が紛れ込むとシステム全体の信頼性は崩壊することになります。全体で99%の信頼度を得ようとする場合、10の要素部品では99.9%、100の要素部品では99.99%の信頼度が各要素に求められます。


並列の場合では、要素Aの信頼度が99%、要素Bの信頼度が60%ならば、結合したシステムの信頼度は計算上99.6%に向上します。ここで、要素Aと要素Bは同一機能を有する要素であり、冗長(Redundant)構成となります。冗長構成を採用することによって、信頼度を向上させることができます。ただし、留意する事項も多くあります。

f:id:fujihisa:20140827132241j:plain

宇宙システムのように質量制限(1 kg多くても地球周回軌道へ打ち上がりません)があり、同一の機能を持つ要素を複数搭載することは制限超過の要因となります。また、構造のように冗長構成を取れない要素もあります。情報処理システムでも冗長構成にすれば、機器購入、格納スペース、電力・排熱、保守費用等も倍になってきます。


冗長させる要素は、同一設計で同一製品を並列に並べることが一般的です。ただし、その要素にバグ等の問題を内在していた場合、同一事象で故障することになります。並列構成であっても、その事象が発生すればすべて故障することになり、冗長構成にしたにもかかわらず単一要素の信頼度しか発揮できません。高度の信頼性が求められるならば、並列に並べる要素を、同一機能を持つが、全く別の設計・開発することによって回避できます。しかし、開発費は倍増することになります。


冗長構成には、追加の要素 例えば 多数決判断を行う機構、切替スイッチ等が必要となります。この要素の信頼度が低いと、全体として信頼度を下げる可能性があるために注意が必要です。

f:id:fujihisa:20140829123500j:plain

上図に一般的な冗長構成を上げておきます。左図は、並列に並べた要素を稼働させておき、各要素の出力を比較して多数決を取ります。全て正常ならば各要素の出力は同一になります。この方式ならば、異常な値を出力している故障した要素を排除することができます。


右図は、通常は要素Aを稼働しておき、要素Aの異常や出力が途絶えたことを検知して、要素Bへ切り替えます。要素Bも常時起動しておく構成もありますが、要素Bは停止しておき、要素Aの異常等を検知した後に要素Bは起動し、要素Bが役割を引き継ぐこともできます。要素Bは通常停止しているため、消費電力を抑えることができたり、寿命期間を伸ばすことができます。要素Bは、一時的に代替するだけならば、要素Aと完全に同一ではなく必要最低限の機能に制限することができます。ただし、必要な時に必ず要素Bを起動できるように定期的なテストが必要です。


ミッションを達成するため、要員についても冗長な要員は必須と考えますが、効率化・経費削減ために必要最低限の人員しか確保できない傾向があります。信頼性工学の考えを導入できれば、システムそしてチームのマネジメントに役に立つと思います。


参考文献