1-2. 기업 프로젝트 1주차 (데이터 설명)
''공정 장비안에 포함된 부품중 하나인 pump가 언제 고장날지에 대한 예측을 통해 breakdown시에 발생하는 wafer loss에 대한 Cost 비용을 줄이고자 AI알고리즘 모델을 만들어 예지 정비 시기에 대한 정보를 제공하고 해당 과정을 전부 자동화시키는 것''
지난 포스팅에서 언급한 프로젝트 주제를 수행하기 위한 데이터를 멘토님으로부터 제공받았다.
제공 받은 데이터는 대외비나 여러가지 이유로 많은 컬럼이 비식별화 되어있었으며 총 두가지 데이터를 제공받았다.
1) Alarm / Replacement history data
csv로 제공받은 데이터의 설명
-Alarm_Time: 장비에 문제가 breakdown이 발생한 시각
-EQ_ID: 문제가 발생한 장비의 고유ID
-Pump_Type: 챔버 진공상태를 만들기위해 사용되는 Pump의 종류, 해당데이터에는 dry/booster pump가 존재
-펌프 교체해야하는 장비의 최근 교체 시각
-펌프 교체하고 재가동을 시작한 시각
-Origin of data: 해당 행이 어떤 문제로 기록된 행인지에 대한 표시
공정 장비를 사용하다가 장비에 문제가 생긴다면 알람이 울리며 breakdown이 발생해 공정이 중단되는데 이때 엔지니어들이 최우선적으로 수행하는 troubleshooting은 장비의 전원을 껏다 켜보는것이다. (컴퓨터에 이상이 생기면 전원을 제일먼저 껏다 켜보듯이?)
보통 전원 on/off를 진행하고 나면 다시 장비가 잘 돌아가는경우가 대부분이라고 하지만 프로젝트를 진행한 공정은 rework(재공정)이 불가능한 공정이기 때문에 breakdown이 발생했을때 사용된 웨이퍼는 폐기처분을 하게되어 이때 loss가 발생하게 된다고 한다.
재시동을 걸어보고나서도 문제가 있다고 판단한 펌프에 대해서는 pump교체를 진행한다.
2) FDC (Fault Detection and Classification) data
범주형 데이터
-EQ_ID: alarm데이터의 EQ_ID와 같음
-PROD_ID(생략):생산하기 위한 제품의 고유 ID를 뜻함 ex) NAND, DRAM ...
-RCP_ID: 공정레시피(조건)
-STEP_NM: 공정 STEP, 제품생산을 위해서 특정 레시피를 통해 진행되는 순서 중 어느 공정순서인지
-PRMT_NM: 공정 파라미터 ex) 챔버 내 온도, 벨브 각도, 압력, 모터 회전 rpm 등등..
-WAFER_ID: 해당 공정은 single_type이 아닌 batch_type의 공정이지만 batch속 웨이퍼 중 하나의 웨이퍼의 고유 ID
해당 범주형 데이터들은 모두 정수형 숫자로 비식별화 되어있었으며 해당 숫자가 어느 파라미터이고 어느 레시피이고 어느 제품을 생산하는지에 대해서는 모르는 상태로 모델링을 진행하였다
수치형 데이터
-start/end_dt_tm: 공정 시작/종료시각과
-최대, 최소, 중앙, 평균, 전체면적, 기울기, 표준편차, 최대최소 차이, 5,10,90,95 백분위수와 같은 센서로 측정된 값들의 통계값
시작 종료 시각 사이의 각 센서값들의 통계(aggregation)값에 대한 정보를 확인할 수 있었다.
센서 통계값으로 failure 지점 근처에서의 값의 이상치의 존재여부?와 같은 요소들이 잔여수명예측에 매우 중요한 요소로 사용될 것이다.
모델링을 위해서는 해당 데이터들의 대한 명확한 이해가 필요하다.
다음 포스팅으로 위 두가지 데이터들을 AI모델의 input_data로 만들기위한 데이터 전처리에 대해 설명해보겠다.