학부연구생

Node Packet Drop Ratio를 예측하기 위한 Feature Selection-2

Beige00 2024. 4. 2. 16:51

Google Colab을 이용하여 100개의 result csv 파일을 80개의 Training, 20개의 Test data로 분류하고 학습을 해 Decision Tree Feature selection을 진행하였다.

초기 생각했던 디자인과 다르게 각 노드의 Queue Length와 각 노드의 Throughput을 추가 데이터로 삽입하고 학습을 했다.

구성

결과가 내가 생각한 Feature 들 만으로 DT가 잘 분류를 해냈으면 좋았을 텐데, DT의 Accuracy Score가 Training 0.509, Test 0.5104가 나왔다. 이것을 어떻게 받아들여야할지가 고민이다. Adhoc Network의 복잡성이 있는데 그 환경에서 DT가 0.5104의 Error rate을 낸다는 것은 어느정도 합리적이라고 봐야할지, 설득력이 없는 데이터일지가 문제인 것이다.

 

일단, 해당 DT의 Feature Importance를 믿어도 될지는 미뤄두고, 일단 Feature importance 를 확인해보면 다음과 같다.

당연하다면 당연한거지만, PDR에는 Throughput, QueueLength의 영향이 클 수 밖에 없다. 내가 이 아이디어를 떠올리는 계기가 된 논문에서도 역시 Regression 학습에 해당 파라미터 2개를 사용하였다.

 

여기까지와서 생각한 나의 계획은 2가지가 있다.

 

1. 나도 똑같이 TP, QL을 기반으로 Classification을 하고, RL phase로 넘어가는 것.

2. 뭔가 다른 방법을 찾기.

 

이후 교수님과의 회의를 통해 도출해낸 결과는 데드라인이 정해진 것이 아니고 나는 배우는 입장이니까 1.의 방법은 미뤄두고 더 생각을 하는 쪽으로 가는 방향이었다.

 

하여 생각해낸 것은 일단 PDR과 TP,QL이 연관관계가 높은 좋은 Feature라는 것은 인정을 하되, 시나리오를 바꿔보는 것이다.

예를 들어 mobility가 아주 높은 상황의 경우,. PacketDropRatio에 다른 factor가 끼치는 영향이 커질 것이라고 생각된다.

그 경우, high - dynamic network에서는 QL.TP와 더불어 고려해야할 다른 factor를 찾아낼 수도 있을 것이다.

 

실제로 파라미터를 바꾼 결과, 같은 랜덤 시드에서도 확연히 높아진 PacketDropRatio 분포를 보였다.

 

만약 이 아이디어가 효과가 없을 경우는 또 다른 방법을 생각해보아야할 것 같지만 우선은 이 아이디어를 실험해보기 위해 현재 시뮬레이터의 파라미터를 바꿔서 다시 학습을 해보겠다.

 

p.s.

혹시 생각해봤는데 100개의 데이터를 80개 20개로 분할하여 학습을 한거 자체가 성능이 나오지 않는 원인일 수도 있을거 같다. 위에 기록한 변경에 더불어, 데이터를 최대한 많이 뽑아서 학습을 해보겠다.