LLM 로그 및 성능 개선 시작

LLM 로그 및 성능 개선 시작
Photo by Aerps.com / Unsplash

dgx spark를 이제서야 활용을 조금 하는것 같다.

이제 슬슬 LLM에 대한 네이티브 설계를 통한 개인 프로젝트를 진행하고 있다.

거창하게 말은 해놧지만, 뭐 그리 거창하진 않고, 저는 개인적으로 기술, 산업, 경제에 대한 부분에 궁금증과 그에 대한 결과 이런걸 분석하는걸 좀 좋아합니다.

그래서 예전부터 나의 플랫폼에 이런 데이터들이 모여있었으면 하는 바램을 찾던 중에, 이제 claude나 이런 도구들로 충분히 이런 큰 볼륨의 프로젝트를 혼자 설계가 가능하겟다 라는 판단이 섰습니다.

오늘은 플젝 얘기는 아니고,,,LLM에 관련된 얘기 입니다.

현재는 Qwen 모델 사용중..

현재는 Qwen 3.6 35B모델을 사용중입니다. 그래서 그런지 속도 자체에 초반에는 불만은 없었는데, 나중 되니까 조금 불만이 생기긴 했습니다.

DGX Spark의 한계

확실히 DDR5 의 대역폭 200GB는 한계가 명확한거 같습니다.

이런 기사들도 분석하는데 시간이 좀 걸리더라구요, 못해도 1분 정도는 기다려줄만은 한데, 너무 오래걸려서, 이 부분은 확실히 개선이 필요해 보이기는 합니다...

개선 방법..우선 로그 먼저..

우선 개선을 하려면 어디서부터 문제가 발생 되었는지 에 대한 파악이 우선이라고 하여서 로그를 수집할 방법을 고민했습니다. 그리고 MLFlow가 이를 도와주는 도구라고 하는걸 듣고, 바로 설치하고 사용 중입니다.

Gateway 개발

뭐 사실 저는 개발을 잘하진 않고, 오로지 클로드가 열심히하고 있습니다 후후

어떻게 mlflow에 그런 로그를 전송해주지? 였는데 중간에 gateway가 없다면 로그 전송이 불가하다, 즉 vllm단독으로 띄우는게 아니라, 앞단에 gateway를 보내는 형태라고 하면,,사실 어느정도는 이해는 갔습니다.

그리하여 띄운 mlflow 우선 초기라서 gateway도 간신히 연동한거 같은데,, 이후에 prometheus랑 grafana랑 연동해서 어쩌구 하는데...그렇게 하면 아래처럼 나온다고 합니다.

나름 있어보이게 또 나오는군요...

로그랑 그래프는 어느정도 꾸려놨으니,,,성능 개선을 조금 해봐야겠습니다. 슈슉