논문 리뷰

Patient-Friendly Discharge Summaries in Korea Based on ChatGPT: Software Development and Validation [JKMS,2024]

해파리냉채무침 2024. 8. 31. 16:31

제목: ChatGPT를 기반으로 한 한국의 환자 친화적 퇴원 요약: 소프트웨어 개발 및 검증

ABSTRACT

Background: 환자 친화적인 언어로 작성된 퇴원 요약서는 환자의 이해도와 만족도를 높일 수 있지만, 직원의 업무 부담을 증가시킬 수 있음. LLM을 사용하여 환자 친화적인 퇴원 요약서를 생성하는 소프트웨어를 개발하고 검증함.

Method: 심근경색 환자 50명과 일반 외과에서 치료받은 환자 50명을 포함하여 총 100개의 퇴원 요약 문서를 사용하여 소프트웨어를 개발하고 테스트함. 각 문서에 대해 세 가지 다른 프롬프트 방법(zero-shot, one-shot, few-shot)을 사용하여 세 개의 새로운 요약을 생성하고, 사실성, 포괄성, 사용성, 용이성 및 유창성에 대해 5점 리커트 척도로 평가함

Results: 프롬프트 방법에 따라 평균 전체 점수가 달라짐.( few-shot : 4.19 ± 0.36, one-shot : 4.11 ± 0.36, zero-shot : 3.73 ± 0.44; P < 0.001). 사후 분석 결과,  few-shot과 one-shot 프롬프트의 점수가 zero-shot 프롬프트보다 높았으며, few-shotone-shot 프롬프트 간에는 유의미한 차이가 없었음. 전체 출력 중 점수가 ≥ 4인 비율은 각각 few-shot 77.0%(95% 신뢰 구간: 68.8–85.3%), one-shot 70.0%(95% 신뢰 구간: 61.0–79.0%), zero-shot  32.0%(95% 신뢰 구간: 22.9–41.1%). 평균 사실성 점수는  few-shot 에서 4.19 ± 0.60, one-shot 에서 4.20 ± 0.55, zero-shot 에서 3.82 ± 0.57이다. 입력 길이와 전체 점수는 zero-shot (r = −0.437, P < 0.001) 및  one-shot (r = −0.327, P < 0.001) 테스트에서 음의 상관관계를 보였지만, few-shot  (r = −0.050, P = 0.625) 테스트에서는 그렇지 않았다.

Conclusion: few-shot  프롬프트를 활용한 대규모 언어 모델은 일반적으로 유의미한 잘못된 정보 없이 수용 가능한 퇴원 요약서를 생성한다.

 

이전에 zero-shot과 few-shot에 대해 공부한 자료가 있다.

https://coldjellyfish0227.tistory.com/115

 

효과적인 프롬프트 만들기

프롬프트 작성가이드 - 분명한 목적 설정: 무엇을 알고 싶은지 명확하게 설정- 질문의 구체성: 너무 일반적이거나 모호한 질문은 피하기- 문맥 제공: 필요한 경우, 문맥을 제공하여 더 정확한 답

coldjellyfish0227.tistory.com

요약하자면

  1. Zero-shot:
    • 모델이 특정 작업에 대한 예시 없이 요청을 수행
    • 예: "이 문장을 프랑스어로 번역해 주세요."라는 요청에 대해 모델이 해당 언어에 대한 학습 없이 번역을 시도함.
  2. One-shot:
    • 모델이 단 하나의 예시를 제공받고 이를 기반으로 작업을 수행
    • 예: "이 예시처럼 질문에 답해 주세요: '이 영화의 줄거리는 무엇인가요?' -> '이 영화는...'"
  3. Few-shot:
    • 모델이 몇 개의 예시(보통 2~5개)를 제공받고 이를 활용하여 작업을 수행
    • 예: "다음 예시를 참고하여 질문에 답해 주세요: '이 영화는 어떤 주제를 다루나요?' -> '이 영화는...'"

 

Introduction

퇴원 요약서의 중요성

  • 퇴원 요약서는 병원과 1차 진료 제공자 간의 소통 매개체 역할을 함.
  • 퇴원요약서는 고정된 형식이 없지만, 의학적으로 치료받은 것과 경과, 질병에 대한 세부사항이 있음.
  • 영어 의학 용어로 인해 환자들이 이해하기 어려움.

의료 기록 문서화의 부담

  • 의료 기록 문서화는 임상의의 높은 업무 부담을 초래함.
  • 많은 의사들이 EHR 문서화에 소요되는 시간이 적절하지 않다고 느낌.

ChatGPT의 의료 분야 활용

  • ChatGPT는 의료 연구자들 사이에서 큰 관심을 받고 있음.
  • 여러 연구에서 ChatGPT의 응답 퀄리티가 의사보다 높게 평가됨.

환자 친화적인 퇴원 요약서 작성

  • 환자 친화적인 언어로 작성된 요약서는 이해도와 만족도를 높임.
  • ChatGPT는 임상의가 퇴원 요약서를 작성하는 데 도움을 줄 수 있는 도구로 활용될 수 있음

Methods

Development of the software

  • 원본 퇴원 요약서를 바탕으로 일반 한국어 요약서를 생성함.
  • OpenAI API를 사용하여 ChatGPT에 접근함.
  • 사용자 편의를 위해 그래픽 사용자 인터페이스로 설계됨.
  • 코딩이나 프롬프트 지식 없이 버튼 클릭만으로 출력 가능함.
  • 두 가지 주요 기능: 요약 및 대
  • ‘요약’ 기능은 입력 텍스트를 간단한 용어로 요약함.
  • ‘대체’ 기능은 의학 용어를 간단한 용어로 대체함.
  • ‘대체’ 기능은 요약 출력에서 의학 용어가 남아 있을 때 유용함

Prompt Engineering

  • 이 소프트웨어는 OpenAI API를 사용하여 실험을 진행함.
  • API 사용으로 ChatGPT의 이전 요청 참조로 인한 편향이 제거됨.
  • gpt-3.5-turbo 모델을 사용하여 실험을 수행함.
  • 요약 및 대체 지침은 한국어로 작성됨.
  • 출력의 무작위성을 최소화하기 위해 temperature 설정을 0으로 조정함.
  • 프롬프트 엔지니어링에는 Zero-shot, One-shot, Few-shot 방법이 있음.
  • Zero-shot 방법은 예시 없이 자연어 지침을 제공함.
  • One-shot 방법은 단일 예시를 사용하여 지침을 제공함.
  • Few-shot 방법은 여러 예시와 함께 지침을 제공함.
  • 본 연구에서는 Few-shot 방법으로 2개의 예시를 제공함 (요약, 대체)

이전에 temperature 와 관련해서 공부를 한적이 있다.  temperature 값이 클 경우, 모든 토큰의 확률값이 평평해지면서 더욱 다양성 있는 텍스트가 생성될 확률이 높아진다.

https://coldjellyfish0227.tistory.com/111

 

LLM 용어정리 - > tokenization, in - context learning, emergent abilities, temperature, BPE(Byte Pairing Encoding) 알고리

Tokenizing토큰은 텍스트를 구성하는 개별 단위'나는 밥을 먹는다' -> '나는','밥을','먹는다'  토큰으로 나눔huggingface tokenizer가 요즘 잘 되어 있음. 1)  단어 단위 토큰화 I ate a hotdog -> 'I','ate','a','ho

coldjellyfish0227.tistory.com

Data Collection

  • 연구의 목표 샘플 크기는 246으로 설정되었고, G*Power(통계 소프트웨어)3.1.9.6가 사용됨.
  • 80%의 검정력을 목표로 하고, 5%의 유의수준에서 Zero-shot, One-shot, Few-shot 프롬프트 간의 효과 크기 .20을 감지하기 위해 일원 분산 분석(ANOVA)을 사용함.
  • 심근경색(MI) 진단 환자와 일반외과(GS) 치료 환자의 퇴원 요약 문서를 수집함.
  • 2022년 3월 1일부터 2023년 2월 28일까지 생성된 11,698개의 문서 중 100개(각 50개씩)를 무작위로 샘플링함.
  • 모든 문서는 개인 정보를 마스킹하여 비식별화됨.
  • 각 문서는 병력, 검사 결과, 치료 결과로 구성됨.
  • 요약 및 대체의 연속적인 단계를 거침.
  • 각 문서에 대해 3개의 응답이 생성되어 총 300개의 출력 샘플이 생성됨.
  • 모든 응답은 2023년 6월 11일에 생성됨.

Evaluation design

  • 아웃풋은은 4명의 의료진(의사 2명, 간호사 2명)과 2명의 비의료진에 의해 평가됨.
  • 의료진은 원본 문서와 3개의 아웃풋(Zero-shot, One-shot, Few-shot 프롬프트 사용) 제공받음.
  • 비의료진은 아웃풋만 제공받음.
  • 각 문서의 아웃풋은 무작위로 정렬되어 평가자들이 프롬프트 방법을 식별하지 못하도록 함.
  • 의료진은 사실성, 포괄성, 사용성 기준으로 아웃풋을 평가함.
  • 비의료진은 이해 용이성 및 유창성 기준으로 평가함.
  • 모든 평가는 5점 리커트 척도를 사용하여, 높은 점수가 더 나은 아웃풋 퀄리티를 의미함.
  • 의료진 평가의 intraclass correlation coefficient (ICC)는 SPSS 통계 패키지를 사용하여 계산됨.
  • 모든 평가자는 각 원본 문서의 3개 아웃풋 중에서 선호하는 하나를 선택하도록 지시받음.

Intraclass correlation coefficient (ICC)는 여러 평가자 간의 평가 일치도를 측정하는 통계적 지표

ICC는 0에서 1 사이의 값을 가지며, 값이 1에 가까울수록 평가자 간의 일치도가 높음을 의미

 

Statistical analysis

  • 의료진의 사실성, 포괄성, 사용성 점수는 평균을 내고, 비의료진의 이해 용이성 및 유창성 점수도 평균을 냄.
  • 전체 점수는 5개 지표의 평균으로 계산됨.
  • 각 지표에 대해 일원 분산 분석(ANOVA)과 사후 분석(Tukey’s test)을 수행하여 다양한 프롬프트 방법의 아웃풋 퀄리티에 미치는 영향을 비교함.
  • 원본 문서의 토큰 수와 각 지표 점수 간의 관계를 평가하기 위해 Pearson 상관 계수를 계산함.
  • 토큰 수는 입력 텍스트에서 분리된 문자 덩어리로, tiktoken(버전 0.3.0)을 사용하여 계산됨.
  • 한 개의 이상치는 제거하고, 토큰 수의 분포를 정규화하기 위해 제곱근 변환을 적용함.
  • MI와 GS 출력물의 평균 점수를 비교하기 위해 양측 t-검정(two-tailed t tests)을 수행함.
  • MI와 GS는 다양한 의료 부서에서 무작위로 선택되었으므로, 두 그룹 간의 유의미한 차이를 예상하지 않음.
  • One-shot 및 Few-shot 프롬프트의 모든 예시는 MI 환자 데이터였으므로 결과에 편향이 있는지 검토함.
  • ICC 계산을 제외한 모든 통계 분석은 Python과 여러 패키지를 사용하여 수행됨.

양측 t 검정

Results

  • 총 출력 샘플 수는 300개로, 이 중 50개는 MI 및 50개는 GS 퇴원 요약이 포함됨.
  • 각 출력물은 Zero-, One-, Few-shot 프롬프트를 사용하여 재작성됨.
  • 4명의 의료진이 사실성, 포괄성, 사용성을 평가하고, 2명의 비의료진이 이해 용이성 및 유창성을 평가함.
  • 결측 데이터는 없음.
  • 의료진 평가의 ICC는 사실성 0.565, 포괄성 0.694, 사용성 0.693, 세 지표 평균 점수 0.709로 나타남(P < 0.001).
  • 6명의 평가자가 각 퇴원 요약에 대해 3개의 출력물 중 하나를 선택하여 총 600개의 선호 출력을 도출함.

Evaluation of software

  • Zero-shot 프롬프트의 평균 전체 점수는 3.73 ± 0.44로, 세부 점수는 사실성 3.82 ± 0.57, 포괄성 3.68 ± 0.70, 사용성 3.36 ± 0.65, 이해 용이성 4.04 ± 0.58, 유창성 3.77 ± 0.73임.
  • One-shot 프롬프트의 평균 전체 점수는 4.11 ± 0.36으로, 세부 점수는 사실성 4.20 ± 0.55, 포괄성 4.08 ± 0.64, 사용성 3.93 ± 0.59, 이해 용이성 4.25 ± 0.49, 유창성 4.11 ± 0.51임.
  • Few-shot 프롬프트의 평균 전체 점수는 4.19 ± 0.36으로, 세부 점수는 사실성 4.19 ± 0.60, 포괄성 4.18 ± 0.59, 사용성 3.97 ± 0.59, 이해 용이성 4.39 ± 0.45, 유창성 4.22 ± 0.58임.
  • 전체 점수가 가장 높은 출력물은 Few-shot 프롬프트에서 생성되어 4.90을 기록했고, 가장 낮은 점수는 Zero-shot 프롬프트에서 생성되어 2.70을 기록함.

One way ANOVA for method comparision

  • 일원 분산 분석(One-way ANOVA) 결과, 모든 지표에서 프롬프트 방법에 따른 출력 점수에 통계적으로 유의한 차이가 나타남(Factuality: F = 14.56, P < 0.001; Comprehensiveness: F = 16.43, P < 0.001; Usability: F = 31.38, P < 0.001; Ease: F = 11.58, P < 0.001; Fluency: F = 14.57, P < 0.001; Overall: F = 39.38, P < 0.001).
  • Tukey의 사후 검정 결과, Few-shot 및 One-shot 프롬프트에서 생성된 출력물이 Zero-shot 프롬프트보다 모든 지표에서 높은 점수를 받음.
  • Few-shot 프롬프트와 One-shot 프롬프트 간의 출력 점수에는 유의미한 차이가 없음.

Proportions of score intervals and preferred methods

  • 모델의 일반 성능 평가를 위해 각 점수 구간의 비율을 계산함.
  • Few-shot 프롬프트에서 ≥ 4점 비율은 77.0% (95% CI, 68.8–85.3%)였고, One-shot은 70.0% (95% CI, 61.0–79.0%), Zero-shot은 32.0% (95% CI, 22.9–41.1%)임.
  • < 3점 비율은 Few-shot과 One-shot 모두 0%였으며, Zero-shot은 2.0% (95% CI, −0.7–4.7%)임.
  • 평가자들이 선호한 출력 중 Few-shot 프롬프트가 44.3% (95% CI, 40.4–48.3%)로 가장 많이 선택됨.
  • One-shot 프롬프트 선호도는 39.0% (95% CI, 35.1–42.9%), Zero-shot 프롬프트는 16.7% (95% CI, 13.7–19.6%)임.

Effect of input length

  • 원본 퇴원 요약의 토큰 수를 텍스트 길이 지표로 계산함. 평균 토큰 수는 375 ± 245임.
  • 이상치를 제거하고 제곱근 변환을 적용한 후 새로운 평균 값은 18 ± 5임.
  • Pearson 상관계수 분석 결과, Zero-shot (r = −0.437, P < 0.001) 및 One-shot (r = −0.327, P < 0.001) 프롬프트에서 정규화된 토큰 수와 전체 출력 점수 간에 음의 상관관계가 나타남.
  • Few-shot 프롬프트에서는 토큰 수와 아웃풋 퀄리티 간에 유의미한 상관관계가 없음(r = −0.050, P = 0.625).
  • Zero-shot 프롬프트에서 사실성, 포괄성, 사용성 및 용이성 점수와 One-shot 프롬프트의 포괄성, 사용성, 유창성 점수는 정규화된 토큰 수와 음의 상관관계를 보임.
  • Few-shot 테스트의 모든 지표는 정규화된 토큰 수와 유의미한 상관관계를 나타내지 않음

Comparison of patient groups

  • MI와 GS 그룹의 평균 전체 점수를 비교하기 위해 양측 t-검정을 실시함.
  • Few-shot 프롬프트에서 MI (4.26 ± 0.33)와 GS (4.12 ± 0.38) 간의 평균 점수 차이는 유의미하지 않음 (t = 1.89, P = 0.062).
  • One-shot 프롬프트에서도 MI (4.07 ± 0.38)와 GS (4.16 ± 0.34) 간의 차이는 유의미하지 않음 (t = −1.30, P = 0.198).
  • Zero-shot 프롬프트에서는 MI (3.65 ± 0.43)와 GS (3.82 ± 0.44) 간의 차이가 거의 유의미함 (t = −1.95, P = 0.054).

Discussion

  • 이 연구는 GPT-3.5 API를 활용하여 환자 친화적인 퇴원 요약 소프트웨어를 개발하고 성능을 평가함.
  • Few-shot 및 One-shot 방법의 아웃풋 퀄리티가 평균 4 이상으로 양호하며, Zero-shot 방법보다 유의미하게 우수함.
  • 한국어로 환자 친화적인 퇴원 요약 생성의 가능성을 탐구한 최초의 사례로, 임상 진료에 적용 가능성을 제시함.
  • Few-shot과 One-shot 방법의 성능이 유사하며, One-shot 방법이 더 효율적일 수 있음을 발견함.
  • Few-shot(67%)과 One-shot(70%) 방법의 사실성 평가에서 높은 점수를 기록해 hallucination 현상이 적음을 나타냄.
  • 훈련 데이터의 신뢰성 부족과 최신 정보 반영의 어려움이 LLM의 한계로 지적됨.
  • 연구 결과 LLM이 환자 친화적인 퇴원 요약 작성에 효과적일 수 있으며, 향후 품질 향상을 기대함