우잉's Development

[LLM 응용] 데이터 보안 본문

Deep learning/LLM

[LLM 응용] 데이터 보안

우잉이 2023. 9. 13. 20:52
728x90
반응형

환각 줄이기

  1.  제공한 정보를 바탕으로 답변하라는 지시 명시
  2. 주어진 문서에서 질문의 답과 관련된 내용을 인용하라고 지시
    문서요약을 합께 제공하면 조금 더 정확한 결과를 얻을 수 있다.
  3. 모른다는 답을 허용하는 것을 명세
  4. 프롬프트의 출력을 사고와 답변 섹션으로 분리
  5. 각각 다른 방법으로 여러개의 출력을 생성한 후, 각각의 답변이 일관성이 있는지 답변하라고 지시(Self-Consistency)

스트리밍 응답

: 생성 결과 전체를 한 번에 응답 받는 것이 아닌, 토큰을 생성 할 때 마다 응답을 전송받는 방법

- 토큰이 생성 될 때 마다 사용자에게 표시함으로써, 생성 속도가 느린 LLM의 단점을 상쇄하고, 인터렉티브한 경험을 제공

- 생성 중간에 생성 결과를 평가하여 중단, 분기할 수 있음.

- timeout처리를 조금 더 유연하게 할 수 있음.

- 생성한 텍스트 결과만 토큰 단위로 응답을 받기 때문에, 전체 응답에 대한 부가 정보를 응답에 포함하지 않음.

- 응답에 대한 로그를 남기는 작업이 번거로울 수 있음.

- 스트리밍 응답에 대한 핸들링 및 추가적인 예외 상황에 대한 처리 필요
(필요한 통신 구간 전체를 스트리밍 파이프라인으로 구축 해야함.)

- 전송되는 패킷 사이즈가 크게 증가 (네트워크 사용량 증가)

- 전처리 구간과 최종 응답구간을 나누고, 최종 응답구간에만 스트리밍 응답으로 사용하는 것을 권장

오해

: ChatGPT 서비그에 입력한 데이터는 학습 데이터로 사용되지만, API로 호출한 데이터는 학습데이터로 쓰이지 않음
  ChatGPT도 설정에서 opt-out시킬 수 있음.

- 일부 가능한 경우가 있지만, 대부분 작동하지 않음. 가능한 경우는 인간이 해독할 수 있는 경우 정도임.

 

사실

API를 통해 제출된 콘텐츠는 무단 사용 및 악용 모니터링을 위해 최대 30일 동안 보관한 뒤 삭제함

- OpenAI의 제한된 권한이 있는 직원과 기밀 유지 및 보안 의무를 지닌 전문 제 3자 계약자(서브프로세서)는 무단 사용혐의를 조사하고 검증하기 위해서만 이 데이터에 접근할 수 있음.

 

정책

- 격리된 서버에서의 처리가 필요한 정책을 따라야 하는 경우가 아니면, 대개의 경우 문제없이 사용가능

- 격리된 서버에서의 처리가 필요한 데이터의 경우, 마스킹 기법등으로 비식별화 처리하여 사용 가능

 

 

728x90
반응형
Comments