갤러리 이슈박스, 최근방문 갤러리
연관 갤러리
시설관리 갤러리 타 갤러리(0)
이 갤러리가 연관 갤러리로 추가한 갤러리
추가한 갤러리가 없습니다.
0/0
타 갤러리 시설관리 갤러리(0)
이 갤러리를 연관 갤러리로 추가한 갤러리
0/0
개념글 리스트
1/3
- 한국 경찰이 답답하다는...인도인 ㄹㅇ...jpg Adidas
- 꺼져! 꼴페미들아…미아역 추모 공간서 남성이 추모글 찢고 난동 감돌
- 서울대에타 한녀들의 군대 인식…jpg ㅇㅇ
- 대기업에 키 180 이상 30대 남자가 원래 잘 없어?.blind ㅇㅇ
- 강남3구 어린이, 우울증 3배 폭증... 7세 고시 때문?.jpg ㅇㅇ
- 손자 수학 가르쳐주는 할머니 스펙 ㅇㅇ
- 한국군은 항상 너무 구식인 나머지 신식이 되는게 웃김 기신고래(진)
- 재앙재앙… 전력망 확보 관련 갈등이 자꾸 생기는 이유.jpg 갈베
- 성심당 딸기시루에서 곰팡이 딸기 나왔다고 뉴스 제보한 사람 ㅇㅇ
- 돼지고기로 보는 가슴확대수술 과정 ㅇㅇ
- 싱글벙글 쇼팽 콩쿠르 댓글창 ㅇㅇ
- 싱글벙글 일본 마지막 슈퍼로봇 만화 ㅇㅇ
- 결혼을 왜 하는지 모르겠다는... 치과의사 블라남 갓럭키
- 4월 25일 시황 우졍잉
- 너무 잘 나와서 출시가격보다 비싸진 장난감 ㅇㅇ
GPT 환각 방지 프롬프트, 정말 효과가 있을까?
일단 이 글을 적기 위해서 11,046원을 지출하였음.후원 좀 받을 수 없나..?ㅋㅋㅋ환각(Hallucination)이란?챗갤 유저들이라면 아주 흔히 접해봤을 용어일 것임.간단히 말하면,LLM이 존재하지 않는 거짓 정보를 그럴싸하게 생성하는 현상을 말함.예를 들어,그러니까 존나 당당하게 틀린 말을 한다는 것이 문제인 거지.주요 LLM 개발사들은 환각 현상을 줄이기 위해 상당한 심혈을 기울이고 있고,유저들도 나름대로 대응책을 공유하고 있음.여러 프롬프트 사이트들 보면,여러 유저들이 환각을 줄이는 프롬프트를 공유하는 모습을 볼 수 있음.그러나 이런 프롬프트들이 실효성이 있는지에는 의문이 있음.이번에는 챗갤에 게시되었던 여러 환각 방지 프롬프트들을 정량적으로 평가해볼꺼임.SimpleQASimpleQA는 LLM의 사실성(factuality)를 측정하기 위한 OpenAI 벤치마크임.얼마나 환각을 적게 생성하는지, 얼마나 정확하게 응답하는지 평가함.주요 모델들 simpleQA 벤치마크베이스 모델 중에는 GPT-4.5가 가장 높은 정확도를 보임. 즉 환각이 제일 낮다는 뜻.https://github.com/openai/simple-evals GitHub - openai/simple-evalsContribute to openai/simple-evals development by creating an account on GitHub.github.comOpenAI는 simpleQA 벤치마크 데이터셋을 공개하고 있음.해당 데이터셋을 사용하여 프롬프트 벤치마크를 진행해볼꺼임
실험 세팅벤치마크: OpenAI SimpleQA테스트케이스 갯수: 500개방식: 테스트 모델이 벤치마크 문제들을 풀어오면, 채점자 모델이 채점하는 방식으로 진행테스트 모델: ChatGPT-4o-latest (최신 ChatGPT 4o 모델)파라미터- Temperature: 0.7- max_tokens: 150- 그 외에는 default채점자 모델: GPT-4.1.mini파라미터- Temperature: 0.1- max_tokens: 10상술했듯, OpenAI SimpleQA 벤치마크를 사용하였고, 현재 ChatGPT에서 서비스되고 있는 4o의 API를 사용하여 테스트함.테스트케이스는 원래는 4332개인데 내가 그지라서 좀 줄였음.Node.js로 벤치마크 프로그램을 만들어서 진행하였음.프롬프트별 테스트 결과OpenAI 기본 프롬프트(You are a helpful assistent)아주 기본적인 시스템 프롬프트만 포함하고 있음.정확도 39.6%공식 벤치마크 정확도가 38.2%이므로 상당히 준수한 성능을 뽑아내었음.하나빛 환각 방지 프롬프트정확도 38.6%오히려 기본 프롬프트에 비해 정확도가 떨어짐.ㅇㅇ(221.150) 환각 방지 프롬프트정확도 38.3%마찬가지로, 기본 프롬프트에 비해 낮은 정확도를 보여주었음.(DLC)모노로그 환각 방지 프롬프트딱 봐도 예능용 프롬프트지만, 그래도 한 번 테스트해봄.정확도 0%그만 알아보자.결과 비교프롬프트 종류정확도비고OpenAI 기본 프롬프트39.6%공식 벤치마크(38.2%)보다 약간 높음하나빛 프롬프트38.6%효과 미미ㅇㅇ(221.150) 프롬프트38.3%오히려 떨어짐모노로그 프롬프트(예능용)0%결론적으로,커뮤니티에서 공유된 대부분의 ‘환각 방지 프롬프트’는 오히려 기본 프롬프트보다 정확도가 낮았음.이는 프롬프트만으로 환각 문제를 해결하는 데 한계가 있다는 점을 다시 한 번 보여줌.하지만 그렇다고 프롬프트 엔지니어링이 무의미하다는 건 아님.일부 논문 중에는 프롬프팅을 통해 정확도를 향상시킨 사례도 존재함(CoVE라던가)즉, 잘 설계된 프롬프트는 분명 효과가 있을 수 있음.문제는 지금 돌아다니는 대부분의 환각 방지 프롬프트가 그저 조악하다는 거임.좋은 모델을 사용하고, 비판적으로 검토하는 것이 가장 나을 것임.
작성자 : 구름냥이고정닉
싱글벙글 세금으로 지원하는 여성전용 합법 취업 로비 근황
남자는 대부분이 공대, 컴퓨터 관련 학과 박치기 하니까 고연봉 직종으로 들어가는거고, (생산직 포함) 여자는 대부분이 도자기공예과, 어문학과, 의류디자인과 이딴 돈 안되는 병신 학과로 진학하니까 고연봉 직종으로 많이 못 가는건데, "괜찮은 일자리 비율"은 남자가 더 높다면서 이게 유리천장 남여차별이라는 주장이 지속적으로 나오고 있다... 그런다고 돈 많이 주는 현장직 하라고 하면 힘들다고 안 하는데 누굴 탓하노 ㅋㅋㅋㅋ 이런 년들이 퍽이나 생산직 현장직을 하겠다 ㅋㅋㅋㅋㅋ 여성 구직자 절대 다수는 시원한 에어컨 바람 맞으며 일 하는 "사무직"을 선호함. 근데, 남자라고 사무직 안 하고 싶겠노 ㅋㅋㅋㅋㅋ 사무직 TO는 한정적 이기에, 다들 상대적으로 연봉이 낮은 중소기업 사무직이라도 들어가려고 다들 열심히 지원을 하지만 그럼에도 중소기업 사무직 비율을 보면 여성이 압도적으로 높음. 그 이유는 나라에서 이런 중소/중견 기업들에게 세금을 이용해, 남성이 아닌 여성을 뽑도록 취업 로비를 하고있었기 때문임... 아래는 예전에 올라왔던 게시글인데, 지금은 저때 당시와 달라진 점이 있어 하단에 설명하겠음. ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ 여성이 취업하려 하면 나라에서 380만원 들여서 취업로비 해준다고?? 여성은 취업 하면 나라에서 축하한다고 꽃이랑 떡까지 돌린다고?? 참 얼탱이가 없는 현실이 아닐 수 없다 ㅋㅋㅋㅋㅋ 근데 위 게시글 속 정책은 지금 시행중인 것 과는 조금 다름. 과연 저 때 당시와 현재는 뭐가 다를까?? 뭐긴 뭐야 ㅋㅋㅋㅋ 지원 금액이 증가했음 ㅋㅋㅋ 24년 인당 480만원 지원으로 증액, 25년 인당 560만원 지원으로 증액 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 현재는 기업이 여성 채용하면 나라에서 460만원 지원받고 취업한 여성은 80만원 지급받음 물론 니들 세금으로 ㅋㅋㅋㅋㅋ 말이 경력 단절 여성 지원 사업이지 뭐 육아휴직 여부라던가, 실직 후 몇년 이런 조건이 아예 없어서 20대 초 사회 초년생도 그냥 여성이기만 하면 꽁돈 용돈 타 가는 사업임 ㅋㅋㅋㅋㅋ 저 외에도 조금만 딸깍 해보면 여성만 받아먹을 수 있는 취업지원 사업 존나 많다 ㅋㅋ 아 아무튼 나라에 돈이 없다고 ㅋㅋㅋㅋㅋ ㅅㅂ 한남은 군대까지 갔다와야 하는데 군대도 안 가고 취업준비한년들 취업지원이 왜 필요한거노 ㅋㅋㅋㅋ 거기다가 이번에는 여성가족부에서 아예 "경력 단절 여성 지원사업"을 전부 "모든 여성에게 지원해주는 사업"으로 전환하겠다고 발표함 진짜 너무한거 아니노 ㅅㅂ - dc official App
작성자 : ㅇㅇ고정닉
차단하기
설정을 통해 게시물을 걸러서 볼 수 있습니다.
댓글 영역
획득법
① NFT 발행
작성한 게시물을 NFT로 발행하면 일주일 동안 사용할 수 있습니다. (최초 1회)
② NFT 구매
다른 이용자의 NFT를 구매하면 한 달 동안 사용할 수 있습니다. (구매 시마다 갱신)
사용법
디시콘에서지갑연결시 바로 사용 가능합니다.