www狠狠干-www日本免费-www三级-www色在线-亚洲午夜网站-亚洲午夜小视频

最新腦筋急轉彎大全 【NLP】讓GPT-3、ChatGPT、GPT-4一起做腦筋急轉彎,GPT

雕龍文庫 分享 時間: 收藏本文

最新腦筋急轉彎大全 【NLP】讓GPT-3、ChatGPT、GPT-4一起做腦筋急轉彎,GPT

夕小瑤科技說 原創

作者 |

一個烙餅煎一面一分鐘,兩個烙餅煎兩面幾分鐘?

讓你來回答,是不是一不小心就掉到溝里了?如果讓大語言模型來做這種腦筋急轉彎會怎樣呢?研究發現,模型越大,回答就越可能掉到溝里,即使是擁有千億參數的大模型也不能幸免。但是卻能很好回答這些問題。讓我們一起來看看吧。

論文題目:

-Like and in —and in GPT-4

論文鏈接:

腦筋急轉彎

作者采用了CRT( Test)數據作為腦筋急轉彎的測試數據。該數據在心理學領域,廣泛地被用于衡量人類的思維習慣,判斷是否習慣于直覺思維。

▲腦筋急轉彎數據示例

如上圖所示,作者探索了3種CRT數據最新腦筋急轉彎大全,和1種語言邏輯陷阱。例如:

模型表現

模型表現如下圖所示,可以看到模型較小時(從117M GPT-1 到2.7B GPT-Neo),隨著模型增大,模型回答正確答案(綠色)和直覺答案(紅色)的比例在提高,回答無關答案(黃色)的比例在下降。但隨著模型進一步增大(從2.7B GPT-Neo 到 175B GPT-3),無關答案比例進一步下降,直覺答案比例進一步上升,正確答案比例卻不升反降。包括、、GPT-3在內的大語言模型明顯掉入腦筋急轉彎的陷阱。即使是經過指令調整與RLHF的text -002/003也未能幸免。

▲不同模型表現對比

而在上圖中,經過指令調整的與GPT-4,一下子正確答案的比例就高了許多。究竟是什么魔法使得的腦筋會轉彎呢?我們不得而知。

下圖具體對比了GPT-3(text -003,左)、(中),GPT-4(右)在幾類不同的腦筋急轉彎的表現,可以更加凸顯上述現象。

▲不同腦筋急轉彎類型上的模型表現對比

如果改換輸入形式會怎樣?下圖上為問答的形式,和上面的實驗相同。下圖中、下分別為多選、續寫的形式。可以看到,修改提問形式之后,正確率略有上升,但整體差別不大。

下圖顯示,通過少監督展示學習,GPT-3的正確率會有所上升。但即使展示到40個左右的樣本,準確率和無監督的比仍有差距,更不用說GPT-4了。

結論

這篇論文針對很有意思的一類問題(腦筋急轉彎)最新腦筋急轉彎大全,發現了大語言模型的一個很有意思的現象。作者也嘗試了多種方法,但無論是改變提問形式還是增加監督數據最新腦筋急轉彎大全,GPT-3(text -003)在腦筋急轉彎上的表現仍然難以達到的水平。究竟使用了怎樣的魔法讓模型的腦筋會轉彎呢?

往期精彩回顧適合初學者入門人工智能的路線及資料下載(圖文+視頻)機器學習入門系列下載機器學習及深度學習筆記等資料打印《統計學習方法》的代碼復現專輯機器學習交流qq群955171419,加入微信群請掃碼

免責聲明:本文系轉載,版權歸原作者所有;旨在傳遞信息,不代表本站的觀點和立場和對其真實性負責。如需轉載,請聯系原作者。如果來源標注有誤或侵犯了您的合法權益或者其他問題不想在本站發布,來信即刪。

主站蜘蛛池模板: 久久五月天婷婷 | 国产成人亚洲欧美激情 | 久久国产午夜精品理论篇小说 | 免费高清资源黄网站在线观看 | 欧美视频 亚洲视频 | 人人爽人人爽人人片c | 香港三级日本三级人妇三级四 | 亚洲熟乱| 国产高清视频在线观看不卡v | 日本全黄 | 欧美激情亚洲精品日韩1区2区 | 影音先锋欧美资源 | 大柠檬导航香蕉导航巨人导航 | 久久青草国产精品一区 | 成人在线观看一区 | 福利社午夜影院 | 黄色片毛片 | 99视频在线精品 | 国产69精品久久久久9牛牛 | 亚洲欧美日韩专区 | 亚州黄色| 亚洲国产欧美日韩第一香蕉 | 日本三级带日本三级带黄国产 | 欧美在线日韩在线 | 国产三级a三级三级天天 | 狠狠色狠狠色综合久久一 | 中文字幕一区二区三区免费视频 | 欧美一区在线观看视频 | 97国产精品视频观看一 | 免费的黄色毛片 | 91精品国产自产在线观看高清 | 瑟瑟网站免费网站入口 | 91免费视频软件 | 国产成人爱情动作片在线观看 | 欧美成人精品第一区 | 在线日韩亚洲 | 国产乱人伦精品一区二区 | 免费看又黄又爽又猛的视频软件- | 高h喷水荡肉爽文np肉色文 | 性插久久 | 欧美日本在线观看 |