這幾天ChatGPT可謂是熱火朝天,很多同事和朋友都來找到勇哥,說能不能說一說相關(guān)話題,但是之前幾天勇哥都在默默的干一件大事情,今天終于成型、有結(jié)果了,所有就抽了點(diǎn)時間來和大家一起聊聊ChatGPT背后的技術(shù),讓大家對一自然語言處理背景的技術(shù)有一個入門級別的了解。
了解到ChatGPT是什么、有哪些功能?
了解到ChatGPT背后自然語言技術(shù)有那些?
(資料圖片僅供參考)
了解到一般AI系統(tǒng)的工作流程
老規(guī)矩,你覺得本文不錯,點(diǎn)贊、關(guān)注一下,鼓勵鼓勵勇哥!
ChatGPT是OpenAi 在12 月 1 日上線的一套在線人機(jī)聊天產(chǎn)品,而這套產(chǎn)品這幾天已經(jīng)突破上100萬的,可謂是火得不要不要的了,但勇哥總結(jié)其火的背后主要有這么幾方面的因素:
OpenAi 背后的大佬是微軟
ChatGPT之別被姓馬的夸贊,起到了很好的宣傳
OpenAi 這套產(chǎn)品自身從技術(shù)+架構(gòu)方面有新的突破
各位網(wǎng)友心中都有一個未來科技夢
ChatGPT不對中國區(qū)開放,但是支持中文(這點(diǎn)細(xì)品....)
在這里勇哥主要站在產(chǎn)品自身的技術(shù)和架構(gòu)方面的突破來給大家說一說,先說一說ChatGPT能做什么,我簡單的歸類了一下功能,包括:
知識問答
知識點(diǎn)解答
數(shù)學(xué)題求解
.....
文學(xué)創(chuàng)作
寫作文
寫詩
寫小說
寫郵件
......
程序創(chuàng)作
寫代碼
改BUG
......
下面這張圖是OpenAi官網(wǎng)上的一張說明圖,但是這張圖只說明了其系統(tǒng)的模型(PS:這里的模型大家可以簡單理解成一對特殊的數(shù)據(jù))訓(xùn)練和應(yīng)用流程:
上圖并沒有說明太多這樣系統(tǒng)的技術(shù)架構(gòu),那么勇哥在這里來給大家腦補(bǔ)一下,一般這種系統(tǒng)的數(shù)據(jù)流是如何進(jìn)行流轉(zhuǎn)的:
ChatGPT是一個聊天系統(tǒng),用戶輸入一句話,那么ChatGPT就需要依據(jù)用戶輸入的信息反饋相關(guān)內(nèi)容,比如上述用戶輸入“背《觀滄海》",系統(tǒng)接收到信息后,就經(jīng)過以下處理,來為用戶生產(chǎn)相對準(zhǔn)確的答案:
Li處理:既語言識別(Language identification),ChatGPT是面向中國區(qū)之外的用戶,因此用戶輸入的信息有多種語言,至于是那種語言需要先進(jìn)行識別。識別之后既可以確定在PPO中使用的是中文、還是英文、還是其它模型數(shù)據(jù)。
Ea處理:既情感分析(Emotional analysis),ChatGPT對于輸入信息進(jìn)行了多中情感分析,如果情感不符合正能量方面的要求,ChatGPT會自動拒絕回答相關(guān)用戶問題。這點(diǎn)也是非常必要的。Ea處理也需要基于PPO模型庫來分析計(jì)算。
Ei處理:既抽取信息 (Extract information),從用戶輸入的信息中提取關(guān)鍵特征,為下一步準(zhǔn)備數(shù)據(jù)
NER處理:既命名實(shí)體識別(Named entity recognition),負(fù)責(zé)提取其中的人名、地名、專業(yè)術(shù)語等信息
SS處理:既句子相似性處理(Sentence Similarity),用戶輸入的信息可能存在錯別字等信息,通過此步可以進(jìn)行一個修正
TC處理:既文本分類(Text Classification),把用戶輸入得信息進(jìn)行分類,通過此步分類,好定位到下一步搜索用到的相關(guān)搜索索引
Full Search 處理:既全文搜索處理,ChatGPT是一個自然語言+搜索引擎集成的架構(gòu),通過Ei處理得到的數(shù)據(jù)就是全文搜索的輸入數(shù)據(jù),比如EI提取出 NER=觀滄海,SS=,TC=文學(xué),那么此步就可以去搜索文學(xué)索引中的《觀滄海》,得到想要的答案。
TG處理:既文本生成(Text Generation),上一步搜索的結(jié)果可能有多條數(shù)據(jù),那么那一條最符合用戶需求呢?則通過RM模型來進(jìn)行選取,選取后生成對應(yīng)的文本內(nèi)容。
QA處理:既問題解答(Question Answering),把上一步生成的答案進(jìn)一步轉(zhuǎn)換成適合問答的形式或格式。
ChatGPT總體架構(gòu)技術(shù)是:NLP是核心 , 搜索輔助,算力是硬核
NLP : 上述流程描述中:Li、Ea、Ei、NER、SS、TC、TG、QA等處理,都需要依賴ChatGPT自身的GPT-3.5自然語言模型數(shù)據(jù),而且按照上述流程執(zhí)行,流程步驟長,上一步的結(jié)果就是下一步的輸出,一步出錯,結(jié)果必錯。ChatGPT能做到現(xiàn)在這樣已經(jīng)是相當(dāng)?shù)牧瞬黄鹆恕LP自然就是ChatGPT的核心了。
搜索:一般自然語言處理后的特征數(shù)據(jù),是句子或者詞組,對此搜索,常規(guī)的搜索肯定不行,而全文搜索技術(shù)自然就成為首選,比如開源流行的Elasticsearch,在里面主要存儲了大量的問題答案、范本數(shù)據(jù)等。
算力:告訴大家一個事實(shí):一般一個NLP模型數(shù)據(jù)非常大,上G上T都是非常正常的事情;那么這么大的數(shù)據(jù)量,每次搜索都要進(jìn)行與其計(jì)算,普通的CPU肯定是更不上的,因此GPU是首選,而且最好是使用云上的GPU算力,才能收縮性更得上。
我在網(wǎng)上看到很多噴ChatGPT答案不正確的(如下圖),其實(shí)這個問題在我意料之中,畢竟AI的難度不是一點(diǎn)半點(diǎn),而且它還依賴硬件等外部因素的影響,所以一步登天很難。展望未來,ChatGPT這一波展現(xiàn)出模型上的突破,但在應(yīng)用場景上并沒有創(chuàng)新,所以未來ChatGPT除了完善模型(這個是重點(diǎn))、完善搜索庫等之外,還需要考慮一些創(chuàng)新性的應(yīng)用場景。
比如:網(wǎng)友問 ChatGPT,霍布斯主張三權(quán)分立嗎?很明顯回答的很好,但它的回答卻是錯誤的。
關(guān)鍵詞: 技術(shù)工作