亚洲永久在线_欧美一区影院_国产精品一区亚洲_伊人精品视频_狠久久av成人天堂_午夜精品一区二区三区四区_99在线|亚洲一区二区_久久久久久婷_黄色日韩在线_99热免费精品在线观看

首頁 >國際 >

我們需要怎樣的大模型測評

國產大模型又多一份測評,這次的狀元是訊飛星火。近日,《麻省理工科技評論》從多維度全方位檢測,力圖評出“最聰明”的國產大模型。最終,訊飛星火認知大模型V2.0榮獲“最聰明”的國產大模型稱號。

國產大模型競賽如火如荼,好像每一個大模型都很牛,但具體牛在哪又始終縹緲,由此大模型測評應運而生。但這又可能注定是一件要“燒情懷”的事,它同樣面臨著“開源”還是“閉源”的兩難選擇,和刷題與競價排名的諸多爭議。


【資料圖】

武林大會

國內“千模大戰”下,誰是最聰明的大模型《麻省理工科技評論》最新發布的大模型評測報告。該報告稱從研發和商業化能力、外界態度以及發展趨勢等維度全方位檢測大模型的能力,最終,訊飛星火認知大模型V2.0以81.5分的成績登頂,榮獲“最聰明”的國產大模型稱號。

8月15日,科大訊飛發布“訊飛星火認知大模型V2.0版本”,科大訊飛董事長劉慶峰介紹,從業界參考測試集上的效果對比來看,星火V2.0基于Python和C++進行代碼寫作能力已高度逼近ChatGPT,差距僅分別為1%和2%。

劉慶峰說,到10月24日星火大模型代碼能力全面超越ChatGPT,明年上半年將正式對標GPT4。

訊飛星火像是一個縮影。過去這段時間,大模型頻繁更新讓人眼花繚亂,動輒千億的參數、各種專業術語也讓人不明覺厲。但人們似乎很難找到一把統一的尺子,公平、客觀、直觀地感知大模型真正的效果,而不被紛雜的信息流所蒙蔽。

天使投資人、資深人工智能專家郭濤對北京商報記者分析稱,“大模型是一個非常復雜的系統,它由大量的數據和算法組成,在訓練和推理過程中需要考慮很多因素。對大模型進行測評可以幫助我們更好地了解模型的性能和特點、評估價值和意義、局限性和潛在風險等,從而為大模型的發展和應用提供有力支持”。

深度科技研究院院長張孝榮將測評形容為一場“武林大會”,要試試各家身手。他對北京商報記者分析稱,大模型涉及到龐大的參數和復雜的算法,對于性能和效果的評估十分重要。通過測評可以大致地了解大模型的性能、穩定性、準確性等內容,為用戶選擇合適的大模型提供參考。

測評開始補位。今年3月,真格基金以投資者的身份入場,設計了一套大模型測試集Z-Bench。高校也是測評的中堅力量,例如清華大學、上海交通大學和愛丁堡大學合作構建的面向中文語言模型的綜合性考試評測集C-Eval。

有媒體報道,5月以來,10多家國內外多家調研機構、權威媒體和高校等發布大模型評測報告,包括新華社研究院中國企業發展研究中心發布的《人工智能大模型體驗報告2.0》、天津大學和信創海河實驗室發布的《大模型評測報告》、國際數據公司IDC發布的《AI大模型技術能力評估報告,2023》等。

標準難統一

當該有測評成為共識,迎面而來的下一個問題就是,我們需要一個怎樣的測評。

《麻省理工科技評論》提到,評測使用的測試集包含600道題目,覆蓋了語言專項、數學專項、理科綜合、文科綜合、邏輯思維、編程能力、綜合知識、安全性共8個一級大類,126個二級分類,290個三級標簽,并針對問題的豐富性和多樣性做了優化。

此前IDC則在測評中將大模型分為三層,服務生態、產品技術以及行業應用,對每一層的能力進行測評,主要考察指標為算法模型、通用能力、創新能力、平臺能力、安全可解釋、大模型的應用行業以及配套服務和大模型生態等,具體包括36項細顆粒度的評估標準。

對于大模型測評的必要性,元語智能聯合創始人兼COO、SuperCLUE聯合發起人朱雷提到,模型測評基準是通用人工智能的基石,沒有測評就意味著沒有目標,很難準確地判斷究竟哪些做得好哪些做得不好,同時對于AI的安全性也無法把控。從國際視角上看,對于大模型的測評也是沒有絕對標準的,因為大模型發展太快了。但在國內要做出一個客觀公正的評測基準,也會遇到很多阻力。

北京市社會科學院副研究員王鵬對北京商報記者分析,目前大模型尚屬新興事物,國際上還沒有一個覆蓋面非常廣、能夠得到大家公允的評估方法或整套指標體系,需要加強國際合作,形成廣泛共識。

“但這也會面臨一定的問題,即大模型本身類型繁多,通用還是專用、垂類還是跨行業、偏技術還是偏應用等區別也會帶來一定的阻礙,因此更需要權威機構加強研究,盡快形成共識,促進技術進步和行業發展。”王鵬稱。

在他看來,一個合格的測評,應該由四個維度組成。首先是技術本身,包括穩定性、效率、效果等;其次是與行業的結合,在行業應用中是否有效果、成本是否可控、是否能夠形成商業閉環;再次還要考慮是否安全可控;最后要從社會及行業認知角度,了解其在行業中的關注度,畢竟“酒香也怕巷子深”。

張孝榮也提到,由于大模型涉及的領域和應用非常廣泛,不同領域、不同應用的大模型需要關注的指標和評估方法不盡相同。因此,針對具體應用領域和需求,不同機構和組織可能會提出不同的評估標準和方法。“盡管沒有統一的標準,但測評的意義在于提供了一種評估和比較不同大模型性能和效果的方法,幫助用戶選擇適合自己需求的大模型。”

測評還是營銷

“測評的意義側重于營銷推廣。”張孝榮還提到了一個觀點。

360智腦產品資深專家葛燦輝在引用SuperCLUE測評結果的時候,提煉出了一句總結:“360智腦”多項能力位列國產大模型第一。《麻省理工科技評論》的測評報告,傳播最多的也是“訊飛星火被評為中國‘最聰明’的大模型”。

更早些時候,刷屏的是百度。比如IDC的大模型報告中,“百度文心大模型3.5獲多項滿分”,清華大學新聞與傳播學院沈陽團隊發布的《大語言模型綜合性能評估報告》中,百度文心一言在三大維度20項指標中綜合評分國內第一,超越ChatGPT。

每每涉及榜單,榜首歸誰總是容易成為話題中心,從這個角度上看,測評本身或許就帶著些營銷的天然屬性。但也正是如此,延伸出了一些不容忽視的問題。

“SuperCLUE出6月榜單的時候,第一時間就有人指責我們是不是收了360的錢,但事實是,直到這次沙龍,我們與360智腦產品負責人才有了第一次接觸。”朱雷如此說道。

事實上,大模型測評同樣面臨著“開源”和“閉源”的兩難選擇。朱雷稱,大模型測評題集也有開源閉源之分,但開源的題目就會面臨受試者提前訓練進而刷分“打榜”的可能,而閉源的題目就會陷入到是否有暗箱操作乃至競價排名的爭議。

朱雷表示,SuperCLUE還是選擇了閉源的測評路線,但不是任何機構都可以閉源的,之所以公眾較為相信SuperCLUE的測評結果,主要還是基于過去四年CLUE社區對中文語言模型的貢獻和公信力。

據了解,CLUE開源社區發起于2019年,旨在建立科學、客觀、中立的AI評測基準,過去幾年CLUE社區分別建立了ZeroCLUE、FewCLUE等知名的語言模型評測基準,又于今年5月發布首個中文通用大模型綜合性評測基準SuperCLUE。

SuperCLUE分為SuperCLUE-Opt、SuperCLUE-LYB瑯琊榜以及SuperCLUE-Open三個不同維度的評測基準,相輔相成。據介紹,SuperCLUE目前也是中文AI領域最完整的綜合性測評基準,同時也是罕見的“閉卷”考試。

“我們暫時還沒有找到折中的方法,所以決定先‘保密’,大模型廠商不知道我出了什么樣的問題,自然不好刷分。至于‘保密’帶來的黑盒化,目前來看還是一個兩者不可兼得的問題,但我們堅信自己的第三方中立性,評測的結論也是十分科學的。”朱雷稱。

王鵬分析稱,任何一項評估或排名,都可能面臨一些問題,但這其實相當于一個“否定之否定”的過程。首先評估體系本身并不是完美的,需要不斷優化提升,應對大家可能產生的質疑。

其次,專業的評測機構、技術機構等,也要注重自己的口碑,建立完善的體系,儲備豐富的經驗,有較好的技術團隊和技術儲備,作出更加客觀公允、公平公正的評價。“因為一旦出現‘人情分’等問題,不僅會影響自己的聲譽,也不利于行業的未來發展。”王鵬稱。

關鍵詞:

責任編輯:Rex_22

亚洲永久在线_欧美一区影院_国产精品一区亚洲_伊人精品视频_狠久久av成人天堂_午夜精品一区二区三区四区_99在线|亚洲一区二区_久久久久久婷_黄色日韩在线_99热免费精品在线观看
激情综合网址| 亚洲图色在线| 午夜视频一区| 国产精品va| 在线观看亚洲视频啊啊啊啊| 欧美精品午夜| 亚洲第一精品影视| 亚洲精品123区| 一区二区三区久久网| 国产欧美午夜| 好吊日精品视频| 国产伦精品一区二区三区四区免费| 亚洲免费中文| 怡红院精品视频在线观看极品| 亚洲日本精品国产第一区| 国产精品久久777777毛茸茸| 久久成人免费| 亚洲综合欧美| 精品69视频一区二区三区Q| 国产精品美女xx| 欧美精品v日韩精品v国产精品| 永久域名在线精品| 欧美88av| 久热精品视频| 亚洲欧美视频一区二区三区| 亚洲激情一区二区| 欧美午夜免费| 你懂的视频一区二区| 亚洲综合精品| 国产精品久久国产三级国电话系列| 久久成人在线| 久久久久一区二区三区| 国产视频亚洲| 一区二区三区成人精品| 亚洲伦伦在线| 国产精品一区在线播放| 国产午夜精品在线| 久久激情网站| 老牛嫩草一区二区三区日本| 麻豆91精品| 国产精品豆花视频| 黄色在线一区| 日韩网站在线| 久久av一区二区三区| 国产精品日韩精品欧美精品| 国产三区精品| 久久久久国产精品一区三寸| 欧美成人首页| 欧美激情综合色综合啪啪| 国产精品久久九九| 国产日韩在线一区二区三区| 亚洲欧美亚洲| 欧美日本在线| 国产精品日韩久久久| 欧美高清视频一区二区三区在线观看| 国产一区二区三区自拍| 老司机精品久久| 在线免费观看一区二区三区| 亚洲免费一区二区| 91久久午夜| 欧美日一区二区在线观看 | 国产精品久久久久久久久婷婷| 欧美日韩亚洲三区| 亚洲男人影院| 亚洲国产精品一区二区第一页 | 国产欧美日本| 欧美日韩综合| 久久综合九色99| 久久精品一本| 免费中文字幕日韩欧美| 亚洲美女毛片| 国模精品娜娜一二三区| 国产欧美另类| 国产精品久久国产愉拍| 亚洲欧洲一区二区天堂久久| 国产精品v一区二区三区| 欧美在线亚洲综合一区| 麻豆久久久9性大片| 另类av一区二区| 久久aⅴ乱码一区二区三区| 99精品热6080yy久久| 亚洲精品四区| 亚洲欧美日韩在线综合| 一区二区三区|亚洲午夜| 99热在线精品观看| 正在播放亚洲| 久久五月天婷婷| 久久精品二区| 欧美激情综合色综合啪啪| 国产一区二区三区成人欧美日韩在线观看| 亚洲午夜久久久久久尤物| 在线精品一区| 亚洲综合日韩| 亚洲国产精品毛片| 老**午夜毛片一区二区三区| 亚洲性人人天天夜夜摸| 国产欧美另类| 亚洲电影在线| 欧美视频官网| 玖玖国产精品视频| 国产精品外国| 国产日本精品| 1024日韩| 国产精品毛片在线| 午夜在线视频观看日韩17c| 欧美性天天影院| 先锋影音久久| 国产精品入口| 亚洲欧美精品| 欧美韩国一区| 亚洲日本精品国产第一区| 在线免费高清一区二区三区| 99热免费精品在线观看| 免费日韩av片| 亚洲高清av| 久久中文字幕一区二区三区| 欧美日韩国产免费观看| 99pao成人国产永久免费视频| 国产欧美日韩一区二区三区在线 | 亚洲精选在线| 国产精品久久久对白| 亚洲综合社区| 午夜激情一区| 亚洲国产一区二区三区在线播| 国产精品日韩精品欧美精品| 日韩午夜免费| 在线午夜精品| 国产午夜精品在线| 米奇777在线欧美播放| 一区二区亚洲精品| 欧美成人69| 国语精品中文字幕| 亚洲激情国产| 噜噜噜91成人网| 模特精品在线| 亚洲手机视频| 午夜久久福利| 欧美在线免费| 久久综合图片| 欧美激情第六页| 麻豆成人精品| 久久动漫亚洲| 在线不卡视频| 国产一区日韩一区| 国内精品久久久久久久影视麻豆 | 国产精品一区二区在线观看| 久久天堂精品| 韩日精品视频| 久久都是精品| 久久大逼视频| 麻豆av一区二区三区| 国产亚洲欧洲| 久久三级视频| 国产精品一级久久久| 99精品视频免费观看视频| 久久婷婷亚洲| 国产精品美女| 在线日本成人| 国产欧美日韩一区| 亚洲女人av| 欧美+日本+国产+在线a∨观看| 欧美日韩1区| 国产精品v欧美精品v日本精品动漫 | 先锋影音久久| 亚洲无玛一区| 久久性天堂网| 亚洲黄色视屏| 136国产福利精品导航网址| 美女精品国产| 亚洲欧美激情诱惑| 欧美日韩亚洲国产精品| 怡红院精品视频在线观看极品| 国产精品99免费看| 亚洲精品一级| 一区二区三区四区五区精品视频 | 国产精品乱码| 亚洲黄色毛片| 国产中文一区二区| 国产日韩精品一区观看| 亚洲一区二区三区涩| 久久免费99精品久久久久久 | 蜜桃精品久久久久久久免费影院| 99精品国产福利在线观看免费| 欧美在线亚洲综合一区| 亚洲高清精品中出| 黄色欧美成人| 欧美日韩亚洲一区二区三区在线 | 久久av最新网址| 欧美在线免费一级片| 亚洲欧洲日夜超级视频| 美日韩精品免费| 欧美1区2区视频| 欧美日韩视频| 欧美一区激情| 欧美激情视频一区二区三区在线播放| 欧美日本一区二区高清播放视频| 国产精品入口66mio| 久久精品一区| 亚洲一区二区免费看| 欧美1区视频| 亚洲大胆视频| 日韩午夜黄色| 国产亚洲综合精品| 亚洲欧美影院| 国产欧美日本在线| 久久综合九色99| 亚洲在线电影| 国产精品乱码一区二区三区| 韩国在线一区| 日韩视频三区| 国产一区二区三区无遮挡| aa级大片欧美三级| 欧美成人蜜桃| 久久人人97超碰人人澡爱香蕉| 六月婷婷久久| 久久久国产精品一区二区中文| 免费在线国产精品| 国产精品永久入口久久久| 久久精品日产第一区二区| 国产精品xvideos88| 国产偷久久久精品专区| 国产精品激情| 欧美视频官网| 欧美午夜a级限制福利片| 欧美精品观看| 一本一本久久| 欧美破处大片在线视频| 黄色日韩在线| 亚洲美女啪啪| 亚洲一区自拍| 久久aⅴ国产紧身牛仔裤| 中文网丁香综合网| 欧美日韩一区在线观看视频| 亚洲精品123区| 国产在线观看一区| 国内成+人亚洲| 黄色国产精品一区二区三区| 1024成人| 国产欧美精品久久| 极品中文字幕一区| 欧美激情成人在线| 久久久久se| 亚洲国产一区二区在线| 久久久久高清| 99国产精品99久久久久久粉嫩| 奶水喷射视频一区| 国产精品久久波多野结衣| 亚洲九九精品| 亚洲一区综合| 国产一区白浆| 欧美午夜久久| 久久av一区| 99精品福利视频| 亚洲精品婷婷| 久久夜色精品| 99精品视频免费观看视频| 国产精品毛片| 99在线观看免费视频精品观看| 久久精品综合一区| 国产精品美女久久久浪潮软件| 亚洲区一区二| 另类国产ts人妖高潮视频| 欧美一区免费| 伊人久久大香线蕉av超碰演员| 欧美一区二区三区四区夜夜大片| 亚洲欧洲另类| 免费久久久一本精品久久区| 亚洲国产一区二区在线| 亚洲无玛一区| 久久亚洲风情| 在线观看日韩av电影| 免费永久网站黄欧美| 国产一区二区精品| 国产精品主播| 国产婷婷精品| 久久久久久九九九九| 99国产精品视频免费观看一公开| 欧美一区精品| 久久高清免费观看| 欧美激情四色| 亚洲国产精品www| 亚洲综合国产| 欧美一区综合| 欧美激情第10页| 久久久国产亚洲精品| 国产一区二区你懂的| 久久免费一区| 欧美日韩视频| 久久高清国产| 久久福利一区| 欧美黄色一区| 亚洲一级二级| 亚洲国产mv| 国产精品www.| 欧美日韩18| 国产欧美日本| 黄色亚洲大片免费在线观看| 免费日韩av片| 国产精品视区| 亚洲精品社区| 欧美午夜不卡| 国产精品一区二区三区观看| 久久成人在线| 国产欧美在线| 国产精品婷婷| 久久久蜜桃一区二区人| 精品91在线| 久久不射中文字幕| 一区国产精品| 免费欧美在线| 亚洲福利av| 亚洲欧洲精品一区| 久久这里有精品15一区二区三区| 亚洲免费激情| 欧美日韩专区| 久久九九电影| 久久精品人人| 国产精品一区亚洲| 99国产精品自拍| 亚洲精品在线视频观看| 欧美一区久久| 亚洲美女91| 亚洲成人中文| 欧美日韩在线精品| 亚洲三级影院| 国产日韩1区| 久久激情一区| 亚洲高清不卡一区| 欧美日韩精品免费观看| 欧美日韩一视频区二区| 久久精品中文字幕一区二区三区| 久久九九免费| 亚洲人成久久| 影音先锋日韩资源| 亚洲黄色三级| 亚洲免费网址| 久久久久久亚洲精品杨幂换脸| 中文日韩欧美| 亚洲精品一二| 在线亚洲国产精品网站| 亚洲免费精品| 国产一区在线免费观看| 亚洲在线成人| 久久一区激情| 欧美成人亚洲| 国产亚洲二区| 亚洲承认在线| 欧美日韩喷水| 黄色综合网站| 狠狠色伊人亚洲综合网站色| 黄页网站一区| 亚洲一区自拍| av不卡在线看| 免费久久久一本精品久久区| 亚洲国产日韩综合一区| 久久午夜激情| 老**午夜毛片一区二区三区| 亚洲久久成人| 亚洲人成在线影院| 欧美久久久久久| 国产精品手机视频| 国产精品免费看| 久久久久天天天天| 欧美午夜免费影院| 亚洲欧美清纯在线制服| 亚洲久久在线| 另类亚洲自拍| 亚洲专区一区| 伊人成人在线视频| 欧美一区三区二区在线观看| 亚洲一区二区伦理| 久久久久国内| 国产乱码精品| 亚洲美女一区| 国产日韩欧美一区在线| 亚洲麻豆视频| 久久久水蜜桃av免费网站| 欧美.www| 亚洲区国产区| 久久精品日韩欧美| 久久久久久国产精品一区| 激情久久久久| 亚洲乱亚洲高清| 亚洲国产精品毛片| 国产精品乱码一区二区三区| 国产精品xvideos88| 久久五月激情| 在线精品福利| 你懂的一区二区| 老司机免费视频久久 | 免费视频久久| 午夜天堂精品久久久久| 欧美日本一区二区视频在线观看 | 在线视频欧美一区| 国产综合婷婷| 国产精品激情电影| 99精品视频免费全部在线| 亚洲在线观看| 国产亚洲网站| 欧美国产三区|