Â·ç ”ç©¶äººå“¡ç™¼(fÄ)ç¾(xià n),在生物醫(yÄ«)ç™‚é ˜(lÇng)域,盡管“定制版â€åž‚類模型應用å°äºŽé†«(yÄ«)å¸è‡ªç„¶èªžè¨€è™•ç†ä¸Šä»æœ‰å„ª(yÅu)勢,但涉åŠå¾©é›œçš„推ç†ï¼Œå°¤å…¶æ˜¯é†«(yÄ«)å¸å•ç”æ–¹é¢ï¼Œé–‰æºé€šç”¨å¤§æ¨¡åž‹GPT-4則更有明顯優(yÅu)勢。
澎湃新èžè¨˜è€… 蔣立冬 AI創(chuà ng)æ„
大模型在生物醫(yÄ«)ç™‚é ˜(lÇng)域的應用情æ³å¦‚ä½•ï¼Ÿå“ªç¨®æ¨¡åž‹æ›´åŠ é©ç”¨ï¼Ÿ4月6日,《自然·通訊》(Nature Communicationsï¼‰é›œå¿—åˆŠç™»äº†ä¸€é …ç”±è€¶é¯å¤§å¸é†«(yÄ«)å¸é™¢çš„ç ”ç©¶äººå“¡å°å¤§èªžè¨€æ¨¡åž‹ï¼ˆLLMs)在生物醫(yÄ«)å¸è‡ªç„¶èªžè¨€è™•ç†ï¼ˆBioNLP)ä¸çš„å…¨é¢è©•ä¼°èˆ‡æ‡‰ç”¨æŒ‡å—(《Benchmarking large language models for biomedical natural language processing applications and recommendations》,以下簡稱“指å—â€ï¼‰ã€‚在該份指å—ä¸ï¼Œç ”究人員é¸æ“‡äº†12個來自 BioNLP ä¸åŒæ‡‰ç”¨é ˜(lÇng)域的數(shù)æ“š(jù)集,評估了四種具有代表性的大模型GPT-3.5ã€GPT-4ã€LLaMA 2 å’Œ PMC LLaMA在零樣本ã€å°‘樣本和微調(dià o)è¨(shè)置下的性能。
生物醫(yÄ«)å¸è‡ªç„¶èªžè¨€è™•ç†ï¼ˆBioNLP)技術(shù)是一種將自然語言處ç†æŠ€è¡“(shù)應用于生物醫(yÄ«)å¸é ˜(lÇng)域的交å‰å¸ç§‘技術(shù)ï¼Œæ ¸å¿ƒæ˜¯å¾žå¤§é‡çš„生物醫(yÄ«)å¸æ–‡æœ¬æ¯”如醫(yÄ«)å¸è«–æ–‡ã€é›»åç—…æ·ã€åŸºå› 數(shù)æ“š(jù)庫ç‰ä¸è‡ªå‹•æå–有用的信æ¯ã€‚
ç ”ç©¶äººå“¡ç™¼(fÄ)ç¾(xià n),在生物醫(yÄ«)ç™‚é ˜(lÇng)域,僅é æŒçºŒ(xù)æ“´å……é 訓練數(shù)æ“š(jù)并ä¸èƒ½é¡¯è‘—æå‡é–‹æºç”Ÿç‰©é†«(yÄ«)å¸å¤§èªžè¨€æ¨¡åž‹çš„整體表ç¾(xià n),é‡å°å…·é«”醫(yÄ«)å¸ä»»å‹™çš„微調(dià o)æ‰æ˜¯é—œ(guÄn)éµã€‚比如生物醫(yÄ«)å¸é ˜(lÇng)域特定大模型的代表PMC -LLaMA,使用了32個A100 GPUå°æ¨¡åž‹é€²è¡Œé 訓練,但最終評估并未發(fÄ)ç¾(xià n)該模型的性能有顯著æå‡ã€‚PMC -LLaMA是由上海交通大å¸é•·è˜è»Œå‰¯æ•™æŽˆè¬å‰è¿ªç ”究團隊于2023å¹´4æœˆç ”ç™¼(fÄ)的垂類模型,基座模型使用的是LLaMA 2ï¼›ç ”ç©¶äººå“¡ç™¼(fÄ)ç¾(xià n),直接微調(dià o)LLaMA 2å¯ä»¥ç²å¾—更好或至少相似的性能。通éŽå¾®èª¿(dià o),模型å¯ä»¥é‡å°æ€§åœ°å¸ç¿’醫(yÄ«)å¸é ˜(lÇng)域的專æ¥(yè)知è˜å’Œå¾©é›œæŽ¨ç†è¦æ±‚,從而在信æ¯æŠ½å–ã€é†«(yÄ«)å¸å•ç”ç‰ä»»å‹™ä¸Šå¯¦ç¾(xià n)顯著性能æå‡ã€‚
ç ”ç©¶äººå“¡å»ºè°ï¼Œæœªä¾†åœ¨ç”Ÿç‰©é†«(yÄ«)療應用ä¸ï¼Œæ‡‰æ›´å¤šé—œ(guÄn)注如何優(yÅu)化微調(dià o)ç–略,以彌補é 訓練在處ç†å°ˆæ¥(yè)醫(yÄ«)å¸æ–‡æœ¬æ™‚çš„ä¸è¶³ã€‚“需è¦ä¸€ç¨®æ›´æœ‰æ•ˆã€æ›´å¯æŒçºŒ(xù)的方法來開發(fÄ)特定于生物醫(yÄ«)å¸é ˜(lÇng)域的大語言模型。â€ç ”究人員稱。
相較于通用大模型,é‡å°ç”Ÿç‰©é†«(yÄ«)ç™‚é ˜(lÇng)域里的“定制版â€æ¨¡åž‹BioBERTå’ŒPubMedBERT(注釋:Bert是一款由谷æŒé–‹ç™¼(fÄ)çš„é 訓練語言模型),在醫(yÄ«)å¸è‡ªç„¶èªžè¨€è™•ç†è¡¨ç¾(xià n)更出色。由于經(jÄ«ng)éŽå°ˆæ¥(yè)的醫(yÄ«)å¸æ•¸(shù)æ“š(jù)訓練,BioBERTå’ŒPubMedBERT這類“定制版â€æ¨¡åž‹èƒ½å¤ 更精準地è˜åˆ¥ç–¾ç—…å稱ã€åŸºå› ã€åŒ–å¸ç‰©è³ª(zhì)以åŠç†è§£é†«(yÄ«)å¸è¡“(shù)語,這一點表ç¾(xià n)比GPT-3.5å’ŒGPT-4為代表的通用大型語言模型更好。但涉åŠè¼ƒç‚ºå¾©é›œçš„推ç†ä»»å‹™ï¼Œå°¤å…¶æ˜¯é†«(yÄ«)å¸å•ç”æ–¹é¢ï¼ŒGPT-4則更有明顯優(yÅu)å‹¢ï¼Œèƒ½å¤ â€œçœ‹æ‡‚å¹¶èƒ½æ€è€ƒâ€ï¼Œç”Ÿæˆæ›´åˆç†ä»¥åŠæº–確的回應。
å°äºŽç”Ÿç‰©é†«(yÄ«)藥行æ¥(yè)æ™®éé—œ(guÄn)心的大模型幻覺å•é¡Œï¼Œæ¤æ¬¡ç ”究çµ(jié)果表明,GPT-4在兩個數(shù)æ“š(jù)集上幾乎沒有出ç¾(xià n)幻覺å•é¡Œã€‚在零樣本æ¢ä»¶ä¸‹ï¼Œé€šç”¨é–‹æºæ¨¡åž‹LLaMA 2則更容易出ç¾(xià n)幻覺å•é¡Œï¼Œæ¯”如輸出時常常出ç¾(xià n)ä¿¡æ¯ä¸å®Œæ•´ã€æ ¼å¼ä¸ä¸€è‡´æˆ–æ示無關(guÄn)å…§(nèi)容的情æ³ï¼Œå®ƒç”¢(chÇŽn)生的幻覺案例約å 測試樣本的32%,比例é 超GPT-3.5å’ŒGPT-4。
盡管GPT-4在眾多評估任務ä¸è¡¨ç¾(xià n)優(yÅu)ç•°ï¼Œä½†ç ”ç©¶äººå“¡æŒ‡å‡ºï¼Œå…¶èª¿(dià o)用æˆæœ¬ç›¸ç•¶äºŽGPT-3.5çš„60至100å€ã€‚å°äºŽé 算有é™çš„å¯¦éš›æ‡‰ç”¨å ´æ™¯ï¼Œé†«(yÄ«)å¸æ©Ÿæ§‹(gòu)å¯èƒ½æœƒå‚¾å‘于é¸ç”¨æˆæœ¬è¼ƒä½Žä¸”效果å¯æŽ¥å—çš„GPT-3.5;而å°äºŽæº–確性è¦æ±‚極高ã€å°¤å…¶æ˜¯é†«(yÄ«)å¸å•ç”這類ä¾è³´å¾©é›œæŽ¨ç†çš„任務ä¸ï¼ŒGPT-4å¯èƒ½æœƒæ˜¯æ›´ç†æƒ³çš„é¸æ“‡ã€‚
特別è²æ˜Žï¼šä»¥ä¸Šå…§(nèi)容(å¦‚æœ‰åœ–ç‰‡æˆ–è¦–é »äº¦åŒ…æ‹¬åœ¨å…§(nèi))為自媒體平臺“網(wÇŽng)易號â€ç”¨æˆ¶ä¸Šå‚³å¹¶ç™¼(fÄ)布,本平臺僅æ供信æ¯å˜å„²æœå‹™ã€‚
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.