亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何創(chuàng)建高質(zhì)量、大規(guī)模、多語言的數(shù)據(jù)集

Tensorflowers ? 來源:TensorFlow ? 作者:TensorFlow ? 2021-10-29 10:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

多模式視覺語言模型依賴大量數(shù)據(jù)集來對(duì)圖像和文本之間的關(guān)系進(jìn)行建模。一般來說,這些數(shù)據(jù)集有兩種創(chuàng)建方法:手動(dòng)為圖像添加文字說明,或抓取網(wǎng)頁并提取替代文本 (alt-text)作為文字說明。雖然前一種方法更利于產(chǎn)生更高質(zhì)量的數(shù)據(jù),但高強(qiáng)度的人工注釋過程限制了可創(chuàng)建的數(shù)據(jù)量。另一方面,雖然自動(dòng)提取方法可以產(chǎn)生更大的數(shù)據(jù)集,但卻需要通過啟發(fā)式算法以及仔細(xì)過濾來確保數(shù)據(jù)質(zhì)量,或者擴(kuò)展模型來保證強(qiáng)大性能?,F(xiàn)有數(shù)據(jù)集的另一個(gè)缺點(diǎn)是極少涉及非英語語言。這不禁讓我們產(chǎn)生疑問:我們能否突破這些限制,創(chuàng)建包含各種內(nèi)容的高質(zhì)量、大規(guī)模、多語言數(shù)據(jù)集?

圖像和文本之間的關(guān)系

https://ai.googleblog.com/2014/11/a-picture-is-worth-thousand-coherent.html

確保數(shù)據(jù)質(zhì)量

https://ai.googleblog.com/2018/09/conceptual-captions-new-dataset-and.html

對(duì)此,我們推出了基于維基百科的圖像文本 (WIT) 數(shù)據(jù)集。這是一個(gè)大型多模式數(shù)據(jù)集,通過從維基百科文章和 Wikimedia 圖像鏈接中提取與圖像相關(guān)的多種不同文本選擇集創(chuàng)建而成。在創(chuàng)建過程中會(huì)執(zhí)行嚴(yán)格的過濾環(huán)節(jié),以便僅保留高質(zhì)量的圖像文本集。

基于維基百科的圖像文本 (WIT) 數(shù)據(jù)集

https://github.com/google-research-datasets/wit

如我們在 SIGIR 2021 上發(fā)布的“WIT:適用于多模式、多語言機(jī)器學(xué)習(xí)的基于維基百科的圖像文本數(shù)據(jù)集 (WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning)”中詳細(xì)說明的那樣,該過程產(chǎn)生一個(gè)包含 3750 萬個(gè)實(shí)體豐富的圖像文本示例精選集,其中涵蓋 1150 萬張獨(dú)特的圖像,跨越 108 種語言。大家可憑知識(shí)共享許可下載并使用 WIT 數(shù)據(jù)集。此外,我們也很高興地宣布,我們將與 Wikimedia Research 以及其他外部協(xié)作者攜手在 Kaggle 舉辦 WIT 數(shù)據(jù)集的競賽。

數(shù)據(jù)集 圖像
數(shù)量
文本 上下文
文本
語言數(shù)量
Flickr30K 32K 158K - < 8
SBU Captions 1M 1M - 1
MS-COCO 330K 1.5M - < 4;7
(僅限測試)
CC-3M 3.3M 3.3M - 1
CC-12M 12M 12M - 1
WIT 11.5M 37.5M ~119M 108

相比以往數(shù)據(jù)集,WIT 的語言更多,規(guī)模更大

WIT 數(shù)據(jù)集的獨(dú)特優(yōu)勢包括:

1. 大規(guī)模:WIT 是公開提供的最大的圖像文本示例多模式數(shù)據(jù)集。

2.多語言:WIT 擁有 108 種語言,是其他數(shù)據(jù)集的十倍或以上。

3.上下文信息:與典型的多模式數(shù)據(jù)集(每個(gè)圖像只有一個(gè)文字說明)不同,WIT 包含許多頁面級(jí)和部分級(jí)上下文信息。

4.現(xiàn)實(shí)世界實(shí)體:維基百科是一個(gè)覆蓋廣泛的知識(shí)庫,其豐富的現(xiàn)實(shí)世界實(shí)體可以在 WIT 中得以體現(xiàn)。

5.具有挑戰(zhàn)性的測試集:在我們最近獲得 EMNLP 接受的研究中,所有最先進(jìn)的模型在 WIT 上表現(xiàn)出的性能都明顯低于傳統(tǒng)評(píng)估集,例如平均召回率 (recall)下降約 30 點(diǎn)。

最近獲得 EMNLP 接受的研究

https://arxiv.org/abs/2109.05125

數(shù)據(jù)集的創(chuàng)建過程

WIT 的主要目標(biāo)是在不犧牲質(zhì)量和概念覆蓋面的情況下創(chuàng)建大型數(shù)據(jù)集。因此,我們選擇利用當(dāng)今最大的在線百科全書:維基百科。

就可用信息的深度而言,我們以維基百科上的“Half Dome”(加州約塞米蒂國家公園)頁面為例如下所示,文章為圖像提供了許多有趣的文本說明和相關(guān)的上下文信息,如頁面標(biāo)題、主要頁面描述以及其他上下文信息和元數(shù)據(jù)。

我們首先選擇包含圖像的維基百科頁面,然后提取各種圖像文本關(guān)聯(lián)內(nèi)容和周圍的上下文。為進(jìn)一步優(yōu)化數(shù)據(jù),我們執(zhí)行嚴(yán)格的過濾環(huán)節(jié)來確保數(shù)據(jù)質(zhì)量。過濾過程包含:

基于文本的過濾,以確保文字說明的可用性、長度和質(zhì)量(例如通過刪除通用默認(rèn)填充文本);

基于圖像的過濾,以確保每個(gè)圖像都具有特定的大小且擁有允許的許可;

基于圖像和文本實(shí)體的過濾,以確保適合研究(例如排除仇恨類言論)。

接著我們進(jìn)一步對(duì)圖像文字說明集隨機(jī)抽樣,由真人進(jìn)行校對(duì)評(píng)估,他們中絕大多數(shù)人都認(rèn)可一個(gè)結(jié)論:98% 樣本其圖像與文字說明一致。

高度語言多樣性

WIT 擁有 108 種語言的數(shù)據(jù),是首個(gè)大規(guī)模、多語言、多模式數(shù)據(jù)集。

圖像文本集數(shù)量 獨(dú)特語言
數(shù)量
圖像數(shù)量 獨(dú)特語言
數(shù)量
> 1M 9 > 1M 6
500K - 1M 10 500K - 1M 12
100K - 500K 36 100K - 500K 35
50K - 100K 15 50K - 100K 17
14K - 50K 38 13K - 50K 38

WIT:跨語言覆蓋統(tǒng)計(jì)信息

首個(gè)上下文圖像文字?jǐn)?shù)據(jù)集

大多數(shù)多模式數(shù)據(jù)集僅為給定圖像提供單個(gè)文本說明(或類似文字說明的多個(gè)版本)。WIT 是首個(gè)提供上下文信息的數(shù)據(jù)集, 可以幫助研究人員就上下文對(duì)圖像文字說明以及圖像選擇的影響進(jìn)行建模。

具體而言,可能有助于研究的 WIT 關(guān)鍵文本字段包括:

文本說明:WIT 提供三種不同的圖像文字說明,包括(可能受上下文影響的)“參考描述”、(可能不受上下文影響的)“屬性描述”,以及“替代文本描述”。

上下文信息:包括頁面標(biāo)題、頁面描述、網(wǎng)址和有關(guān)維基百科部分的局部上下文(包括部分標(biāo)題和文本)。

如下所示,WIT 在以下不同字段具有廣泛的覆蓋。

WIT 圖像
文字字段
訓(xùn)練 Val 測試 合計(jì)/獨(dú)特
行/元組 37.1M 261.8K 210.7K 37.6M
獨(dú)特的圖像 11.4M 58K 57K 11.5M
參考描述 16.9M 150K 104K 17.2M/16.7M
屬性描述 34.8M 193K 200K 35.2M/10.9M
替代文本 5.3M 29K 29K 5.4M/5.3M
上下文文本 - - - 119.8M

WIT 的關(guān)鍵字段兼有文本說明和上下文信息

高質(zhì)量訓(xùn)練集與

具有挑戰(zhàn)性的評(píng)估基準(zhǔn)

維基百科廣泛覆蓋各種概念,這意味著 WIT 評(píng)估集作為評(píng)估基準(zhǔn)非常具有挑戰(zhàn)性,即使對(duì)于最先進(jìn)的模型而言也是如此。在圖像文本檢索方面,我們發(fā)現(xiàn)傳統(tǒng)數(shù)據(jù)集的平均召回分?jǐn)?shù) (mean recall scores)為 80 秒,而對(duì)于 WIT 測試集而言,資源豐富的語言為 40 秒,資源不足的語言為 30 秒。我們希望這可以轉(zhuǎn)而幫助研究人員構(gòu)建更強(qiáng)大、更穩(wěn)健的模型。

WIT 數(shù)據(jù)集與 Wikimedia 和

Kaggle 攜手開展競賽

此外,非常高興地宣布,我們將攜手 Wikimedia Research 以及一些外部協(xié)作者共同組織 WIT 測試集的競賽。競賽將在 Kaggle 舉辦,競賽任務(wù)為圖像文本檢索。我們將給定一組圖像和文本說明,而參賽者的任務(wù)是為每個(gè)圖像檢索適當(dāng)?shù)奈淖终f明。

為促進(jìn)該領(lǐng)域的研究,維基百科為大部分訓(xùn)練和測試數(shù)據(jù)集提供了 300 像素分辨率的圖像和基于 Resnet-50 的圖像嵌入向量。除 WIT 數(shù)據(jù)集以外,Kaggle 還將托管所有圖像數(shù)據(jù),并提供 Colab notebooks。此外,參賽者屆時(shí)可訪問 Kaggle 論壇,以便分享代碼和開展協(xié)作。任何對(duì)多模態(tài)感興趣的人都可以借此輕松開始并運(yùn)行實(shí)驗(yàn)。我們很高興并且期待各位參賽者可以在 Kaggle 平臺(tái),通過 WIT 數(shù)據(jù)集和維基百科圖像為我們帶來精彩表現(xiàn)。

結(jié)論

我們相信 WIT 數(shù)據(jù)集將幫助研究人員構(gòu)建更好的多模態(tài)多語言模型,并識(shí)別更好的學(xué)習(xí)和表征技術(shù),最終借助視覺語言數(shù)據(jù)在現(xiàn)實(shí)世界任務(wù)中優(yōu)化機(jī)器學(xué)習(xí)模型。如有任何問題,請聯(lián)系 wit-dataset@google.com。我們非常愿意傾聽您如何使用 WIT 數(shù)據(jù)集。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7310

    瀏覽量

    93740
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3628

    瀏覽量

    51619
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8536

    瀏覽量

    136120

原文標(biāo)題:基于維基百科的圖像文本數(shù)據(jù)集 (WIT)

文章出處:【微信號(hào):tensorflowers,微信公眾號(hào):Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    SimData:基于aiSim的高保真虛擬數(shù)據(jù)生成方案

    01前言在自動(dòng)駕駛感知系統(tǒng)的研發(fā)過程中,模型的性能高度依賴于大規(guī)模、高質(zhì)量的感知數(shù)據(jù)。目前業(yè)界常用的數(shù)據(jù)
    的頭像 發(fā)表于 11-07 17:35 ?4145次閱讀
    SimData:基于aiSim的高保真虛擬<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>生成方案

    阿里巴巴國際站關(guān)鍵字搜索 API 實(shí)戰(zhàn):3 步搞定多語言適配 + 限流破局,詢盤量提升 40%

    跨境電商API開發(fā)常陷合規(guī)、多語言、限流等坑。本文詳解從國際合規(guī)(GDPR/CCPA)到參數(shù)優(yōu)化、數(shù)據(jù)結(jié)構(gòu)化及區(qū)域化搜索的全鏈路方案,附Python代碼模板與緩存重試架構(gòu),助力提升調(diào)用成功率至99%+,精準(zhǔn)詢盤增長42%。
    的頭像 發(fā)表于 10-20 14:44 ?586次閱讀

    速賣通全球運(yùn)營利器:商品詳情接口多語言 + 合規(guī) + 物流適配技術(shù)全解析

    速賣通全球化適配是跨境成功關(guān)鍵!本文詳解2025最新接口方案,涵蓋多語言智能翻譯、合規(guī)自動(dòng)校驗(yàn)、物流精準(zhǔn)推薦與性能優(yōu)化四大模塊,助力商家提升轉(zhuǎn)化率30%+,降低風(fēng)險(xiǎn),提效80%。附實(shí)操代碼與新手三步走策略,適合所有想出海的賣家。
    的頭像 發(fā)表于 10-16 09:30 ?115次閱讀
    速賣通全球運(yùn)營利器:商品詳情接口<b class='flag-5'>多語言</b> + 合規(guī) + 物流適配技術(shù)全解析

    標(biāo)貝科技參編《人工智能高質(zhì)量數(shù)據(jù)建設(shè)指南》

    在人工智能邁入“數(shù)據(jù)驅(qū)動(dòng)”的關(guān)鍵發(fā)展階段,高質(zhì)量數(shù)據(jù)已成為突破技術(shù)瓶頸、推動(dòng)產(chǎn)業(yè)落地的核心引擎。日前,中國信息通信研究院人工智能研究所聯(lián)合清華大學(xué)計(jì)算社會(huì)科學(xué)與國家治理實(shí)驗(yàn)室、中國人工智能產(chǎn)業(yè)發(fā)展
    的頭像 發(fā)表于 09-11 17:19 ?625次閱讀

    易華錄入選國家首批高質(zhì)量數(shù)據(jù)建設(shè)先行先試工作名單

    8月28日下午,在2025中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,國家數(shù)據(jù)局發(fā)布了首批高質(zhì)量數(shù)據(jù)建設(shè)先行先試工作名單。經(jīng)中國電科推薦、國家數(shù)據(jù)局評(píng)審,
    的頭像 發(fā)表于 09-04 09:04 ?707次閱讀

    索尼重載設(shè)備的高質(zhì)量遠(yuǎn)程制作方案和應(yīng)用(2)

    索尼的遠(yuǎn)程制作可以被稱之為制作級(jí)的高質(zhì)量遠(yuǎn)程制作,或重載設(shè)備的高質(zhì)量遠(yuǎn)程制作,遠(yuǎn)程設(shè)備結(jié)合常規(guī)系統(tǒng)設(shè)備,提供和本地制作類似的制作級(jí)高質(zhì)量圖像,延續(xù)電視臺(tái)/制作公司的設(shè)備特點(diǎn)和優(yōu)勢。
    的頭像 發(fā)表于 08-21 15:56 ?789次閱讀
    索尼重載設(shè)備的<b class='flag-5'>高質(zhì)量</b>遠(yuǎn)程制作方案和應(yīng)用(2)

    索尼重載設(shè)備的高質(zhì)量遠(yuǎn)程制作方案和應(yīng)用(1)

    最近的各地體育活動(dòng)中,索尼提供了多種產(chǎn)品和系統(tǒng)方案進(jìn)行測試和使用,其中將攝像機(jī)用于轉(zhuǎn)播場地的集中式遠(yuǎn)程制作方式是常用方式。索尼專業(yè)解決方案突出制作級(jí)質(zhì)量的優(yōu)勢,具有圖像高質(zhì)量,低碼率,低延時(shí)特點(diǎn),能提供不一樣的高質(zhì)量遠(yuǎn)程制作。
    的頭像 發(fā)表于 08-21 15:55 ?649次閱讀
    索尼重載設(shè)備的<b class='flag-5'>高質(zhì)量</b>遠(yuǎn)程制作方案和應(yīng)用(1)

    大模型時(shí)代,如何推進(jìn)高質(zhì)量數(shù)據(jù)建設(shè)?

    高質(zhì)量數(shù)據(jù),即具備高價(jià)值、高密度、標(biāo)準(zhǔn)化特征的數(shù)據(jù)集合。 在AI領(lǐng)域,高質(zhì)量數(shù)據(jù)地位舉足輕重,如同原油經(jīng)煉化成為汽油驅(qū)動(dòng)汽車,海量原始
    的頭像 發(fā)表于 08-21 13:58 ?450次閱讀

    從芯片到主板,科技創(chuàng)新實(shí)現(xiàn)高質(zhì)量發(fā)展

    數(shù)字化時(shí)代,科技的迅猛發(fā)展深刻影響著各個(gè)領(lǐng)域。從芯片到主板的集成,生動(dòng)展現(xiàn)了科技創(chuàng)新如何成為推動(dòng)高質(zhì)量發(fā)展的核心動(dòng)力。
    的頭像 發(fā)表于 07-26 16:26 ?557次閱讀

    新能源變革之路,要建在“高質(zhì)量”的路基上

    高質(zhì)量”是能源革命的前提與基座
    的頭像 發(fā)表于 06-24 11:42 ?2186次閱讀
    新能源變革之路,要建在“<b class='flag-5'>高質(zhì)量</b>”的路基上

    淺析:數(shù)字經(jīng)濟(jì)時(shí)代,高質(zhì)量數(shù)據(jù)對(duì)AI產(chǎn)業(yè)帶來哪些新的變化

    大模型技術(shù)不斷取得突破,其中大規(guī)模高質(zhì)量訓(xùn)練數(shù)據(jù)的投入,起到了關(guān)鍵作用,也進(jìn)一步將?“以數(shù)據(jù)為中心的人工智能”?推向一個(gè)新階段。從早期簡單的圖像識(shí)別、語音識(shí)別,到如今復(fù)雜的自然
    的頭像 發(fā)表于 05-09 15:10 ?604次閱讀

    高質(zhì)量 HarmonyOS 權(quán)限管控流程

    高質(zhì)量 HarmonyOS 權(quán)限管控流程 在 HarmonyOS 應(yīng)用開發(fā)過程中,往往會(huì)涉及到 敏感數(shù)據(jù) 和 硬件資源 的調(diào)動(dòng)和訪問,而這部分的調(diào)用就會(huì)涉及到管控這部分的知識(shí)和內(nèi)容了。我們需要對(duì)它有
    的頭像 發(fā)表于 04-02 18:29 ?1546次閱讀
    <b class='flag-5'>高質(zhì)量</b> HarmonyOS 權(quán)限管控流程

    廣汽集團(tuán)召開高質(zhì)量發(fā)展大會(huì)

    春回大地,萬象更新。近兩日廣東省、廣州市聚焦“建設(shè)現(xiàn)代化產(chǎn)業(yè)體系”主題,相繼召開“新春第一會(huì)”——高質(zhì)量發(fā)展大會(huì),吹響奮進(jìn)號(hào)角。廣汽集團(tuán)黨委書記、董事長馮興亞作為省市重點(diǎn)產(chǎn)業(yè)高質(zhì)量發(fā)展代表參加會(huì)議,與產(chǎn)學(xué)研各界代表共聚一堂,共繪廣東、廣州
    的頭像 發(fā)表于 02-07 10:18 ?921次閱讀

    微軟Copilot Voice升級(jí),積極拓展多語言支持

    近日,據(jù)報(bào)道,微軟近期在人工智能領(lǐng)域取得了新的進(jìn)展,正積極拓展其Copilot Voice的多語言支持功能。這一舉措標(biāo)志著微軟在語音識(shí)別和自然語言處理技術(shù)上又邁出了重要一步。 此次Copilot
    的頭像 發(fā)表于 02-06 14:10 ?648次閱讀

    借助谷歌Gemini和Imagen模型生成高質(zhì)量圖像

    在快速發(fā)展的生成式 AI 領(lǐng)域,結(jié)合不同模型的優(yōu)勢可以帶來顯著的成果。通過利用谷歌的 Gemini 模型來制作詳細(xì)且富有創(chuàng)意的提示,然后使用 Imagen 3 模型根據(jù)這些提示生成高質(zhì)量的圖像,您可
    的頭像 發(fā)表于 01-03 10:38 ?1258次閱讀
    借助谷歌Gemini和Imagen模型生成<b class='flag-5'>高質(zhì)量</b>圖像