97国产精品视频|欧美国产偷国产精品三区|在线欧美成人网站网址|亚洲在线色情日本无码视频网|高潮喷水在线日韩精品操|真真操逼视频国产免费啪啪片|超大波少妇欧美亚洲精品日韩一区|久久视频精品91午夜视频|亚洲无码成人动漫精品一区二区|中文字幕久久成人

您當前位置:采招網 > 文檔下載 > 海油發(fā)展-信息技術品類部-非結構數(shù)據(jù)智能分析軟件開發(fā)服務-20250304-采辦計劃技術要求說明書-非結構數(shù)據(jù)智能分析軟件.docx

海油發(fā)展-信息技術品類部-非結構數(shù)據(jù)智能分析軟件開發(fā)服務-20250304-采辦計劃技術要求說明書-非結構數(shù)據(jù)智能分析軟件.docx

下載文件(50.62KB)
天津市 2025-03-04 50.62KB 業(yè)主:中海油能源發(fā)展股份有限公司
內容簡介

中海油能源發(fā)展股份有限公司非結構數(shù)據(jù)智能分析軟件采購技術要求書編制:審核:批準:一、項目概況及總體要求集團公司擁有海量寶貴數(shù)據(jù),蘊含巨大潛在價值,但是這些數(shù)據(jù)多為非結構化,圖片、表格和文本等多種形式以分散于各類文件中,有效利用成為一大挑戰(zhàn)。面對海量數(shù)據(jù),傳統(tǒng)人工分析方法捉襟見肘,耗時費力,無法滿足現(xiàn)代油田開發(fā)的迫切需求。因此,亟需開發(fā)高效的非結構化數(shù)據(jù)智能分析技術,實現(xiàn)數(shù)據(jù)的自動處理和智能分析,為油田增產增效提供堅實后盾,驅動行業(yè)革新。本研究旨在開發(fā)一個先進的智能分析系統(tǒng),實現(xiàn)對油田開發(fā)可行性報告中復雜多模態(tài)數(shù)據(jù)的自動化處理、高效存儲和深度理解。二、服務內容和范圍1、服務內容結合非結構化數(shù)據(jù)分析的痛點,提升針對油氣田開發(fā)方案實現(xiàn)多種模態(tài)非結構化數(shù)據(jù)的智能分析、識別、拆分、存儲能力,為勘探開發(fā)研究提供更加精準、高效、全面的決策支持。依托現(xiàn)有的勘探開發(fā)數(shù)據(jù)湖、典型油氣藏研究成果常用文檔、圖片、表格數(shù)據(jù),根據(jù)數(shù)據(jù)的特性和應用需求,制定合理的分類體系和標準,在數(shù)據(jù)處理的過程中,需要特別關注數(shù)據(jù)的清洗、拆分和標準化,確保數(shù)據(jù)的高質量要求。根據(jù)油田名稱、表格名稱、圖片名稱,實現(xiàn)文檔、圖片和表格的匹配。對收集到的數(shù)據(jù)進行清洗。確保數(shù)據(jù)的準確性、一致性和完整性。去除噪聲數(shù)據(jù)和不相關信息,提取有價值的數(shù)據(jù)內容。(1)非結構化數(shù)據(jù)自動解析軟件開發(fā)充分考慮數(shù)據(jù)湖中數(shù)據(jù)的多樣性和復雜性,研究合理的數(shù)據(jù)解析方法,確保軟件能夠自動拆分各種格式文檔中的文本、圖片、表格數(shù)據(jù)并向量化入庫,文檔類型包括但不限于PDF、Word、Excel等;同時搭建配套應用,供用戶進行界面操作,并提供完善的API接口,確保軟件能夠與CeaStor存儲工具和其他系統(tǒng)以及服務進行無縫集成。(2)基于RAG和知識圖譜的大模型智能問答應用搭建智能問答應用,基于預訓練大模型,實現(xiàn)RAG增強檢索。應用分為檢索和生成兩個階段。在檢索階段,能夠對用戶的問題進行深入理解和意圖識別,通過與數(shù)據(jù)湖中相關數(shù)據(jù)庫的高效交互,快速篩選出與問題語義上最相關的信息片段;在生成階段,能夠將檢索到的信息與用戶需求融合并生成自然、準確的答案,同時具備根據(jù)需求展示相關圖片、表格的功能。(3)數(shù)據(jù)驗證使用經過預處理后的多模態(tài)數(shù)據(jù)對數(shù)據(jù)解析工具進行驗證,并針對驗證過程中發(fā)現(xiàn)的問題,進行工具優(yōu)化。(4)工具優(yōu)化在數(shù)據(jù)預處理過程中收集并整理各類特殊數(shù)據(jù)情況,并針對性對數(shù)據(jù)解析工具進行優(yōu)化,確保工具能應對各種特殊情況。(5)數(shù)據(jù)向量化利用向量化技術對收集到的對文本進行向量化處理,將文本轉換為高維稠密向量。將數(shù)據(jù)存入向量數(shù)據(jù)庫,初步構建高質量的常用數(shù)據(jù)向量數(shù)據(jù)庫,以便于后續(xù)的大模型訓練和智能應用的高效檢索。(6)常見問題的征集、拆分和任務設計問題分析和拆解:通過對用戶問題分析,將問題拆分為多個適合大模型處理的子問題,需要為每個子問題設計具體的任務,明確任務的目標、輸入、預期輸出和評估標準。學習任務框架設計:按照思維鏈的模式,設計一套詳盡的問題拆分與子任務設計框架,指導大模型針對實際問題提供準確、有效的解決方案。(7)提示詞工程深入分析各類專業(yè)人員在實際操作中可能遇到的問題和挑戰(zhàn),對于不滿意的問題答案,結合現(xiàn)狀設計高質量的提示詞模板或構建一個靈活的提示詞生成機制,通過用戶測試和反饋收集,不斷迭代和完善提示詞模板和生成機制,以實現(xiàn)最佳的用戶交互體驗。(8)反饋優(yōu)化前期按不同專業(yè)構建精細的問答對,大模型針對每個問題生成多個候選答案,用戶根據(jù)個人滿意度對這些答案進行排序,根據(jù)排序結果訓練獎勵模型,后期開發(fā)用戶反饋收集平臺,持續(xù)收集用戶對問答結果的滿意程度,結合強化學習技術和獎勵模型,根據(jù)用戶的互動和反饋定期優(yōu)化系統(tǒng)決策過程和響應策略。2、工作量清單序號服務內容描述數(shù)量單位1非結構化數(shù)據(jù)自動解析軟件開發(fā)1項2基于RAG和知識圖譜的大模型智能問答應用1項3數(shù)據(jù)驗證1項4工具優(yōu)化1項5常見問題的征集、拆分和任務設計1項6提示詞工程1項