A method for dynamically managing and navigating associated content in a presentation system, apparatus, and computer-program product

The integration of voice recognition and a floating window interface in presentation systems addresses the limitations of conventional methods by allowing dynamic navigation and management of associated content, enhancing efficiency and interactivity.

WO2026137309A1PCT designated stage Publication Date: 2026-07-02BOE TECHNOLOGY GROUP CO LTD

Patent Information

Authority / Receiving Office
WO · WO
Patent Type
Applications
Current Assignee / Owner
BOE TECHNOLOGY GROUP CO LTD
Filing Date
2024-12-26
Publication Date
2026-07-02

AI Technical Summary

Technical Problem

Conventional presentation methods are inadequate for modern needs, particularly in scenarios requiring dynamic, real-time interaction and seamless navigation of associated content, as they often involve static slides and limited user engagement.

Method used

A method and apparatus that utilize voice recognition technology and a floating window interface to enable dynamic navigation and management of associated content, allowing presenters to switch between slides or pages using voice commands and a floating window that displays related content without disrupting the presentation flow.

Benefits of technology

Enhances presentation efficiency and interactivity by enabling direct navigation to target slides through voice commands, improving usability and flexibility, especially in large venues, and maintaining a seamless presentation experience.

✦ Generated by Eureka AI based on patent content.

Smart Images

  • Figure CN2024142626_02072026_PF_FP_ABST
    Figure CN2024142626_02072026_PF_FP_ABST
Patent Text Reader

Abstract

A method for dynamically managing and navigating associated content in a presentation system is provided. The method includes initiating a presentation system configured with a content presentation software and an intelligent interaction software; parsing, by the intelligent interaction software, a source file opened by the content presentation software, wherein the parsing extracts content structure and metadata to identify content pages and associated data; creating a plurality of associated groups, wherein a respective associated group of the plurality of associated groups includes one or more content pages from the source file; and generating and displaying a floating window on a user interface. The floating window dynamically retrieves and presents content pages from one or more associated groups based on the current presentation context.
Need to check novelty before this filing date? Find Prior Art

Description

A METHOD FOR DYNAMICALLY MANAGING AND NAVIGATING ASSOCIATED CONTENT IN A PRESENTATION SYSTEM, APPARATUS, AND COMPUTER-PROGRAM PRODUCTTECHNICAL FIELD

[0001] The present invention relates to display technology, more particularly, to a method for dynamically managing and navigating associated content in a presentation system, an apparatus, and a computer-program product.BACKGROUND

[0002] In recent years, the integration of advanced technologies into presentation systems has significantly transformed the way individuals interact with and deliver content. The growing reliance on digital tools and systems for creating, managing, and navigating content has introduced new possibilities for improving the efficiency, flexibility, and interactivity of presentations. Conventional presentation methods, which often involve static slides and limited user engagement, are becoming increasingly inadequate for modern needs, particularly in scenarios requiring dynamic, real-time interaction and seamless navigation of associated content.SUMMARY

[0003] In one aspect, the present disclosure provides a method for dynamically managing and navigating associated content in a presentation system, comprising initiating a presentation system configured with a content presentation software and an intelligent interaction software; parsing, by the intelligent interaction software, a source file opened by the content presentation software; and generating and displaying a floating window on a user interface; wherein the floating window dynamically retrieves and presents one or more elements of content data based on the current presentation context; and the content data comprises at least one of a content page, metadata, extracted information, associated data, or an interactive element.

[0004] Optionally, the method further comprising creating a plurality of associated groups, wherein a respective associated group of the plurality of associated groups comprises one or more content pages from the source file; wherein the floating window dynamically retrieves and presents content pages from one or more associated groups based on the current presentation context.

[0005] Optionally, the parsing extracts content structure and metadata to identify content pages and associated data.

[0006] Optionally, the method further comprises detecting a perceptual input command, and recognizing the perceptual input command.

[0007] Optionally, the method further comprises matching a recognized input from recognizing the perceptual input command with contents in a content page; and upon determination that a match is found, retrieving a target content item identifier corresponding to a matched content.

[0008] Optionally, the method further comprises switching to a target content item identified by the target content item identifier; and displaying the target content item.

[0009] Optionally, the perceptual input command is a voice command; wherein the voice command is received via an audio input module and processed using a voice recognition service to convert the voice command into text; the text is compared with metadata associated with content pages to identify a match; and upon identifying a match, the method retrieves a target content item identifier corresponding to the matched content page.

[0010] Optionally, the perceptual input command is received via an air mouse enabling a first mode and a second mode; wherein the first mode allows temporary display of associated content when a selection is made without confirmation; and the second mode navigates the presentation system to a target content item upon user confirmation.

[0011] Optionally, the perceptual input command is received through a remote control device; wherein the remote control device comprises a touch control display for presenting a list of associated content pages; and an interactive interface for selecting a target content page directly on the touch control display.

[0012] Optionally, the presentation system is implemented on a laptop device; wherein the floating window is configured to display associated content pages without interrupting the presentation view on a main display; and automatically synchronize with the current presentation content.

[0013] Optionally, creating the plurality of associated groups comprises receiving, via a user interface, user input to manually create associations between content pages within the source file, wherein the user input comprises drag-and-drop actions to designate related pages as part of an associated group.

[0014] Optionally, the method further comprises receiving a perceptual input command via a voice recognition service, wherein the perceptual input command is processed to identify content-specific metadata, including page titles, keywords, or descriptors; dynamically associating identified content pages with relevant groups based on the recognized input; and enabling real-time navigation to the identified content pages without manual intervention.

[0015] Optionally, the method further comprises utilizing a laser pointer integrated with a voice input module to capture a perceptual input command; transmitting the captured voice input to a voice recognition service for processing into textual data; matching the textual data with metadata associated with the source file to identify corresponding content pages; and dynamically grouping the identified content pages into one or more associated groups for seamless navigation during the presentation.

[0016] Optionally, the method further comprises utilizing a laptop or tablet device equipped with an audio input module to capture a perceptual input command in the form of a voice input; transmitting the captured voice input to a voice recognition service hosted locally on the laptop or tablet or on an external server; processing the voice input to generate textual data and matching the textual data with metadata associated with content pages; and dynamically updating the associated groups based on the matched content to facilitate seamless navigation during the presentation.

[0017] Optionally, the method further comprises dynamically filtering perceptual input commands in a multi-speaker environment, wherein the system identifies and processes relevant commands based on a predefined voice profile or active input source; selectively disabling automatic content navigation in response to background or overlapping voice inputs to maintain presentation stability; and re-enabling content navigation and association features upon detecting a single active input source.

[0018] Optionally, the method further comprises automatically disabling content association feature in response to detecting a multi-speaker environment, to prevent unintended disruptions to the presentation; and maintaining a consistent presentation view by prioritizing stability of displayed content, even when multiple participants are speaking simultaneously.

[0019] Optionally, the method further comprises receiving sequential perceptual input commands during a structured discussion or one-on-one Q&A session; processing each perceptual input command to match corresponding associated content; dynamically updating associated groups to reflect the matched content; and generating a floating window displaying sequentially identified associated content in response to each perceptual input command, enabling smooth transitions between related content during the structured interaction.

[0020] Optionally, the method further comprises activating content association feature during a structured discussion or one-on-one Q&A session; and processing perceptual input commands sequentially, identifying associated content, and facilitating smooth transitions between slides or pages to maintain a flow of the presentation.

[0021] Optionally, the method further comprises detecting and isolating intentional voice commands from background noise during small group discussions; distinguishing between high-priority user inputs and low-volume ambient chatter; and adapting to varying audio conditions to ensure accurate recognition of the perceptual input command in informal presentation environments.

[0022] Optionally, the method further comprises filtering perceptual input commands in a small meeting scenario by excluding background noise and focusing on intentional voice commands; and enabling responsive and uninterrupted presentation interactions in informal settings.

[0023] Optionally, the respective associated group further comprises external content comprising at least one of web links, audio files, or video files.

[0024] Optionally, the method further comprises simulating keyboard or mouse input to the content presentation software, via the intelligent interaction software, to navigate to a matched content page.

[0025] Optionally, the method further comprises automatically updating the associated groups in response to changes in the source file; wherein the intelligent interaction software detects updates in the source file and synchronizes the content pages and metadata in the associated groups.

[0026] In another aspect, the present disclosure provides an apparatus, comprising a memory; and one or more processors; wherein the memory and the one or more processors are connected with each other; and the memory stores computer-executable instructions for controlling the one or more processors to initiate a presentation system configured with a content presentation software and an intelligent interaction software; parse, by the intelligent interaction software, a source file opened by the content presentation software; and generate and displaying a floating window on a user interface; wherein the floating window dynamically retrieves and presents one or more elements of content data based on the current presentation context; and the content data comprises at least one of a content page, metadata, extracted information, associated data, or an interactive element.

[0027] In another aspect, the present disclosure provides a computer-program product, comprising a non-transitory tangible computer-readable medium having computer-readable instructions thereon, the computer-readable instructions being executable by a processor to cause the processor to perform initiating a presentation system configured with a content presentation software and an intelligent interaction software; parsing, by the intelligent interaction software, a source file opened by the content presentation software; and generating and displaying a floating window on a user interface; wherein the floating window dynamically retrieves and presents one or more elements of content data based on the current presentation context; and the content data comprises at least one of a content page, metadata, extracted information, associated data, or an interactive element. BRIEF DESCRIPTION OF THE FIGURES

[0028] The following drawings are merely examples for illustrative purposes according to various disclosed embodiments and are not intended to limit the scope of the present invention.

[0029] FIG. 1 is a flow chart illustrating a process of navigating slides in a presentation using voice recognition technology in some embodiments according to the present disclosure.

[0030] FIG. 2 is a flow chart illustrating a process of navigating contents in a presentation using perceptual input command in some embodiments according to the present disclosure.

[0031] FIG. 3A is a diagram illustrating a floating window display implementation on a presentation terminal in some embodiments according to the present disclosure.

[0032] FIG. 3B is a diagram illustrating a floating window display implementation on a presentation terminal in some embodiments according to the present disclosure.

[0033] FIG. 3C is a diagram illustrating a floating window display implementation on a presentation terminal in some embodiments according to the present disclosure.

[0034] FIG. 3D is a diagram illustrating a floating window display implementation on a presentation terminal in some embodiments according to the present disclosure.

[0035] FIG. 4A depicts a user interaction pathway in a related presentation setup.

[0036] FIG. 4B depicts a user interaction pathway in some embodiments according to the present disclosure.

[0037] FIG. 5 depicts a presentation system utilizing a floating window and an air mouse to enhance navigation and interaction during presentations.

[0038] FIG. 6A depicts a presentation system.

[0039] FIG. 6B depicts a remote control device equipped with buttons for navigation and a display panel listing associated slides.

[0040] FIG. 7A depicts a presentation system where the speaker is using a laptop.

[0041] FIG. 7B depicts a related method for switching slides on a laptop during a presentation.

[0042] FIG. 8 depicts a laptop-based implementation of a floating window display during a presentation.

[0043] FIG. 9 depicts a manual method for creating and organizing associated content in some embodiments according to the present disclosure.

[0044] FIG. 10A shows a first configuration of the intelligent method for recognizing associated content through voice input.

[0045] FIG. 10B shows another configuration of the intelligent method for recognizing associated content through voice input.

[0046] FIG. 10C shows another configuration of the intelligent method for recognizing associated content through voice input.

[0047] FIG. 11A depicts a scenario involving multi-speaker discussions, where multiple participants may be speaking simultaneously.

[0048] FIG. 11B shows a structured discussion or one-on-one Q&A session.

[0049] FIG. 11C depicts a small meeting scenario, where the voice recognition service incorporates advanced filtering capabilities.

[0050] FIG. 12 depicts the communication flow within a presentation system that integrates content presentation software, intelligent interaction software, a voice recognition service, and supporting hardware components.

[0051] FIG. 13 depicts the interaction between the air mouse and the floating window in a presentation system.

[0052] FIG. 14 shows two views of the presentation system.

[0053] FIG. 15 shows the information retrieved from the active presentation window using a window retrieval tool.

[0054] FIG. 16 shows the interface for selecting presentation files.

[0055] FIG. 17 illustrates the process of configuring associated groups for a selected presentation file.

[0056] FIG. 18 depicts the interface for adding supplementary associated content.

[0057] FIG. 19 represents the finalized list of configured presentation files after completing the association process.

[0058] FIG. 20 is a flow chart illustrating a method for dynamically managing and navigating associated content in a presentation system in some embodiments according to the present disclosure.

[0059] FIG. 21 is a flow chart illustrating a method for dynamically managing and navigating associated content in a presentation system in some embodiments according to the present disclosure.DETAILED DESCRIPTION

[0060] The disclosure will now be described more specifically with reference to the following embodiments. It is to be noted that the following descriptions of some embodiments are presented herein for purpose of illustration and description only. It is not intended to be exhaustive or to be limited to the precise form disclosed.

[0061] During presentations, speakers often need to switch between PowerPoint slides to display different content or move to specific sections. However, traditional slide-switching methods require sequential navigation, which is inefficient and, in some scenarios, inconvenient. This solution leverages voice recognition technology, enabling speakers to quickly jump to a specific slide or a slide with a designated title through voice commands. This is particularly useful when there is a significant gap between the current slide and the target slide. By integrating voice recognition technology, speakers can effortlessly navigate through slides using simple verbal commands, enhancing presentation efficiency and interactivity.

[0062] Accordingly, the present disclosure provides, inter alia, a method for dynamically managing and navigating associated content in a presentation system, an apparatus, and a computer-program product that substantially obviate one or more of the problems due to limitations and disadvantages of the related art. In one aspect, the present disclosure provides a method for dynamically managing and navigating associated content in a presentation system. In some embodiments, the method includes initiating a presentation system configured with a content presentation software and an intelligent interaction software; parsing, by the intelligent interaction software, a source file opened by the content presentation software; and generating and displaying a floating window on a user interface. Optionally, the floating window dynamically retrieves and presents one or more elements of content data based on the current presentation context. Optionally, the content data comprises at least one of a content page, metadata, extracted information, associated data, or an interactive element.

[0063] FIG. 1 is a flow chart illustrating a process of navigating slides in a presentation using voice recognition technology in some embodiments according to the present disclosure. Referring to FIG. 1, the process begins with "Start, " where the system is activated and prepared to handle user commands. This serves as the entry point, ensuring all necessary components, such as voice input systems and recognition software, are operational. A "Voice input" is then provided. In one example, the "Voice input" is a spoken command that specifies the desired action, such as navigating to a particular slide by its title or number.

[0064] Once the "Voice input" is received, the process continues with "Voice recognition" . In this step, the spoken command is processed, e.g., using speech-to-text algorithms, to convert it into text. The conversion allows the spoken input to be compared and analyzed against the content of the presentation.

[0065] Next, the process evaluates whether recognition was successful at the "Recognition success or failure" step. If recognition is unsuccessful, possibly due to unclear speech or background noise, the process loops back to the "Voice input" stage, providing an opportunity for the user to try again. By doing so, the process ensures that it only proceeds when a valid input is available.

[0066] If recognition is successful, the process proceeds to "Content matching, " where the recognized text is compared with the content or metadata of the slides. This may involve searching for keywords, titles, or associated tags that correspond to the spoken command. For example, if the user says, "Navigate to the quarterly results, " this stage identifies slides containing or labeled with "quarterly results. "

[0067] Next, the process assesses the outcome at the "Match success or failure" stage. If no match is found, the process returns to the "Voice input" stage, allowing the user to refine or clarify the command. When a match is found, the process advances to "Retrieve corresponding slide number, " where the slide associated with the matched content is identified. This could involve determining the position or specific index of the target slide within the presentation.

[0068] Once the slide is identified, the process transitions to "Switch to target slide, " where navigation shifts to the identified slide. This is performed seamlessly, minimizing any disruption to the flow of the presentation.

[0069] The process then reaches "Content display, " where the selected slide is presented, e.g., to the audience, fulfilling the user’s command. Finally, the process concludes with "End, " marking the successful completion of the navigation task.

[0070] The process depicted in FIG. 1 offers flexibility in navigating slides and improves presentation interactivity. By incorporating iterative checks for "Recognition" and "Content matching" and enabling smooth transitions, the process supports a wide range of presentation scenarios, whether for small meetings or larger venues. The use of techniques such as "Voice recognition" and content analysis enhances the user experience while reducing reliance on manual navigation.

[0071] The inventors of the present disclosure discover that the method and apparatus according to the present disclosure addresses key challenges in enhancing the efficiency and usability of PowerPoint presentations by integrating voice recognition and advanced interaction mechanisms. The solution focuses on four primary technical problems: the collection and filtering of voice signals to ensure accurate recognition; processing audio signals to extract and interpret voice commands; analyzing the content of the currently displayed PowerPoint presentation to match commands with slide titles or text; and simulating keyboard and mouse operations to navigate directly to the specified slide.

[0072] The present disclosure provides several significant technical benefits. First, it improves efficiency by enabling direct navigation to target slides through voice commands, eliminating the need to flip through slides sequentially. This allows presenters to deliver their content more smoothly and effectively. Second, the system is particularly suited for large venues, where presenters may be physically distant from the computer controlling the presentation. By using voice commands, the presenter gains greater freedom of movement, enhancing their ability to engage with the audience. Third, the present disclosure prioritizes user-friendliness by simplifying the operation process, reducing the technical challenges for the presenter. When combined with a laser pointer equipped with voice recognition capabilities, the solution transforms PowerPoint presentations into a smarter and more convenient experience.

[0073] FIG. 2 is a flow chart illustrating a process of navigating contents in a presentation using perceptual input command in some embodiments according to the present disclosure. Referring to FIG. 2, the process begins with "Start, " where the system is prepared to accept user input. This serves as the entry point, ensuring all necessary components, such as voice input systems and recognition software, are operational. A "Perceptual input command" is then provided.

[0074] As used herein, the term "Perceptual input" refers to a method of user interaction that is based on natural human actions or behaviors, detected and interpreted by sensory-driven technologies. It leverages intuitive forms of communication, such as speaking, gesturing, or gazing, allowing users to express commands or intentions without the need for traditional physical devices. This type of input aligns with natural human behavior, making it inherently user-friendly. It can involve various sensory modalities, including auditory input, such as voice commands or sounds, and visual input, such as gestures or gaze tracking. Perceptual input does not rely on physical devices like a mouse or keyboard but instead uses advanced recognition technologies to interpret the user’s actions. It often incorporates contextual awareness, enabling systems to adapt to environmental factors and user intent. Perceptual input is particularly valuable for enhancing accessibility and usability. For instance, it allows for hands-free control through speech or gaze, making it beneficial for users with physical limitations or in situations where traditional interaction methods are impractical. It finds application in diverse areas, such as virtual and augmented reality environments, smart devices, and accessibility solutions, where natural and immersive interactions are prioritized. By facilitating a seamless and intuitive interaction paradigm, perceptual input transforms the way users engage with technology.

[0075] Following the input, the process proceeds to "Perceptual input recognition, " where the input is analyzed and interpreted. This recognition step can involve technologies such as voice recognition for spoken commands or gesture tracking for movement-based inputs. The interpretation ensures that the input is converted into actionable data for further processing.

[0076] The process then evaluates the recognition outcome at "Recognition success or failure. " If the recognition fails, due to unclear input or unrecognized actions, the process loops back to "Perceptual input command, " prompting the user to retry. If recognition succeeds, the process advances to "Content matching, " where the interpreted input is compared against available content or metadata.

[0077] At "Content matching, " the process attempts to align the user’s command with relevant content. For example, a voice command such as “Show the summary” or a gesture pointing to a specific area may be matched with content metadata, such as titles, tags, or descriptors. The next decision point, "Match success or failure, " determines whether a relevant match is found. If no match exists, the process returns to "Perceptual input command" for further refinement. When a match is identified, the process continues.

[0078] The identified content is then retrieved at "Retrieve corresponding target content item identifier, " where the specific content item associated with the user’s input is located. This could represent a variety of content types, such as slides, document pages, video chapters, or app sections. As used herein, the term "target content item identifier" refers to a unique reference or indicator used to locate and distinguish a specific content item within a system or dataset. It serves as the key that enables the retrieval, navigation, or interaction with the desired content based on user input or system processes. A target content item identifier may take various forms depending on the context and the nature of the content being accessed. For example, it could be a slide number in a presentation, a page number in a document, a timestamp in a video, a section header in a report, or even a unique identifier for a file in a directory. The identifier ensures precision in targeting the correct content item, allowing the system to execute commands or display the relevant information efficiently. This identifier plays an important role in systems that involve dynamic or large-scale content navigation, where direct user inputs such as voice commands, gestures, or other perceptual inputs are translated into actionable requests. By linking user inputs to a specific identifier, the system ensures seamless transitions and accurate responses to user commands. This concept is particularly relevant in scenarios where content is hierarchically organized or involves complex structures, such as multi-level documents, multimedia libraries, or interactive applications.

[0079] The process progresses to "Switch to target content item, " where the navigation transitions to the identified content. The switch is performed seamlessly, ensuring that the user's intent is fulfilled without interrupting the flow of interaction. As used herein, the term "target content item" refers to a specific piece of content or data that a system identifies, retrieves, or navigates to in response to a user command or system action. It represents the end-point or goal of a navigation or interaction process, based on the user's intent or request. A target content item can take various forms depending on the application or context. For example, in a presentation, it could be a particular slide. In a document, it might be a specific page, paragraph, or section. For multimedia content, it could represent a video clip, an audio chapter, or a timestamp within a larger file. In software applications, it might correspond to a feature, menu, or interface element. The term is broadly applicable to any identifiable and actionable unit within a system, whether it is visual, textual, auditory, or interactive. This concept is important in systems that involve content navigation, where user inputs, such as voice commands, gestures, or typed instructions, are mapped to a specific content item. By focusing on the target content item, the system ensures the user's intent is fulfilled, enabling efficient, precise, and context-aware interactions.

[0080] Finally, the matched content is presented at "Content display, " where the relevant content is displayed or otherwise made accessible to the user. This display could involve visual rendering, auditory output, or other forms of feedback depending on the system’s capabilities. The process concludes at "End, " signifying the completion of the interaction.

[0081] FIG. 3A is a diagram illustrating a floating window display implementation on a presentation terminal in some embodiments according to the present disclosure. FIG. 3A shows how related content pages can be dynamically displayed and navigated during a presentation. Referring to FIG. 3A, a current page being presented is labeled "Research Background. " During the presentation, if related content from other pages (e.g., page 5 "P5" , page 6 "P6" , and page 10 "P10" ) needs to be referenced, these pages are displayed in a floating window FW. As shown in FIG. 3A, the floating window FW can appear at the top of the screen. FIG. 3B is a diagram illustrating a floating window display implementation on a presentation terminal in some embodiments according to the present disclosure. As shown in FIG. 3B, the floating window FW can appear at the bottom of the screen. FIG. 3C is a diagram illustrating a floating window display implementation on a presentation terminal in some embodiments according to the present disclosure. As shown in FIG. 3C, the floating window FW can appear at the left of the screen. FIG. 3D is a diagram illustrating a floating window display implementation on a presentation terminal in some embodiments according to the present disclosure. As shown in FIG. 3D, the floating window FW can appear at the right of the screen.

[0082] As used herein, the term "floating window" refers to a dynamic, overlaying user interface element that appears on the main display or screen content. It is designed to present supplementary information or interactive options without disrupting or replacing the primary content. A floating window can appear in various positions (e.g., top, bottom, left, or right) relative to the main content. It "floats" independently, allowing flexibility in placement. Typically, the floating window is used to display related or contextual content, such as previews, additional controls, or navigation aids. It allows user interaction, such as selecting options, navigating through associated content, or performing tasks while keeping the main content visible. In one example, the floating window can appear in response to user actions and may automatically disappear after a set duration or when explicitly closed.

[0083] The concept of non-disruptive display refers to the design of the floating window to present supplementary information or interactive options without interfering with the primary content or the ongoing system functionalities of the presentation. This unique feature ensures that the floating window operates independently from the main presentation controls, creating a seamless and uninterrupted user experience. For example, during the playback of a current slide in a presentation, selecting or interacting with the floating window using a remote control does not interrupt or pause the slide playback. Key functions such as rehearsal timing or ongoing animations on the slide remain unaffected by the operations performed within the floating window. This ensures that the primary content and its associated functionalities continue without disruption, maintaining the flow and integrity of the presentation. The independent system control mechanism underlying the floating window is central to the present disclosure. It decouples the floating window's interactions from the controls of the main presentation system. This architecture not only enhances user flexibility but also avoids potential conflicts between the floating window operations and the primary presentation processes. For instance, even as animations, transitions, or embedded media are actively playing within a slide, the user can interact with the floating window to access associated content, navigate supplementary options, or make selections without halting or affecting the main content. This feature is particularly valuable in scenarios where maintaining the continuity of the primary presentation is critical. It provides presenters with the ability to dynamically access additional information or options without sacrificing the audience's focus or the presentation's rhythm. By preserving the independence of the primary and supplementary systems, the design delivers a smooth and professional presentation experience.

[0084] In some embodiments, a laser pointer can be used to directly jump to the relevant page for elaboration by pointing the laser pointer to a page in the floating window FW. If no selection is made, the floating window FW automatically disappears after a set duration (with configurable timing) . Alternatively, the laser pointer can also be used to instantly close the floating window FW.

[0085] The laser pointer provides the presenter with control over the appearance and timing of the floating window FW. In one example, during sequential presentations, the floating window FW may not be necessary, as content association isn't required. In another example, during discussions, where frequent switching between multiple related pages might occur, the laser pointer's activation button can be used to enable the content association function, making navigation between pages efficient and seamless.

[0086] FIG. 4A depicts a user interaction pathway in a related presentation setup. Referring to FIG. 4A, in the user interaction pathway in the related presentation setup, navigating to a target page involves multiple interruptive steps. The process begins in "Presentation Mode, " with the user delivering their content in the slideshow format. If the user needs to navigate to a different page, they must first "Exit Presentation Mode, " disrupting the flow of the presentation. Once outside the presentation mode, the user engages in "Page turning, " flipping through slides one by one to locate the desired content. Depending on the distance between the current slide and the target slide, this may involve multiple iterations of "Page turning. " Once the correct page is identified, the user selects "Switch to Target Page" to indicate the intended destination. To resume the presentation, the user must then "Enter Presentation Mode" again, reinitiating the slideshow format. Finally, the presentation continues in "Presentation. " This pathway is cumbersome and inefficient, particularly in scenarios where precise, quick navigation is critical, such as large-scale presentations or discussions involving non-sequential slide references. The repetitive steps of exiting, flipping through slides, and restarting the presentation mode not only consume time but also disrupt the presenter's focus and the audience's experience.

[0087] FIG. 4B depicts a user interaction pathway in some embodiments according to the present disclosure. Referring to FIG. 4B, the user interaction pathway in some embodiments leverages the "Floating Window-Linked Content" feature to streamline navigation. The process begins in "Presentation Mode, " just as in the traditional setup. However, unlike FIG. 4A, the user does not need to "Exit Presentation Mode" to navigate. Instead, the "Floating Window-Linked Content" is activated within the presentation mode itself, displaying thumbnails or previews of related slides alongside their page numbers. This floating window enables the user to quickly identify the target content without disrupting the presentation flow. The user can directly "Switch to Target Page" by interacting with the floating window, bypassing the need for sequential "Page turning. " Once the target slide is selected, the presentation continues seamlessly in "Presentation. " This pathway eliminates unnecessary steps, significantly reducing the time and effort required for navigation. Moreover, by allowing the user to stay within the presentation mode, it ensures a continuous and uninterrupted flow, enhancing the presenter's focus and the audience's engagement. The use of the floating window is particularly beneficial in scenarios where the presenter is distant from the control equipment, such as large venues or remote presentations, highlighting the convenience and efficiency of this solution.

[0088] The comparison between FIG. 4A and FIG. 4B demonstrates the clear advantage of the proposed solution. By replacing the traditional "Exit Presentation Mode" and "Page turning" steps with the integrated "Floating Window-Linked Content, " the proposed method simplifies the interaction process, improves efficiency, and provides a much smoother and more professional presentation experience.

[0089] FIG. 5 depicts a presentation system utilizing a floating window and an air mouse to enhance navigation and interaction during presentations. Referring to FIG. 5, the main screen displays the current slide titled "Research Background, " while the floating window below provides thumbnails of associated slides labeled "P5, " "P6, " and "P10. " Referring to FIG. 5, a laser pointer, equipped with air mouse functionality, allows presenters to select content on the screen and switch between slides efficiently. Two modes of switching are available. The first mode is a preview mode, which is used when the current slide references associated content, and the presenter only wants a quick glance. In the preview mode, an air mouse cursor AM hovers over an associated content page without pressing the confirmation button. As the air mouse cursor AM moves to a specific associated content page, the content temporarily fills the entire screen in a preview format. Once the air mouse cursor AM moves away, the screen reverts to the current presentation slide. If the air mouse cursor AM moves to another associated content page, the content of that page fills the screen in a similar preview format.

[0090] The second mode is a confirmation mode, which is used when the presenter needs to elaborate on associated content in detail. In this mode, the air mouse cursor AM hovers over a target associated content page, and the confirmation button is pressed. This action switches the current slide to the selected associated page, allowing the presenter to provide further explanation.

[0091] As used herein, the term "air mouse cursor" refers to an on-screen pointer or indicator controlled by an air mouse device. It moves and interacts with elements on the screen based on the user's hand movements, which are detected and translated into cursor motions by the air mouse's motion sensors, such as gyroscopes and accelerometers.

[0092] As used herein, the term "air mouse device" refers to a motion-sensitive, handheld device that enables wireless control and interaction with digital systems, including computers and presentation tools. The air mouse device can interpret motion in three-dimensional space, allowing users to navigate or issue commands without requiring a flat surface for operation. In one example, the air mouse device is a laser pointer equipped with touch-sensitive functionality, enabling users to select and interact with content directly via gestures or touch commands on the device. For example, an air mouse device may integrate gyroscopic sensors or accelerometers to detect motion, as well as touch-sensitive panels or buttons for content selection. When equipped with a laser pointer, it provides the dual functionality of precise pointing and interactive control, making it particularly effective for use in presentations or other scenarios requiring seamless navigation and interaction with digital content.

[0093] As used herein, the term "associated content page" refers to a specific page or slide within a presentation or document that is contextually related to the currently displayed content. It serves as supplementary or reference material, providing additional information, supporting details, or elaborations that enhance the understanding or explanation of the primary content. The associated content page is linked to the current page based on contextual relevance, such as subject matter, keywords, or thematic connections. In one example, the associated content page provides background, further explanation, or detailed data that complements the main content. In another example, the associated content page provides deeper insights, answer questions, or illustrate a point.

[0094] The principle of the air mouse is based on gyroscopes, accelerometers, and wireless communication technology. The gyroscope, a core sensor in the air mouse, detects angular velocity and directional changes in three-dimensional space, capturing the user’s movements in the air and converting them into electrical signals. The accelerometer complements the gyroscope by measuring the linear acceleration of motion, enabling the detection of the speed, direction, and distance of the user’s movements.

[0095] The signals collected by the gyroscope and accelerometer are processed by an internal microprocessor, which converts them into control signals for the cursor on the screen. These control signals are then transmitted wirelessly, using technologies such as Bluetooth or 2.4GHz communication, ensuring stable signal transmission and flexible usability.

[0096] When the user waves the air mouse in the air, the movements are translated into cursor motions on the screen. By altering the movement direction and speed, the user can control the cursor’s behavior. Additionally, the air mouse typically includes input methods such as buttons or touchpads, enabling the user to select or execute actions on the screen.

[0097] FIG. 6A depicts a presentation system. FIG. 6B depicts a remote control device equipped with buttons for navigation and a display panel listing associated slides. Referring to FIG. 6A and FIG. 6B, in some embodiments, the presentation setup integrates a remote control device (e.g., a laser pointer with a touch display) for enhanced navigation during presentations. FIG. 6A depicts the main presentation system displaying the current slide titled "Research Background. " This slide introduces the context of global informatization and the evolution of meeting methods, emphasizing the need for efficient, modern solutions. The main screen serves as the primary visual interface for the audience. FIG. 6B depicts the remote control device (e.g., the laser pointer with a touch display) , which is equipped with a touch-enabled display panel and navigation buttons. During the presentation, when the content refers to other related slides or pages, the associated content pages are displayed on the laser pointer's touch screen. The presenter can use the touch interface on the laser pointer to select a target associated content page for navigation. Once selected, the presentation seamlessly transitions to the target associated content page, ensuring a smooth and uninterrupted flow.

[0098] The inventors of the present disclosure discover that this setup enhances the presenter’s ability to dynamically reference and navigate between related slides without leaving the presentation mode or requiring proximity to the main screen, improving both efficiency and usability.

[0099] FIG. 7A depicts a presentation system where the speaker is using a laptop. Referring to FIG. 7A, the current page being displayed is titled "Research Background. " The slide outlines the context of global informatization and its impact on traditional meeting methods, highlighting the shift towards efficient and modern solutions. The figure demonstrates how the floating window, positioned alongside the current slide, enables access to associated content pages without obscuring the primary content.

[0100] FIG. 7B depicts a related method for switching slides on a laptop during a presentation. In this approach, the speaker must open the slide list, which overlays the current slide and disrupts the continuity of the presentation. This method not only obstructs the content being presented but also interrupts the speaker's flow, making the transition to associated slides less efficient and less seamless compared to the proposed floating window solution.

[0101] FIG. 8 depicts a laptop-based implementation of a floating window display during a presentation. Referring to FIG. 8, a current page being presented is labeled "Research Background. " During the presentation, if related content from other pages (e.g., page 5 "P5" , page 6 "P6" , and page 10 "P10" ) needs to be referenced, these pages are displayed in a floating window FW. As shown in FIG. 8, the floating window FW can appear at the top of the screen. A floating window can appear in various positions (e.g., top, bottom, left, or right) relative to the main content.

[0102] In some embodiments, a mouse can be used to directly jump to the relevant page for elaboration by moving a mouse cursor to a page in the floating window FW. If no selection is made, the floating window FW automatically disappears after a set duration (with configurable timing) . Alternatively, the mouse can also be used to instantly close the floating window FW.

[0103] The mouse provides the presenter with control over the appearance and timing of the floating window FW. In one example, during sequential presentations, the floating window FW may not be necessary, as content association isn't required. In another example, during discussions, where frequent switching between multiple related pages might occur, the mouse's activation button can be used to enable the content association function, making navigation between pages efficient and seamless.

[0104] Two modes of switching are available. The first mode is a preview mode, which is used when the current slide references associated content, and the presenter only wants a quick glance. In the preview mode, a mouse cursor hovers over an associated content page without pressing the confirmation button. As the mouse cursor moves to a specific associated content page, the content temporarily fills the entire screen in a preview format. Once the mouse cursor moves away, the screen reverts to the current presentation slide. If the mouse cursor moves to another associated content page, the content of that page fills the screen in a similar preview format.

[0105] The second mode is a confirmation mode, which is used when the presenter needs to elaborate on associated content in detail. In this mode, the mouse cursor hovers over a target associated content page, and the confirmation button is pressed. This action switches the current slide to the selected associated page, allowing the presenter to provide further explanation.

[0106] The presentation setup depicted in FIG. 8 allows the presenter to dynamically reference and navigate between associated pages without exiting the presentation mode, maintaining continuity and audience engagement. By eliminating the need to interrupt the presentation flow or overlay content, the system ensures a seamless and user-friendly experience. This laptop-based implementation expands the versatility of the floating window design, offering similar functionality across different devices while enhancing interactivity and control.

[0107] FIG. 9 depicts a manual method for creating and organizing associated content in some embodiments according to the present disclosure. In this approach, users manually designate related pages or resources to form an "associated group. " The system interface displays all available content pages in a grid layout. Users can drag and drop related pages into the same group, creating a contextual linkage for seamless navigation during presentations. For example, pages P1, P7, and P12 can be grouped into Associated Group 1, marking them as closely related. Pages P2, P8, P17, and P18 can be grouped into Associated Group 2. Pages P10 and P14 can be grouped into Associated Group 3. The figure also allows for additional flexibility, as users can associate external files, documents, or web links with the presentation content, further enriching the scope of related material. This manual association provides the presenter with precise control over the flow of the presentation, ensuring that all necessary references are easily accessible. By predefining these relationships, the manual method is particularly useful for presentations where specific connections between content must be clearly established in advance.

[0108] FIG. 10A shows a first configuration of the intelligent method for recognizing associated content through voice input. In this setup, the presenter delivers voice commands directly to the presentation system, which receives the audio and transmits it to a voice recognition service (represented by the cloud) . The service processes the audio input, converting it into text. The resulting text is then matched against the titles or content of the presentation slides. When a match is found, the corresponding page is dynamically identified as associated content and becomes available for navigation. This configuration eliminates the need for manual interaction, allowing for real-time, hands-free navigation during the presentation. The flexibility of this method makes it particularly effective for dynamic and unscripted presentations where the presenter may need to reference content spontaneously. As used herein, the voice recognition service may refer to any server or cloud-based service capable of processing audio input to convert speech into text. It often includes features such as noise filtering and real-time processing for improved accuracy.

[0109] FIG. 10B shows another configuration of the intelligent method for recognizing associated content through voice input. In this setup, a laser pointer equipped with a voice receiver is used to deliver voice commands. The pointer captures the audio input and transmits it to either the presentation system or directly to the voice recognition service. The service processes the audio, converting it into text, and matches the text with the content of the presentation. Once a match is identified, the system dynamically links the associated page for navigation. This setup provides the presenter with greater mobility, as they can interact with the presentation from a distance while maintaining full control over the content. The integration of voice recognition with a mobile device like a laser pointer ensures a seamless and user-friendly experience, particularly in large venues or dynamic speaking environments.

[0110] FIG. 10C shows another configuration of the intelligent method for recognizing associated content through voice input. In this setup, the presenter speaks into a laptop or tablet, which acts as the intermediary for voice input, captures the audio, and transmits it to the voice recognition service. The processed text is then matched against the presentation content to dynamically identify the associated page. This configuration is especially versatile, leveraging common devices already available in most presentation setups. By integrating voice recognition with the laptop or tablet, this setup provides presenters with another flexible option for real-time content association.

[0111] FIG. 11A depicts a scenario involving multi-speaker discussions, where multiple participants may be speaking simultaneously. To avoid unnecessary disruptions, the system automatically disables the content association feature in such scenarios. This prevents the presentation screen from switching back and forth unpredictably, ensuring the stability of the displayed content. The system prioritizes maintaining a clear and consistent presentation view, even in dynamic group settings.

[0112] FIG. 11B shows a structured discussion or one-on-one Q&A session. In this scenario, the content association feature remains active, processing voice commands in a sequential order. The system identifies and matches the commands with the appropriate associated content, ensuring smooth transitions between slides. This configuration is well-suited for formal discussions or presentations that follow a linear structure, allowing for efficient navigation between related pages while maintaining the flow of the presentation.

[0113] FIG. 11C depicts a small meeting scenario, where the voice recognition service incorporates advanced filtering capabilities. The system intelligently filters out background noise, such as low-volume conversations or ambient chatter, to focus solely on clear and intentional voice commands. This ensures that the presentation remains responsive and uninterrupted, even in more informal settings. The filtering capabilities enhance the reliability of the system, making it adaptable to different environments and use cases.

[0114] The inventors of the present disclosure discover that the present disclosure provides a comprehensive solution for managing associated content during presentations. The manual method provides precise control through pre-defined associations, while the intelligent voice recognition method offers flexibility and real-time navigation. Together, they cater to a wide range of presentation scenarios, from structured formal events to dynamic and collaborative discussions, ensuring seamless interaction with associated content across various contexts.

[0115] FIG. 12 depicts the communication flow within a presentation system that integrates content presentation software, intelligent interaction software, a voice recognition service, and supporting hardware components. FIG. 12 highlights the seamless interaction between the system’s components, ensuring dynamic and efficient content navigation during presentations.

[0116] The content presentation software represents the primary software responsible for displaying presentation materials. This could be any standard presentation tool, such as PowerPoint, WPS, or equivalent platforms. The software accesses files stored within the Content Directory for Presentation, a designated directory on the disk of the presentation system. This directory can store a range of materials intended for the presentation, including PowerPoint slides, Word documents, PDF files, and media content like videos or audio files. When the content presentation software opens a file from this directory, this interaction is represented as "Communication 1. "

[0117] Once the presentation begins, the intelligent interaction software is initiated as a background process on the presentation system. This software operates independently, running in tandem with the content presentation software to enhance interactivity. Its first task is to monitor and identify the file being displayed by the content presentation software. Through "Communication 2, " the intelligent interaction software retrieves the file path and content details, parsing the file structure and analyzing its content. The extracted data is stored in the software's memory for future use in matching user commands with the content during the presentation.

[0118] The audio input module serves as the interface for capturing voice commands from the presenter. This module collects the audio input and sends it to the intelligent interaction software via "Communication 3. " The intelligent interaction software then transmits the audio data to the voice recognition service through "Communication 4. " The voice recognition service, which can be implemented as either a private server or a public cloud service, processes the audio input, filtering out background noise and converting the speech into text. Once the text is generated, it is sent back to the intelligent interaction software.

[0119] Upon receiving the converted text, the intelligent interaction software matches the text with the content stored in its memory. This matching process may involve comparing the recognized text with slide titles or specific content within the presentation. When a match is found, the software dynamically generates a floating window on the presentation screen. The floating window displays the relevant content, allowing the presenter to navigate seamlessly to associated pages or sections. If the presenter selects a page from the floating window, the intelligent interaction software completes the transition by simulating mouse and keyboard inputs. This action is represented as "Communication 5" between the two processes.

[0120] The simulation of mouse and keyboard operations provides two significant advantages. First, it ensures compatibility across various presentation software platforms by avoiding direct modification or intrusion into the software itself. Second, this method enhances the flexibility and universality of the system, making it adaptable to different environments and tools without requiring specialized integration.

[0121] The overall flow depicted in FIG. 12 showcases how the system achieves dynamic, voice-controlled interactions in a presentation setting. The combination of content parsing, voice recognition, and simulated input enables presenters to navigate their materials efficiently and interactively, enhancing both the flexibility and the user experience. This design ensures that the system remains highly functional, regardless of the specific presentation software being utilized, while supporting a wide range of content formats and interaction scenarios.

[0122] The technical implementation of the system, as illustrated in FIG. 12, involves several interconnected processes designed to enable seamless interaction between presentation software, intelligent interaction software, and a voice recognition service. These processes, encompassing the retrieval and parsing of presentation files, audio capture and transmission, speech-to-text conversion, and dynamic content navigation, work together to create an adaptive and user-friendly presentation environment.

[0123] When the content presentation software begins running, its window appears at the top layer of the display. Automation technologies, such as UIAutomation in Windows or UiAutomator in Android, are employed to interact with the user interface elements of the topmost window. These technologies enable the system to retrieve the file path of the presentation being displayed. UIAutomation, widely used in Windows, provides an application with the ability to identify, access, and manipulate the user interface elements of another application. Similarly, UiAutomator offers comparable functionality for Android systems, ensuring compatibility across different operating environments. Once the file path is identified, the system utilizes the Apache POI library, an open-source Java library, to parse the file. Apache POI provides comprehensive APIs for handling Microsoft Office formats, including PowerPoint presentations. The parsed file structure and content are stored in memory by the intelligent interaction software for future use during the presentation.

[0124] UIAutomation is a Windows-based automation technology that allows applications to identify, access, and manipulate user interface (UI) elements of other applications. It is often used for automating tasks or integrating external software functionalities. UiAutomator is an Android-based technology similar to UIAutomation, which enables applications to interact with and automate UI elements within the Android operating system. Apache POI is an open-source Java library designed to handle Microsoft Office file formats, including Word, Excel, and PowerPoint. It provides APIs to read, write, and manipulate these file types programmatically.

[0125] The audio input module plays a crucial role in the system by capturing the presenter's voice. This module, such as a microphone, interfaces with the intelligent interaction software through operating system APIs. As the presenter speaks, the microphone records the audio data. While the audio capture process is standard and not an inventive feature of this system, it forms a foundational step in enabling voice-driven interaction. The recorded audio is then processed to convert it into suitable formats, such as WAV or MP3, to ensure compatibility with network transmission protocols and the requirements of the voice recognition service. This preprocessing ensures that the audio data is optimized for efficient transmission and accurate recognition. As used herein, the audio input module may refer to any hardware or software component (e.g., microphone) , or a combination thereof, used to capture audio input, which is processed for further use, such as in voice recognition systems.

[0126] To send the processed audio data to the voice recognition service, the system establishes a network connection using protocols such as HTTP requests, WebSocket, or other real-time communication mechanisms. The audio data is packaged for transmission using methods like Base64 encoding or binary streaming. Streaming transmission is employed to allow audio data to be sent to the voice recognition service as it is being recorded, ensuring real-time performance and minimizing latency in the system's responses. Streaming transmission may refer to any method of sending data in a continuous flow as it is being recorded or generated. In the context of audio data, this allows for real-time transmission and processing.

[0127] The voice recognition service processes the incoming audio data to convert the presenter's speech into text. Upon receiving the audio, the service applies additional preprocessing steps, such as noise reduction and audio enhancement, to improve the quality of the input. Once the audio is refined, it is processed using speech-to-text algorithms, converting the audio signals into textual data. Although the speech-to-text technology is not the focus of this invention, it serves as a vital component in enabling dynamic content association within the presentation. Speech-to-text conversion may refer to any process of transforming spoken language into written text using algorithms. This is a core function of voice recognition systems.

[0128] The recognized text is then returned to the intelligent interaction software in a structured format, such as JSON. This text forms the basis for matching the presenter’s commands with the stored content parsed from the presentation file. The intelligent interaction software compares the text with the data in its memory, identifying matches based on slide titles or detailed content. When a match is identified, the system dynamically generates a floating window that displays the relevant associated content. This floating window acts as an interactive layer, allowing the presenter to visualize and navigate the associated content without disrupting the flow of the presentation.

[0129] If the presenter selects a specific page from the floating window, the intelligent interaction software initiates an automated navigation process. Using UIAutomation or UiAutomator, the system simulates mouse and keyboard inputs to switch to the selected page. This method ensures compatibility with various presentation software platforms, as it does not require direct modification or integration with the software itself. By simulating user interactions, the system remains highly flexible and adaptable to different environments.

[0130] This entire communication flow showcases the integration of automation technologies, open-source tools, and intelligent interaction software to create a dynamic, voice-controlled presentation system. By combining manual file parsing with real-time voice recognition and automated navigation, the system enhances the efficiency and flexibility of the presentation process, enabling seamless interaction between the presenter and the content being displayed. This design ensures a consistent and user-friendly experience across diverse scenarios and software platforms.

[0131] The core of this implementation involves simulating keyboard and mouse actions to enable smooth navigation during a presentation. For example, when a presentation is running in slideshow mode, transitioning from the current slide to a target slide can be achieved using the shortcut "target page number + Enter key. " This functionality ensures efficiency and compatibility with standard presentation software.

[0132] FIG. 13 depicts the interaction between the air mouse (AM) and the floating window (FW) in a presentation system. Referring to FIG. 13, when the user selects a specific slide (e.g., P6) using the air mouse AM, the intelligent interaction software (Process 2) simulates keyboard actions, such as entering the page number and pressing Enter, to navigate to the target slide in the content presentation software (Process 1) . The process is achieved using UIAutomation to identify and control the active presentation window.

[0133] FIG. 14 shows two views of the presentation system. The left panel displays the interface of the intelligent interaction software, including the current slide, speaker notes, and a preview of associated content. The right panel represents the primary presentation display as seen by the audience, maintaining a professional and uninterrupted slideshow experience.

[0134] This method leverages the UIAutomation technology to interact with the top-layer window of the presentation software. By simulating keyboard inputs rather than modifying the underlying software, the solution remains highly flexible and compatible with various presentation tools. It ensures smooth transitions between slides, enhances user interaction, and maintains the integrity of the presentation software, making it a practical and universal approach to dynamic content navigation.

[0135] FIG. 15 shows the information retrieved from the active presentation window using a window retrieval tool. By employing a window retrieval tool, such as the FindWindow or EnumWindows functions in the Windows API, it is possible to obtain information about the currently displayed windows. This includes details like window titles, class names, and window handles (HWND) . A window handle serves as a unique identifier within the operating system, enabling identification and access to specific windows.

[0136] Once the target window handle is retrieved, Process Two utilizes the UI Automation library to interact with the designated window further. UI Automation, provided by Microsoft, is an API that allows developers to write code to access and manipulate the user interface of Windows applications. This API facilitates locating window controls, reading their properties, and simulating user inputs, such as mouse clicks and keyboard presses.

[0137] For implementation, Process Two initially uses the AutomationElement. FromHandle method of UI Automation to convert the obtained window handle into an AutomationElement object. With this object, Process Two can invoke various UI Automation methods to interact with the target window.

[0138] For example, Process Two may apply the InvokePattern to simulate button clicks within the window or the ValuePattern to modify text box contents. Additionally, it can use the SetFocus method to direct input focus to the target window, ensuring that subsequent mouse and keyboard actions are correctly directed.

[0139] By combining the window retrieval tool with the UI Automation library, Process Two achieves precise control and automation over specific windows. This capability encompasses tasks such as retrieving window information, simulating user inputs, and manipulating window controls effectively.

[0140] FIG. 16 shows the interface for selecting presentation files. This figure lists the available files that the user can import into the presentation software. The options include various PowerPoint files, such as "Morning Session Presentation. ppt, " "Industrial Equipment IoT Management Platform. ppt, " and others, ready for configuration.

[0141] FIG. 17 illustrates the process of configuring associated groups for a selected presentation file, such as "Industrial Equipment IoT Management Platform. ppt. " The interface allows users to drag related content pages (P1 to P12) into specific "Associated groups. " Additional settings for the floating window are displayed on the right, enabling users to choose its position (top, bottom, left, or right) and whether the source file is associated or not. Users can also set the floating window display time and add other associated content.

[0142] FIG. 18 depicts the interface for adding supplementary associated content, including webpages, files, audio, and videos. Each associated item can be added with its respective file path or URL. The interface provides options to confirm or cancel the association.

[0143] FIG. 19 represents the finalized list of configured presentation files after completing the association process. This list includes the names of the configured files, such as "Industrial Equipment IoT Management Platform. ppt" and others, indicating they are ready for use with the intelligent interaction software.

[0144] FIG. 20 is a flow chart illustrating a method for dynamically managing and navigating associated content in a presentation system in some embodiments according to the present disclosure. Referring to FIG. 20, the method in some embodiments includes initiating a presentation system configured with a content presentation software and an intelligent interaction software; parsing, by the intelligent interaction software, a source file opened by the content presentation software; and generating and displaying a floating window on a user interface. Optionally, the floating window dynamically retrieves and presents one or more elements of content data based on the current presentation context. Optionally, the content data comprises at least one of a content page, metadata, extracted information, associated data, or an interactive element.

[0145] As used herein, the term “extracted information” refers to data or content derived from the analysis or parsing of a source file. It may include summaries, keywords, descriptors, or any contextual or structured data that is programmatically identified as being relevant for navigation, presentation, or user interaction. For instance, in a presentation file, extracted information could include the main points of a slide, highlighted text, or annotations.

[0146] As used herein, the term “associated data” refers to supplementary or metadata linked to content pages, extracted information within the system, or external content comprising at least one of web links, audio files, or video files. It may include attributes such as file paths, timestamps, tags, slide titles, speaker notes, or any other contextual information that aids in content identification, organization, or navigation. Associated data serves as the underlying reference that connects user commands or system actions to specific content items.

[0147] As used herein, the term “interactive element” refers to any user interface component or functionality that facilitates user engagement or interaction with the system. Examples of interactive elements include buttons, hyperlinks, selectable icons, embedded media controls, or other actionable elements displayed within the floating window. These elements allow users to navigate, manipulate, or access content dynamically within the presentation system.

[0148] In some embodiments, the method further includes creating a plurality of associated groups, wherein a respective associated group of the plurality of associated groups comprises one or more content pages from the source file. Optionally, the floating window dynamically retrieves and presents content pages from one or more associated groups based on the current presentation context.

[0149] In some embodiments, the parsing extracts content structure and metadata to identify content pages and associated data.

[0150] FIG. 21 is a flow chart illustrating a method for dynamically managing and navigating associated content in a presentation system in some embodiments according to the present disclosure. Referring to FIG. 21, the method in some embodiments further includes detecting a perceptual input command, and recognizing the perceptual input command. In some embodiments, the method further includes matching a recognized input from recognizing the perceptual input command with contents in a content page; and upon determination that a match is found, retrieving a target content item identifier corresponding to a matched content. In some embodiments, the method further includes switching to a target content item identified by the target content item identifier; and displaying the target content item.

[0151] In some embodiments, referring to FIG. 2, FIG. 10A, and FIG. 12, the perceptual input command is a voice command. In some embodiments, the voice command is received via an audio input module and processed using a voice recognition service to convert the voice command into text; the text is compared with metadata associated with content pages to identify a match; and upon identifying a match, the method retrieves a target content item identifier corresponding to the matched content page.

[0152] In some embodiments, referring to FIG. 11A, FIG. 11B, and FIG. 12, the perceptual input command is received via an air mouse enabling a first mode and a second mode. In some embodiments, the first mode allows temporary display of associated content when a selection is made without confirmation; and the second mode navigates the presentation system to a target content item upon user confirmation.

[0153] In some embodiments, referring to FIG. 6A, FIG. 6B, FIG. 10B, and FIG. 11C, the perceptual input command is received through a remote control device. Optionally, the remote control device includes a touch control display for presenting a list of associated content pages; and an interactive interface for selecting a target content page directly on the touch control display.

[0154] In some embodiments, referring to FIG. 9, and FIG. 10C, the presentation system is implemented on a laptop device. Optionally, the floating window is configured to display associated content pages without interrupting the presentation view on a main display; and automatically synchronize with the current presentation content.

[0155] In some embodiments, referring to FIG. 9, and FIG. 17, creating the plurality of associated groups comprises receiving, via a user interface, user input to manually create associations between content pages within the source file, wherein the user input comprises drag-and-drop actions to designate related pages as part of an associated group.

[0156] In some embodiments, referring to FIG. 2, and FIG. 12, the method further includes receiving a perceptual input command via a voice recognition service, wherein the perceptual input command is processed to identify content-specific metadata, including page titles, keywords, or descriptors; dynamically associating identified content pages with relevant groups based on the recognized input; and enabling real-time navigation to the identified content pages without manual intervention.

[0157] In some embodiments, referring to FIG. 10A, and FIG. 3C, the method further includes utilizing a laser pointer integrated with a voice input module to capture a perceptual input command; transmitting the captured voice input to a voice recognition service for processing into textual data; matching the textual data with metadata associated with the source file to identify corresponding content pages; and dynamically grouping the identified content pages into one or more associated groups for seamless navigation during the presentation.

[0158] In some embodiments, referring to FIG. 10C, and FIG. 12, the method further includes utilizing a laptop or tablet device equipped with an audio input module to capture a perceptual input command in the form of a voice input; transmitting the captured voice input to a voice recognition service hosted locally on the laptop or tablet or on an external server; processing the voice input to generate textual data and matching the textual data with metadata associated with content pages; and dynamically updating the associated groups based on the matched content to facilitate seamless navigation during the presentation.

[0159] In some embodiments, referring to FIG. 11A to FIG. 11C, the method further includes dynamically filtering perceptual input commands in a multi-speaker environment, wherein the system identifies and processes relevant commands based on a predefined voice profile or active input source; selectively disabling automatic content navigation in response to background or overlapping voice inputs to maintain presentation stability; and re-enabling content navigation and association features upon detecting a single active input source.

[0160] In some embodiments, referring to FIG. 11B and FIG. 8, the method further includes receiving sequential perceptual input commands during a structured discussion or one-on-one Q&A session; processing each perceptual input command to match corresponding associated content; dynamically updating associated groups to reflect the matched content; and generating a floating window displaying sequentially identified associated content in response to each perceptual input command, enabling smooth transitions between related content during the structured interaction.

[0161] In some embodiments, referring to FIG. 11C and FIG. 10A, the method further includes detecting and isolating intentional voice commands from background noise during small group discussions; distinguishing between high-priority user inputs and low-volume ambient chatter; and adapting to varying audio conditions to ensure accurate recognition of the perceptual input command in informal presentation environments.

[0162] In some embodiments, referring to FIG. 9 and FIG. 18, the respective associated group further comprises external content comprising at least one of web links, audio files, or video files.

[0163] In some embodiments, referring to FIG. 12, the method further includes simulating keyboard or mouse input to the content presentation software, via the intelligent interaction software, to navigate to a matched content page.

[0164] In some embodiments, referring to FIG. 3A to FIG. 3D, the method further includes automatically updating the associated groups in response to changes in the source file. Optionally, the intelligent interaction software detects updates in the source file and synchronizes the content pages and metadata in the associated groups.

[0165] In another aspect, the present disclosure provides an apparatus, comprising a memory; and one or more processors; wherein the memory and the one or more processors are connected with each other; and the memory stores computer-executable instructions for controlling the one or more processors to initiate a presentation system configured with a content presentation software and an intelligent interaction software; parse, by the intelligent interaction software, a source file opened by the content presentation software; and generate and displaying a floating window on a user interface. Optionally, the floating window dynamically retrieves and presents one or more elements of content data based on the current presentation context. Optionally, the content data comprises at least one of a content page, metadata, extracted information, associated data, or an interactive element.

[0166] In some embodiments, the memory stores computer-executable instructions for further controlling the one or more processors to create a plurality of associated groups, wherein a respective associated group of the plurality of associated groups comprises one or more content pages from the source file. Optionally, the floating window dynamically retrieves and presents content pages from one or more associated groups based on the current presentation context.

[0167] In some embodiments, to parse the source file opened by the content presentation software, the memory stores computer-executable instructions for further controlling the one or more processors to extract content structure and metadata to identify content pages and associated data.

[0168] In some embodiments, the memory stores computer-executable instructions for further controlling the one or more processors to detect a perceptual input command, and recognizing the perceptual input command.

[0169] In some embodiments, the memory stores computer-executable instructions for further controlling the one or more processors to match a recognized input from recognizing the perceptual input command with contents in a content page; upon determination that a match is found, retrieve a target content item identifier corresponding to a matched content.

[0170] In some embodiments, the memory stores computer-executable instructions for further controlling the one or more processors to switch to a target content item identified by the target content item identifier; and cause a display panel to display the target content item.

[0171] In some embodiments, the perceptual input command is a voice command. Optionally, the voice command is received via an audio input module and processed using a voice recognition service to convert the voice command into text; the text is compared with metadata associated with content pages to identify a match; and upon identifying a match, the method retrieves a target content item identifier corresponding to the matched content page.

[0172] In some embodiments, the perceptual input command is received via an air mouse enabling a first mode and a second mode. Optionally, the first mode allows temporary display of associated content when a selection is made without confirmation; and the second mode navigates the presentation system to a target content item upon user confirmation.

[0173] In some embodiments, the perceptual input command is received through a remote control device. Optionally, the remote control device includes a touch-sensitive display for presenting a list of associated content pages; and an interactive interface for selecting a target content page directly on the display.

[0174] In some embodiments, the presentation system is implemented on a laptop device. Optionally, the floating window is configured to display associated content pages without interrupting the presentation view on a main display; and automatically synchronize with the current presentation content.

[0175] In some embodiments, to create the plurality of associated groups, the memory stores computer-executable instructions for further controlling the one or more processors to receive, via a user interface, user input to manually create associations between content pages within the source file, wherein the user input comprises drag-and-drop actions to designate related pages as part of an associated group.

[0176] In some embodiments, the memory stores computer-executable instructions for further controlling the one or more processors to receive a perceptual input command via a voice recognition service, wherein the perceptual input command is processed to identify content-specific metadata, including page titles, keywords, or descriptors; dynamically associate identified content pages with relevant groups based on the recognized input; and enable real-time navigation to the identified content pages without manual intervention.

[0177] In some embodiments, the memory stores computer-executable instructions for further controlling the one or more processors to utilize a laser pointer integrated with a voice input module to capture a perceptual input command; transmit the captured voice input to a voice recognition service for processing into textual data; match the textual data with metadata associated with the source file to identify corresponding content pages; and dynamically group the identified content pages into one or more associated groups for seamless navigation during the presentation.

[0178] In some embodiments, the memory stores computer-executable instructions for further controlling the one or more processors to utilize a laptop or tablet device equipped with an audio input module to capture a perceptual input command in the form of a voice input; transmit the captured voice input to a voice recognition service hosted locally on the laptop or tablet or on an external server; process the voice input to generate textual data and matching the textual data with metadata associated with content pages; and dynamically update the associated groups based on the matched content to facilitate seamless navigation during the presentation.

[0179] In some embodiments, the memory stores computer-executable instructions for further controlling the one or more processors to dynamically filter perceptual input commands in a multi-speaker environment, wherein the system identifies and processes relevant commands based on a predefined voice profile or active input source; selectively disable automatic content navigation in response to background or overlapping voice inputs to maintain presentation stability; and re-enable content navigation and association features upon detecting a single active input source.

[0180] In some embodiments, the memory stores computer-executable instructions for further controlling the one or more processors to receive sequential perceptual input commands during a structured discussion or one-on-one Q&A session; process each perceptual input command to match corresponding associated content; dynamically update associated groups to reflect the matched content; and generate a floating window displaying sequentially identified associated content in response to each perceptual input command, enabling smooth transitions between related content during the structured interaction.

[0181] In some embodiments, the memory stores computer-executable instructions for further controlling the one or more processors to detect and isolate intentional voice commands from background noise during small group discussions; distinguish between high-priority user inputs and low-volume ambient chatter; and adapt to varying audio conditions to ensure accurate recognition of the perceptual input command in informal presentation environments.

[0182] In some embodiments, the respective associated group further comprises external content comprising at least one of web links, audio files, or video files.

[0183] In some embodiments, the memory stores computer-executable instructions for further controlling the one or more processors to simulate keyboard or mouse input to the content presentation software, via the intelligent interaction software, to navigate to a matched content page.

[0184] In some embodiments, the memory stores computer-executable instructions for further controlling the one or more processors to automatically update the associated groups in response to changes in the source file. Optionally, the intelligent interaction software detects updates in the source file and synchronizes the content pages and metadata in the associated groups.

[0185] In another aspect, the present disclosure provides a display apparatus, comprising the apparatus described herein or fabricated by a method described herein, and the display panel.

[0186] In another aspect, the present disclosure provides a computer-program product, comprising a non-transitory tangible computer-readable medium having computer-readable instructions thereon, the computer-readable instructions being executable by a processor to cause the processor to perform initiating a presentation system configured with a content presentation software and an intelligent interaction software; parsing, by the intelligent interaction software, a source file opened by the content presentation software; and generating and displaying a floating window on a user interface. Optionally, the floating window dynamically retrieves and presents conte one or more elements of content data based on the current presentation context. Optionally, the content data comprises at least one of a content page, metadata, extracted information, associated data, or an interactive element.

[0187] In some embodiments, the computer-readable instructions are executable by one or more processors to cause the one or more processors to further perform creating a plurality of associated groups, wherein a respective associated group of the plurality of associated groups comprises one or more content pages from the source file. Optionally, the floating window dynamically retrieves and presents content pages from one or more associated groups based on the current presentation context.

[0188] In some embodiments, the parsing extracts content structure and metadata to identify content pages and associated data.

[0189] In some embodiments, the computer-readable instructions are executable by one or more processors to cause the one or more processors to further perform detecting a perceptual input command, and recognizing the perceptual input command.

[0190] In some embodiments, the computer-readable instructions are executable by one or more processors to cause the one or more processors to further perform matching a recognized input from recognizing the perceptual input command with contents in a content page; and upon determination that a match is found, retrieving a target content item identifier corresponding to a matched content.

[0191] In some embodiments, the computer-readable instructions are executable by one or more processors to cause the one or more processors to further perform switching to a target content item identified by the target content item identifier; and causing a display panel to display the target content item.

[0192] In some embodiments, the perceptual input command is a voice command. Optionally, the voice command is received via an audio input module and processed using a voice recognition service to convert the voice command into text; the text is compared with metadata associated with content pages to identify a match; and upon identifying a match, the method retrieves a target content item identifier corresponding to the matched content page.

[0193] In some embodiments, the perceptual input command is received via an air mouse enabling a first mode and a second mode. Optionally, the first mode allows temporary display of associated content when a selection is made without confirmation; and the second mode navigates the presentation system to a target content item upon user confirmation.

[0194] In some embodiments, the perceptual input command is received through a remote control device. Optionally, the remote control device includes a touch-sensitive display for presenting a list of associated content pages; and an interactive interface for selecting a target content page directly on the display.

[0195] In some embodiments, the presentation system is implemented on a laptop device. Optionally, the floating window is configured to display associated content pages without interrupting the presentation view on a main display; and automatically synchronize with the current presentation content.

[0196] In some embodiments, for creating the plurality of associated groups, the computer-readable instructions are executable by one or more processors to cause the one or more processors to further perform receiving, via a user interface, user input to manually create associations between content pages within the source file, wherein the user input comprises drag-and-drop actions to designate related pages as part of an associated group.

[0197] In some embodiments, the computer-readable instructions are executable by one or more processors to cause the one or more processors to further perform receiving a perceptual input command via a voice recognition service, wherein the perceptual input command is processed to identify content-specific metadata, including page titles, keywords, or descriptors; dynamically associating identified content pages with relevant groups based on the recognized input; and enabling real-time navigation to the identified content pages without manual intervention.

[0198] In some embodiments, the computer-readable instructions are executable by one or more processors to cause the one or more processors to further perform utilizing a laser pointer integrated with a voice input module to capture a perceptual input command; transmitting the captured voice input to a voice recognition service for processing into textual data; matching the textual data with metadata associated with the source file to identify corresponding content pages; and dynamically grouping the identified content pages into one or more associated groups for seamless navigation during the presentation.

[0199] In some embodiments, the computer-readable instructions are executable by one or more processors to cause the one or more processors to further perform utilizing a laptop or tablet device equipped with an audio input module to capture a perceptual input command in the form of a voice input; transmitting the captured voice input to a voice recognition service hosted locally on the laptop or tablet or on an external server; processing the voice input to generate textual data and matching the textual data with metadata associated with content pages; and dynamically updating the associated groups based on the matched content to facilitate seamless navigation during the presentation.

[0200] In some embodiments, the computer-readable instructions are executable by one or more processors to cause the one or more processors to further perform dynamically filtering perceptual input commands in a multi-speaker environment, wherein the system identifies and processes relevant commands based on a predefined voice profile or active input source; selectively disabling automatic content navigation in response to background or overlapping voice inputs to maintain presentation stability; and re-enabling content navigation and association features upon detecting a single active input source.

[0201] In some embodiments, the computer-readable instructions are executable by one or more processors to cause the one or more processors to further perform receiving sequential perceptual input commands during a structured discussion or one-on-one Q&A session; processing each perceptual input command to match corresponding associated content; dynamically updating associated groups to reflect the matched content; and generating a floating window displaying sequentially identified associated content in response to each perceptual input command, enabling smooth transitions between related content during the structured interaction.

[0202] In some embodiments, the computer-readable instructions are executable by one or more processors to cause the one or more processors to further perform detecting and isolating intentional voice commands from background noise during small group discussions; distinguishing between high-priority user inputs and low-volume ambient chatter; and adapting to varying audio conditions to ensure accurate recognition of the perceptual input command in informal presentation environments.

[0203] In some embodiments, the respective associated group further comprises external content comprising at least one of web links, audio files, or video files.

[0204] In some embodiments, the computer-readable instructions are executable by one or more processors to cause the one or more processors to further perform simulating keyboard or mouse input to the content presentation software, via the intelligent interaction software, to navigate to a matched content page.

[0205] In some embodiments, the computer-readable instructions are executable by one or more processors to cause the one or more processors to further perform automatically updating the associated groups in response to changes in the source file. Optionally, the intelligent interaction software detects updates in the source file and synchronizes the content pages and metadata in the associated groups.

[0206] The foregoing description of the embodiments of the invention has been presented for purposes of illustration and description. It is not intended to be exhaustive or to limit the invention to the precise form or to exemplary embodiments disclosed. Accordingly, the foregoing description should be regarded as illustrative rather than restrictive. Obviously, many modifications and variations will be apparent to practitioners skilled in this art. The embodiments are chosen and described in order to explain the principles of the invention and its best mode practical application, thereby to enable persons skilled in the art to understand the invention for various embodiments and with various modifications as are suited to the particular use or implementation contemplated. It is intended that the scope of the invention be defined by the claims appended hereto and their equivalents in which all terms are meant in their broadest reasonable sense unless otherwise indicated. Therefore, the term “the invention” , “the present invention” or the like does not necessarily limit the claim scope to a specific embodiment, and the reference to exemplary embodiments of the invention does not imply a limitation on the invention, and no such limitation is to be inferred. The invention is limited only by the spirit and scope of the appended claims. Moreover, these claims may refer to use “first” , “second” , etc. following with noun or element. Such terms should be understood as a nomenclature and should not be construed as giving the limitation on the number of the elements modified by such nomenclature unless specific number has been given. Any advantages and benefits described may not apply to all embodiments of the invention. It should be appreciated that variations may be made in the embodiments described by persons skilled in the art without departing from the scope of the present invention as defined by the following claims. Moreover, no element and component in the present disclosure is intended to be dedicated to the public regardless of whether the element or component is explicitly recited in the following claims.

Claims

1.A method for dynamically managing and navigating associated content in a presentation system, comprising:initiating a presentation system configured with a content presentation software and an intelligent interaction software;parsing, by the intelligent interaction software, a source file opened by the content presentation software; andgenerating and displaying a floating window on a user interface;wherein the floating window dynamically retrieves and presents one or more elements of content data based on the current presentation context; andthe content data comprises at least one of a content page, metadata, extracted information, associated data, or an interactive element.2.The method of claim 1, further comprising creating a plurality of associated groups, wherein a respective associated group of the plurality of associated groups comprises one or more content pages from the source file;wherein the floating window dynamically retrieves and presents content pages from one or more associated groups based on the current presentation context.3.The method of claim 1, wherein the parsing extracts content structure and metadata to identify content pages and associated data.4.The method of claim 1, further comprising detecting a perceptual input command, and recognizing the perceptual input command.5.The method of claim 4, further comprising:matching a recognized input from recognizing the perceptual input command with contents in a content page; andupon determination that a match is found, retrieving a target content item identifier corresponding to a matched content.6.The method of claim 5, further comprising:switching to a target content item identified by the target content item identifier; anddisplaying the target content item.7.The method of any one of claims 4 to 6, wherein the perceptual input command is a voice command;wherein the voice command is received via an audio input module and processed using a voice recognition service to convert the voice command into text;the text is compared with metadata associated with content pages to identify a match; andupon identifying a match, the method retrieves a target content item identifier corresponding to the matched content page.8.The method of any one of claims 4 to 6, wherein the perceptual input command is received via an air mouse enabling a first mode and a second mode;wherein the first mode allows temporary display of associated content when a selection is made without confirmation; andthe second mode navigates the presentation system to a target content item upon user confirmation.9.The method of any one of claims 4 to 6, wherein the perceptual input command is received through a remote control device;wherein the remote control device comprises:a touch control display for presenting a list of associated content pages; andan interactive interface for selecting a target content page directly on the touch control display.10.The method of any one of claims 4 to 6, wherein the presentation system is implemented on a laptop device;wherein the floating window is configured to:display associated content pages without interrupting the presentation view on a main display; andautomatically synchronize with the current presentation content.11.The method of any one of claims 1 to 10, wherein creating the plurality of associated groups comprises receiving, via a user interface, user input to manually create associations between content pages within the source file, wherein the user input comprises drag-and-drop actions to designate related pages as part of an associated group.12.The method of any one of claims 1 to 11, further comprising:receiving a perceptual input command via a voice recognition service, wherein the perceptual input command is processed to identify content-specific metadata, including page titles, keywords, or descriptors;dynamically associating identified content pages with relevant groups based on the recognized input; andenabling real-time navigation to the identified content pages without manual intervention.13.The method of any one of claims 1 to 11, further comprising:utilizing a laser pointer integrated with a voice input module to capture a perceptual input command;transmitting the captured voice input to a voice recognition service for processing into textual data;matching the textual data with metadata associated with the source file to identify corresponding content pages; anddynamically grouping the identified content pages into one or more associated groups for seamless navigation during the presentation.14.The method of any one of claims 1 to 11, further comprising:utilizing a laptop or tablet device equipped with an audio input module to capture a perceptual input command in the form of a voice input;transmitting the captured voice input to a voice recognition service hosted locally on the laptop or tablet or on an external server;processing the voice input to generate textual data and matching the textual data with metadata associated with content pages; anddynamically updating the associated groups based on the matched content to facilitate seamless navigation during the presentation.15.The method of any one of claims 1 to 11, further comprising:dynamically filtering perceptual input commands in a multi-speaker environment, wherein the system identifies and processes relevant commands based on a predefined voice profile or active input source;selectively disabling automatic content navigation in response to background or overlapping voice inputs to maintain presentation stability; andre-enabling content navigation and association features upon detecting a single active input source.16.The method of any one of claims 1 to 11, further comprising:automatically disabling content association feature in response to detecting a multi-speaker environment, to prevent unintended disruptions to the presentation; andmaintaining a consistent presentation view by prioritizing stability of displayed content, even when multiple participants are speaking simultaneously.17.The method of any one of claims 1 to 11, further comprising:receiving sequential perceptual input commands during a structured discussion or one-on-one Q&Asession;processing each perceptual input command to match corresponding associated content;dynamically updating associated groups to reflect the matched content; andgenerating a floating window displaying sequentially identified associated content in response to each perceptual input command, enabling smooth transitions between related content during the structured interaction.18.The method of any one of claims 1 to 11, further comprising:activating content association feature during a structured discussion or one-on-one Q&Asession; andprocessing perceptual input commands sequentially, identifying associated content, and facilitating smooth transitions between slides or pages to maintain a flow of the presentation.19.The method of any one of claims 1 to 11, further comprising:detecting and isolating intentional voice commands from background noise during small group discussions;distinguishing between high-priority user inputs and low-volume ambient chatter; andadapting to varying audio conditions to ensure accurate recognition of the perceptual input command in informal presentation environments.20.The method of any one of claims 1 to 11, further comprising:filtering perceptual input commands in a small meeting scenario by excluding background noise and focusing on intentional voice commands; andenabling responsive and uninterrupted presentation interactions in informal settings.21.The method of any one of claims 1 to 20, wherein the respective associated group further comprises external content comprising at least one of web links, audio files, or video files.22.The method of any one of claims 1 to 21, further comprising simulating keyboard or mouse input to the content presentation software, via the intelligent interaction software, to navigate to a matched content page.23.The method of any one of claims 1 to 22, further comprising automatically updating the associated groups in response to changes in the source file;wherein the intelligent interaction software detects updates in the source file and synchronizes the content pages and metadata in the associated groups.24.An apparatus, comprising:a memory; andone or more processors;wherein the memory and the one or more processors are connected with each other; andthe memory stores computer-executable instructions for controlling the one or more processors to:initiate a presentation system configured with a content presentation software and an intelligent interaction software;parse, by the intelligent interaction software, a source file opened by the content presentation software; andgenerate and displaying a floating window on a user interface;wherein the floating window dynamically retrieves and presents one or more elements of content data based on the current presentation context;the content data comprises at least one of a content page, metadata, extracted information, associated data, or an interactive element.25.A computer-program product, comprising a non-transitory tangible computer-readable medium having computer-readable instructions thereon, the computer-readable instructions being executable by a processor to cause the processor to perform:initiating a presentation system configured with a content presentation software and an intelligent interaction software; andparsing, by the intelligent interaction software, a source file opened by the content presentation software;generating and displaying a floating window on a user interface;wherein the floating window dynamically retrieves and presents one or more elements of content data based on the current presentation context; andthe content data comprises at least one of a content page, metadata, extracted information, associated data, or an interactive element.